邵陽屬于哪個省哪個市網(wǎng)站排名優(yōu)化的技巧
? 在數(shù)據(jù)不斷寫入 Hudi 期間,Hudi 會不斷生成 commit、deltacommit、clean 等 Instant 記錄每一次操作類型、狀態(tài)及詳細(xì)的元數(shù)據(jù),這些 Instant 最終都會存到 .hoodie 元數(shù)據(jù)目錄下,為了避免元數(shù)據(jù)文件數(shù)量過多,ActiveTimeline 越來越長,需要對比較久遠(yuǎn)的操作進(jìn)行歸檔(archive),將這部分操作移到 .hoodie/archive 目錄下,單獨(dú)形成一個 ArchivedTimeline。
Apache Hudi中,commit、deltacommit和clean是與數(shù)據(jù)管理和維護(hù)相關(guān)的文件。
-
Commit(提交)文件:在Hudi中,commit文件是用于記錄數(shù)據(jù)寫入操作的元數(shù)據(jù)文件。每次寫入數(shù)據(jù)時(shí),Hudi會生成一個commit文件,其中包含了寫入數(shù)據(jù)的時(shí)間戳、數(shù)據(jù)文件的路徑等信息。Commit文件的存在可以確保數(shù)據(jù)的一致性和可恢復(fù)性。
-
DeltaCommit(增量提交)文件:DeltaCommit文件是用于記錄增量數(shù)據(jù)寫入操作的元數(shù)據(jù)文件。增量數(shù)據(jù)是指在已有數(shù)據(jù)的基礎(chǔ)上進(jìn)行的更新、插入或刪除操作。每次進(jìn)行增量操作時(shí),Hudi會生成一個DeltaCommit文件,其中包含了增量操作的元數(shù)據(jù)信息。DeltaCommit文件的存在可以追蹤到增量操作的歷史,以便在需要時(shí)進(jìn)行回滾或恢復(fù)。
-
Clean(清理)文件:Clean文件是用于記錄數(shù)據(jù)清理操作的元數(shù)據(jù)文件。當(dāng)Hudi需要清理或刪除過期或無效的數(shù)據(jù)時(shí),會生成一個Clean文件,其中包含了要清理的數(shù)據(jù)文件的路徑等信息。Clean文件的存在可以確保數(shù)據(jù)的清理操作被記錄和跟蹤。
這些文件的存在和管理是為了確保數(shù)據(jù)的一致性、可恢復(fù)性和清理操作的追蹤。
Clean(清理)文件一般用于記錄需要清理的過期或無效的數(shù)據(jù)文件的路徑等信息。具體來說,Clean文件通常用于清理已經(jīng)過期的舊版本數(shù)據(jù)文件,或者清理已經(jīng)標(biāo)記為刪除的數(shù)據(jù)文件。通過清理這些文件,可以釋放存儲空間并保持?jǐn)?shù)據(jù)的整潔性。清理的具體規(guī)則和策略可以根據(jù)實(shí)際需求進(jìn)行配置和管理。
17張圖帶你徹底理解Hudi Upsert原理 - 知乎 (zhihu.com)