專做裝修的網(wǎng)站凡科建站怎么導(dǎo)出網(wǎng)頁
最近Apche Paimon發(fā)布了最新版本0.7.0,在這個版本中,Paimon對一些新特性進(jìn)行了增強(qiáng)。
Paimon在數(shù)據(jù)湖領(lǐng)域發(fā)展迅速,未來會在整個數(shù)據(jù)開發(fā)領(lǐng)域占有很重要的地位,今天我們來盤點一下當(dāng)前能力的特點以及在生產(chǎn)環(huán)境中的使用情況。
Look up join
在實時數(shù)據(jù)開發(fā)領(lǐng)域,Look up join一般被認(rèn)為等效于「維度表關(guān)聯(lián)」。在一些企業(yè)的分享中,利用Paimon進(jìn)行維度表關(guān)聯(lián),是一個比較常見的方式或者是未來的規(guī)劃。
在Paimon的最新版本中,針對Look up join做了一些優(yōu)化如下:
修復(fù)了lookup join 不能正確處理維表的 sequence field 問題。
基于 Paimon 的 hash lookup join,添加了 primary key partial lookup 功能。
通過并行讀取文件和批加載的方式,加快了維表的初始化數(shù)據(jù)加載速度。
維度表關(guān)聯(lián)在生產(chǎn)環(huán)境中是一個經(jīng)常被提及和使用的能力,但是目前根據(jù)個人經(jīng)驗,利用Paimon/Hudi進(jìn)行維度表關(guān)聯(lián)目前不是一個很好的選擇。主要的不足包括:Paimon/Hudi這樣的表本身并不適合存儲維度數(shù)據(jù),有更好的選擇例如Hbase/Redis或者基于這兩個框架開發(fā)的其他高速存儲;此外,維度表關(guān)聯(lián)在復(fù)雜/大數(shù)據(jù)規(guī)模下問題非常多,例如緩存命中率/緩存時間/加載頻率/訪問限速等等,這些問題在大數(shù)據(jù)量下會被放大,是不得不解決的問題。在很多公司的生產(chǎn)環(huán)境針對維度表優(yōu)化是一個很重要的課題。
所以,大家需要謹(jǐn)慎評估使用湖表的look up join能力。
CDC能力
大家要特別注意的是,CDC能力分兩個部分:
第一,CDC入Paimon
這個能力是一個基礎(chǔ)能力,Paimon在新的CDC接入支持上越來越完善,這個是各類型湖表都在持續(xù)完善的能力。
CDC數(shù)據(jù)入湖在時效/存儲/計算成本上都會有獨特的優(yōu)勢,大家可以持續(xù)關(guān)注。
第二,Paimon CDC能力
這個能力未來是否具備,大家可以持續(xù)關(guān)注,一旦Paimon具備的CDC能力,未來在技術(shù)架構(gòu)上會有巨大的改變。Paimon將同時具備批讀和流讀能力,會在某些場景下改變現(xiàn)有的技術(shù)架構(gòu),那就真的是未來可期。
完善對接Spark/Hive
在結(jié)合Spark/Hive方面,能力不斷完善,這也是Paimon這類湖表框架未來被更廣泛使用的基礎(chǔ)。
此外還有一些功能上的改進(jìn),例如支持 level0FileCount,它可以用于查看 compaction 作業(yè)的進(jìn)度;time travel能力增強(qiáng)等等。
總之,大家持續(xù)關(guān)注Paimon社區(qū)的發(fā)展,未來在生產(chǎn)環(huán)境會有更廣泛和深入的應(yīng)用。
300萬字!全網(wǎng)最全大數(shù)據(jù)學(xué)習(xí)面試社區(qū)等你來!
如果這個文章對你有幫助,不要忘記?「在看」?「點贊」?「收藏」?三連啊喂!
全網(wǎng)首發(fā)|大數(shù)據(jù)專家級技能模型與學(xué)習(xí)指南(勝天半子篇)
互聯(lián)網(wǎng)最壞的時代可能真的來了
我在B站讀大學(xué),大數(shù)據(jù)專業(yè)
我們在學(xué)習(xí)Flink的時候,到底在學(xué)習(xí)什么?
193篇文章暴揍Flink,這個合集你需要關(guān)注一下
Flink生產(chǎn)環(huán)境TOP難題與優(yōu)化,阿里巴巴藏經(jīng)閣YYDS
Flink CDC我吃定了耶穌也留不住他!| Flink CDC線上問題小盤點
我們在學(xué)習(xí)Spark的時候,到底在學(xué)習(xí)什么?
在所有Spark模塊中,我愿稱SparkSQL為最強(qiáng)!
硬剛Hive | 4萬字基礎(chǔ)調(diào)優(yōu)面試小總結(jié)
數(shù)據(jù)治理方法論和實踐小百科全書
標(biāo)簽體系下的用戶畫像建設(shè)小指南
4萬字長文 | ClickHouse基礎(chǔ)&實踐&調(diào)優(yōu)全視角解析
【面試&個人成長】社招和校招的經(jīng)驗之談
大數(shù)據(jù)方向另一個十年開啟 |《硬剛系列》第一版完結(jié)
我寫過的關(guān)于成長/面試/職場進(jìn)階的文章
當(dāng)我們在學(xué)習(xí)Hive的時候在學(xué)習(xí)什么?「硬剛Hive續(xù)集」