怎么樣檢查網(wǎng)站有沒(méi)有做全站301網(wǎng)站群發(fā)軟件
Flink+Spark相關(guān)記錄
- FlinkSQL
- Flink Streaming的一些點(diǎn)
- 覆寫(xiě)RichSource、RichSink、RichMap
1.Source自動(dòng)負(fù)載均衡,CDC源端加入一個(gè)全局調(diào)控的節(jié)點(diǎn)監(jiān)控流量流速
2.Sink并發(fā)寫(xiě)入
3.Map與Iterator與增量迭代等用法 - 關(guān)于Checkpoint幾個(gè)用法
1.提交Commit至目的端數(shù)據(jù)庫(kù)
2.UnalignedCheckpoint與ChandyLamport與ChangeLog存增量快照
3.Buffer寫(xiě)盤(pán)
4.ckp與record共搶一把鎖,獨(dú)占writeBuffer(1.16版本),ckp禁止太快
5.State寫(xiě)盤(pán)+broadcast+JVM+keyState+operatorState+并行度自動(dòng)擴(kuò)縮容時(shí)恢復(fù)
Spark記錄
- groupByKey
- reduceByKey
- combineByKey(createCombiner+mergeValue+mergeCombiner)
- aggregate(n)(seqOp,combOp)
- 關(guān)于ByKey和Join不一定會(huì)產(chǎn)生shuffle,先設(shè)置好new HashPartition或Custom或Range、之后直接forward不需要shuffle
- Driver產(chǎn)生一個(gè)DAG
1.一個(gè)DAG里的一個(gè)節(jié)點(diǎn)=>一個(gè)RDD
2.一個(gè)RDD=>多個(gè)分區(qū)
3.一個(gè)分區(qū)=>一個(gè)Task
===>一個(gè)DAG有多個(gè)RDD,一個(gè)RDD有多個(gè)Task
===>也就是DAG控制多個(gè)彈性數(shù)據(jù)集流轉(zhuǎn)
- JVM與堆外內(nèi)存
- JVM里的StorageMemory(讀RDD用)和ExecutionMemory(shuffle/agg/join用)
- 關(guān)于合理設(shè)計(jì)Block->TaskPartition大小,(4G-200M)*0.5,又因?yàn)閯?dòng)態(tài)可以彈性,可直接3.8G
- Spark設(shè)置cache和persist緩存級(jí)別(每個(gè)分區(qū)的都會(huì)cache,cache務(wù)必保證100%否則重算)
- 對(duì)于Flink又有一個(gè)slot(JVM)里運(yùn)行多個(gè)算子,所以可以考慮slot內(nèi)數(shù)據(jù)總量和資源消耗整體分析
- 關(guān)于Executor add后很久才執(zhí)行,說(shuō)明任務(wù)調(diào)度擁堵
- 堆外內(nèi)存