百度網(wǎng)做網(wǎng)站嗎寧波外貿(mào)網(wǎng)站推廣優(yōu)化
作者:南墨
一、概述
由于Kudu是Hadoop生態(tài)的一部分(雖然它不依賴于Hadoop生態(tài)系統(tǒng)),因此大多數(shù)實(shí)際應(yīng)用場(chǎng)景需要的不僅僅是Kudu;為了輸入數(shù)據(jù),可能需要Kafka、StreamSets或Spark Streaming;對(duì)于機(jī)器學(xué)習(xí)和數(shù)據(jù)處理,可能需要Spark;對(duì)于交互式SQL,我們也肯定想要Impala。
實(shí)際上,Kudu和Hadoop生態(tài)系統(tǒng)緊密低集成正是其優(yōu)勢(shì)之一,因此我們很少單獨(dú)使用Kudu,所以,在討論Kudu集群規(guī)劃時(shí),一般不僅僅是考慮到Kudu。
舉個(gè)例子:Kudu經(jīng)常與Impala一起使用,Impala依賴Hive,而Hive依賴于HDFS,這就意味著我們將Kudu與Impala放在一起使用,而且還要配上Hive和HDFS。根據(jù)以往經(jīng)驗(yàn):Kudu和HDFS很容易和諧共存,甚至可以共享磁盤,但是我們要正確配置它們。
二、資源規(guī)劃
1、Master
Master服務(wù)器負(fù)責(zé)存儲(chǔ)元數(shù)據(jù)信息(客戶端應(yīng)用程序定位數(shù)據(jù)的位置時(shí)需要用到它們),一般不會(huì)頻繁操作master,可以在小服務(wù)器(硬件)上安裝;一般3臺(tái)即可(與復(fù)制因子數(shù)相同,為奇數(shù))。
2、Tablet
Tablet的作用是執(zhí)行所有與數(shù)據(jù)相關(guān)的操作:存儲(chǔ)、訪問(wèn)、編碼、壓縮、compaction和復(fù)制,且tablet還負(fù)責(zé)將數(shù)據(jù)復(fù)制到其他tablet服務(wù)器上,工作較為繁重,是我們需要可擴(kuò)展性的地方。
規(guī)劃建議與限制
選項(xiàng) | 最佳性能(建議值) | 限制 |
---|---|---|
tablet server數(shù) | 不超過(guò)100 | 300+ |
tablet數(shù)/tablet server(含副本) | 1000+ | 4000+ |
tablet數(shù)/表/tablet server(含副本) | 60+ | 60+ |
單臺(tái)tablet server存儲(chǔ)數(shù)據(jù)(含副本,壓縮后) | 8TB+ | 10TB+ |
單tablet存儲(chǔ)數(shù)據(jù)(超過(guò)會(huì)性能下降、合并失敗、啟動(dòng)慢) | 10G | 50G |
單tablet對(duì)應(yīng)CPU核心數(shù)(不考慮副本,不考慮小表) | 1 | 多對(duì)1 |
tablet server內(nèi)存 | 16G以上最佳 | 不低于4G |
三、集群規(guī)模
1、節(jié)點(diǎn)數(shù)
Master 必須是奇數(shù),3或者5臺(tái)為佳,7臺(tái)就多;
Tablet Server 取決于數(shù)據(jù)規(guī)模,但最多不超過(guò)1000臺(tái)的規(guī)模,以300以內(nèi)性能最佳。
2、tserver服務(wù)器數(shù)量 公式
t=d/(k*(1-p))*r
t | tserver數(shù)量 |
---|---|
d | 以Parquet格式存儲(chǔ)的數(shù)據(jù)總量(可以將一段時(shí)間的數(shù)據(jù)以Parquet格式存儲(chǔ)到HDFS上做預(yù)估) |
k | 每個(gè)Tablet Server的最大磁盤容量(建議8T) |
p | 余量,一般0.25 |
r | tablet副本因子,一般為3 |
eg.
d=120T
K=8T
p=25%
r=3
t=(120 / (8 * (1 - 0.25)))*3 = 60
四、內(nèi)存和CPU
角色 | 內(nèi)存 | CPU | 說(shuō)明 |
---|---|---|---|
Master | 16G | 8C | Master不保存用戶數(shù)據(jù),對(duì)于內(nèi)存,CPU占用資源bitserver要少很多 |
Tablet Server | 64G | 2*12C | 考慮跟Impala混合部署場(chǎng)景(有datanode和nodemanager會(huì)更大) |
五、磁盤
Kudu針對(duì)SSD盤做了特別優(yōu)化,推薦使用SSD
角色 | OS | WAL | metadata | data |
---|---|---|---|---|
master | 2*512 SSD RAID 1 | 共享OS | 共享OS | 共享OS |
tablet server | 2*512 SSD RAID 1 | 12TM.2接口(NVMe協(xié)議)SSD | 共享WAL | 7*2TSSD,用于存儲(chǔ)數(shù)據(jù) |
注:
1)這里NVMe是一種非常快速的PCIe閃存適配器(考慮到負(fù)載,最好為WAL規(guī)劃配置快速SSD NVMe),特別是對(duì)于大型生產(chǎn)環(huán)境,不建議將WAL設(shè)置到專門的HDD上,這樣會(huì)影響寫入性能和故障的恢復(fù)時(shí)間。
性能對(duì)比:
存儲(chǔ)介質(zhì) | IOPS | 吞吐率(MB/s) |
---|---|---|
HDD | 55~180 | 50~180 |
SSD | 3000~40000 | 300~2000(SAS最大能達(dá)到2812MB/s) |
NVMe PCIe閃存 | 150000~1000000以上 | 最大為6400(6.4GB/s) |
2)WAL、metadata、data 配置目錄
–fs_wal_dir
–fs_metadata_dir
–fs_data_dirs
3)對(duì)于Kudu上的用戶數(shù)據(jù),在服務(wù)器上提供盡可能多的HDD(SSD更好!);另外對(duì)于已經(jīng)部署了HDFS的集群,與Kudu公用節(jié)點(diǎn)時(shí),不必專門分開磁盤,將他們共用數(shù)據(jù)盤即可。
六、網(wǎng)卡
Master和Tablet Server和 2塊萬(wàn)兆網(wǎng)卡綁定
參考:
https://kudu.apache.org/docs/known_issues.html
更多技術(shù)信息請(qǐng)查看云掣官網(wǎng)https://yunche.pro/?t=yrgw