企術(shù)建站公司網(wǎng)站設(shè)計(jì)方案
該工具發(fā)布背景
近年來(lái),國(guó)產(chǎn)服務(wù)器CPU產(chǎn)業(yè)的逐漸發(fā)展,但由于專業(yè)性較差,與國(guó)外存在40年以上技術(shù)差距,一些服務(wù)器CPU廠商利用信息差來(lái)制造一些非專業(yè)的數(shù)據(jù)夸大并虛假宣傳混淆視聽(tīng),成功達(dá)到劣幣驅(qū)良幣的目標(biāo),本著正本清源驅(qū)除劣幣以正視聽(tīng)讓國(guó)產(chǎn)服務(wù)器CPU產(chǎn)業(yè)達(dá)到良性競(jìng)爭(zhēng)的目標(biāo),四川墨道科技放出部分專業(yè)的異數(shù)OS服務(wù)器CPU效能分析工具,讓更多業(yè)內(nèi)人士能夠更加準(zhǔn)確的認(rèn)識(shí)分辨國(guó)產(chǎn)服務(wù)器CPU性能,以此幫助落后40年的國(guó)產(chǎn)服務(wù)器CPU開(kāi)發(fā)商能夠找到自身產(chǎn)品缺陷不足來(lái)提高優(yōu)化產(chǎn)品。
差距40年的依據(jù)是什么?
甲骨文公司成立于1977年,其產(chǎn)品Oracle壟斷全球高端市場(chǎng)40年,阿里自2012年開(kāi)始去IOE戰(zhàn)略,截至2023年,其核心產(chǎn)品OceanBase在當(dāng)今最強(qiáng)大的服務(wù)器CPU加持下,其TPS性能僅相當(dāng)于2010年Oracle RAC(甲骨文自研的CPU)性能的三分之一,因此有理由相信在服務(wù)器領(lǐng)域,中美差距至少在40年。
這個(gè)工具測(cè)的什么?
服務(wù)器CPU和桌面CPU實(shí)際上有非常大的不同,桌面CPU通常注重IPC和頻率,但服務(wù)器CPU則受到存儲(chǔ)墻約束而更看重多核numa互聯(lián)訪存效率,為何會(huì)這樣?因?yàn)镃PU的IPC性能差距通常不會(huì)高于1個(gè)數(shù)量級(jí),但是numa互聯(lián)訪存效率則會(huì)導(dǎo)致CPU的IPC利用效率下降2到3個(gè)數(shù)量級(jí),因此專業(yè)的服務(wù)器開(kāi)發(fā)商通常都不關(guān)心CPU的IPC和頻率,而更關(guān)心numa互聯(lián)效率及其優(yōu)化方案,因此異數(shù)OS的這個(gè)服務(wù)器CPU分析工具并不測(cè)試CPU的IPC,而主要測(cè)試項(xiàng)目是CPU Diff,當(dāng)然這個(gè)CPU Diff和其他測(cè)試工具有不同點(diǎn),他的主要目標(biāo)是更加深入的揭露一些CPU廠的作弊行為,CPU廠一般處于自身利益考慮,只放出最小延遲的CPU Diff,這個(gè)Diff是不負(fù)責(zé)任并有害的,因?yàn)樽钚⊙舆t測(cè)試同一時(shí)間只啟動(dòng)兩個(gè)CPU核做延遲測(cè)試,其他核都是空載空閑的,這與實(shí)際云環(huán)境不同,云環(huán)境一般多核訪存負(fù)載都很高,并且無(wú)法做針對(duì)性的numa優(yōu)化,這時(shí)測(cè)到的CPU延遲會(huì)成十倍甚至百倍的增加,從而使IPC下降到甚至不足百分之一,因此CPU廠通常為了掩蓋問(wèn)題真像而只提供最小互聯(lián)延遲,并讓這個(gè)成績(jī)好看,這種行為甚至能忽悠到很多專業(yè)的服務(wù)器開(kāi)發(fā)商,但這個(gè)成績(jī)?cè)诟鄷r(shí)候可能要反著理解才有意義,因?yàn)橐恍┳隽薾uma分布式內(nèi)存解決方案的cpu,最小延遲表現(xiàn)可能是很差的,但擁塞延遲效率卻會(huì)提高,反而是一些沒(méi)有做numa分布式內(nèi)存的cpu,最小延遲數(shù)據(jù)很好看,但擁塞延遲完全不能入眼。
因此異數(shù)OS的 CPU Diff工具提供了擁塞延遲測(cè)試數(shù)據(jù),擁塞延遲是所有CPU核同時(shí)啟動(dòng)延遲測(cè)試得到的CPU延遲數(shù)據(jù),之后通過(guò)擁塞延遲與最小延遲的比值來(lái)得到擁塞延遲效率,單位為千分之一,該值體現(xiàn)服務(wù)器CPU全核負(fù)載下的真正效率,這個(gè)效率可用于分析云上實(shí)際部署后的性能,比如擁塞效率是千分之十,則說(shuō)明一個(gè)100核的服務(wù)器CPU在訪存滿載時(shí)性能不如一個(gè)單核CPU。
12700H win平臺(tái)例子
打開(kāi)工具選擇第10項(xiàng),CPU Diff,測(cè)得12700H測(cè)得的延遲表現(xiàn),以此舉例說(shuō)明,Core-MinLatencyTest是最小延遲測(cè)試,單位是ns他的成績(jī)幾乎和CPU廠發(fā)布的最小延遲數(shù)據(jù)一致,Core-ThrongLatencyTest是擁塞延遲測(cè)試,數(shù)值超過(guò)999ns時(shí)顯示溢出,Throng efficiency是擁塞訪存效率,他是Core-ThrongLatencyTest成績(jī)和Core-MinLatencyTest成績(jī)的比值,單位是千分之一,如果Core-ThrongLatencyTest數(shù)值顯示溢出,可用Throng efficiency反推擁塞延遲,可以看出12700H的最小延遲測(cè)試成績(jī)很優(yōu)秀,無(wú)論大核小核都只有40ns到50ns延遲,但在擁塞延遲測(cè)試中,大核延遲則增加了10倍,小核延遲增加了20倍,這說(shuō)明你的游戲客戶端或者服務(wù)器在做粒子物理仿真時(shí)開(kāi)更多的核是無(wú)意義的,開(kāi)2到4個(gè)CPU核甚至只開(kāi)1個(gè)核反而更優(yōu),小核12訪問(wèn)小核19最小延遲45ns,但擁塞延遲已超過(guò)999溢出,擁塞延遲效率千分之39,因此反推出擁塞延遲為1153ns,通過(guò)對(duì)比最小延遲分布和擁塞延遲分布可以發(fā)現(xiàn)最小延遲分布僅有1個(gè)梯度,而擁塞延遲分布有3個(gè)梯度,擁塞延遲梯度分布更加符合numa互聯(lián)瓶頸的分布梯度,因此更加符合云服務(wù)器實(shí)際有負(fù)載時(shí)的場(chǎng)景情況。
平臺(tái)支持
該測(cè)試工具目前支持x64 arm64 sw64三種指令集,采用靜態(tài)鏈接編譯,不開(kāi)放源代碼,因此不存在編譯優(yōu)化,操作系統(tǒng)優(yōu)化,libc優(yōu)化作弊等問(wèn)題,另外在linux上需要開(kāi)啟numa巨頁(yè)支持,一些國(guó)產(chǎn)服務(wù)器CPU可能由于不專業(yè)所以沒(méi)有做好numa巨頁(yè)支持,這需要服務(wù)器CPU廠自己解決。numa巨頁(yè)支持屬于服務(wù)器必不可少的選項(xiàng),在很多基礎(chǔ)軟件中都有大量使用,比如大多數(shù)的數(shù)據(jù)庫(kù)軟件,numa 巨頁(yè)的開(kāi)啟方法見(jiàn)后面兩張圖,分別是申威sw1621,阿里云安培32核arm的,其他平臺(tái)可以照抄或自行研究。
下載鏈接
Github下載地址