怎么做地區(qū)網(wǎng)站林哥seo
文章目錄
- 一、前言
- 1、RDMA網(wǎng)絡(luò)協(xié)議
- 2、TCP/IP網(wǎng)絡(luò)協(xié)議
- 二、RDMA類別
- 1、IB
- 2、RoCE
- 3、iWARP
- 三、RDMA對比
- 1、優(yōu)缺點(diǎn)說明
- a、性能
- b、擴(kuò)展性
- c、維護(hù)難度
- 2、總結(jié)說明
一、前言
roce-vs-infiniband-vs-tcp-ip
RoCE、IB和TCP等網(wǎng)絡(luò)的基本知識及差異對比
分布式存儲(chǔ)常見網(wǎng)絡(luò)協(xié)議有TCP/IP和RDMA兩種,傳統(tǒng)TCP/IP協(xié)議無法滿足高性能計(jì)算、AIGC大模型分析等高并發(fā)、低時(shí)延應(yīng)用,通常會(huì)采用RDMA來滿足高吞吐、低延時(shí)的網(wǎng)絡(luò)通信要求。
傳統(tǒng)TCP/IP網(wǎng)絡(luò)通信使用內(nèi)核發(fā)送消息,這種通信方式有較高的數(shù)據(jù)移動(dòng)和數(shù)據(jù)復(fù)制開銷,現(xiàn)有數(shù)據(jù)中心一般采用RDMA網(wǎng)絡(luò)通信,降低了讀寫時(shí)延和服務(wù)器CPU資源占用,但RDMA協(xié)議對網(wǎng)絡(luò)丟包非常敏感,0.01的丟包率會(huì)使得RDMA吞吐率下降為0,無損成為RDMA網(wǎng)絡(luò)重要需求之一,通常要求丟包率在1e-05(十萬分之一)以下。
1、RDMA網(wǎng)絡(luò)協(xié)議
RDMA,即Remote Direct Memory Access(遠(yuǎn)端直接內(nèi)存訪問),它能夠使得網(wǎng)絡(luò)中的兩臺主機(jī)直接在內(nèi)存中交換數(shù)據(jù),而不依賴與任何一臺主機(jī)的處理器、緩存和操作系統(tǒng),可以直接通過網(wǎng)絡(luò)接口訪問內(nèi)存數(shù)據(jù),無需操作系統(tǒng)的介入,降低數(shù)據(jù)處理過程中的延遲。
它將收/發(fā)包的工作卸載(offload)到了網(wǎng)卡上,不需要像TCP/IP協(xié)議一樣使系統(tǒng)進(jìn)入內(nèi)核態(tài),減少了拷貝、封包解包等等的開銷。這樣大大降低了以太網(wǎng)通信的延遲,減少了通訊時(shí)對CPU資源的占用,緩解了網(wǎng)絡(luò)中的擁塞,讓帶寬得到更有效的利用,從而在支持RDMA的系統(tǒng)之間實(shí)現(xiàn)更快的數(shù)據(jù)傳輸速率和更低的延遲。
RDMA網(wǎng)絡(luò)協(xié)議具備以下優(yōu)勢:
- 零拷貝(Zero-copy) :應(yīng)用程序能夠直接執(zhí)行數(shù)據(jù)傳輸,在不涉及到網(wǎng)絡(luò)軟件棧的情況下。數(shù)據(jù)能夠被直接發(fā)送到緩沖區(qū)或者能夠直接從緩沖區(qū)里接收,而不需要被復(fù)制到網(wǎng)絡(luò)層。
- 內(nèi)核旁路(Kernel bypass) :應(yīng)用程序可以直接在用戶態(tài)執(zhí)行數(shù)據(jù)傳輸,不需要在內(nèi)核態(tài)與用戶態(tài)之間做上下文切換。
- 不需要CPU干預(yù)(No CPU involvement) :應(yīng)用程序可以訪問遠(yuǎn)程主機(jī)內(nèi)存而不消耗遠(yuǎn)程主機(jī)中的任何CPU。遠(yuǎn)程主機(jī)內(nèi)存能夠被讀取而不需要遠(yuǎn)程主機(jī)上的進(jìn)程(或CPU)參與。遠(yuǎn)程主機(jī)的CPU的緩存(cache)不會(huì)被訪問的內(nèi)存內(nèi)容所填充。
- 消息基于事務(wù)(Message based transactions):數(shù)據(jù)被處理為離散消息而不是流,消除了應(yīng)用程序?qū)⒘髑懈顬椴煌?事務(wù)的需求。
- 支持分散/聚合條目(Scatter/gather entries support):RDMA原生態(tài)支持分散/聚合。也就是說,讀取多個(gè)內(nèi)存緩沖區(qū)然后作為一個(gè)流發(fā)出去或者接收一個(gè)流然后寫入到多個(gè)內(nèi)存緩沖區(qū)里去。
2、TCP/IP網(wǎng)絡(luò)協(xié)議
TCP/IP,即Transmission Control Protocol/Internet Protocol(傳輸控制協(xié)議/網(wǎng)絡(luò)協(xié)議),用于互聯(lián)網(wǎng)上互聯(lián)網(wǎng)絡(luò)設(shè)備,它確定數(shù)據(jù)應(yīng)該如何打包、尋址、傳輸、路由和接收;TCP/IP 非常重視兩臺計(jì)算機(jī)之間的精確數(shù)據(jù)傳輸,如果系統(tǒng)在一次性發(fā)送消息時(shí)遇到問題,則必須再次發(fā)送整個(gè)消息。
此外,TCP/IP 的功能分為四個(gè)不同的層次: 數(shù)據(jù)鏈路層、互聯(lián)網(wǎng)層、傳輸層和應(yīng)用層。數(shù)據(jù)必須經(jīng)過這四層,然后才能在另一端接收。然后CP/IP 將通過以相反的順序傳遞層來重新組裝數(shù)據(jù),并將其呈現(xiàn)給接收方。通過這種方式,可以通過升級某些層而不是整個(gè)系統(tǒng)來提高數(shù)據(jù)中心的性能或安全性。
二、RDMA類別
RDMA有以下三種類別
1、IB
IB,即Infiniband,是一種專門為RDMA設(shè)計(jì)的網(wǎng)絡(luò),從硬件級別保證網(wǎng)絡(luò)無損,提供極高的帶寬和極低的時(shí)延,但是成本高,需要支持IB的網(wǎng)卡和交換機(jī)。
Infiniband交換機(jī)是特定廠家提供的專用產(chǎn)品(主流廠商有NVIDIA(Mellanox)、Intel、Cisco、HPE 等),采用私有協(xié)議,而目前絕大多數(shù)環(huán)境均采用IP以太網(wǎng)絡(luò),采用Infiniband無法滿足互通性需求,同時(shí)封閉性架構(gòu)存在廠商鎖定問題。
2、RoCE
基于Soft-RoCE可實(shí)現(xiàn)不支持RoCE網(wǎng)卡主機(jī)具備RoCE網(wǎng)絡(luò)協(xié)議通信能力,配置過程詳見Chapter 2. Configuring RoCE
RoCE,即RDMA over Converfied Ethernet,基于以太網(wǎng)實(shí)現(xiàn)的RDMA網(wǎng)絡(luò),它允許數(shù)據(jù)從一臺主機(jī)傳輸?shù)搅硪慌_主機(jī),減少了CPU的操作負(fù)載。消耗的資源比 iWARP 少,支持的特性比 iWARP 多,可以使用普通的以太網(wǎng)交換機(jī)(需要支持無損以太網(wǎng)技術(shù)),但是需要支持RoCE的網(wǎng)卡。
RoCE目前有兩個(gè)版本
- RoCE v1:是一種鏈路層協(xié)議,使用RoCE v1協(xié)議通信的雙方必須在同一個(gè)二層網(wǎng)絡(luò)內(nèi),允許在同一個(gè)廣播域下的任意兩臺主機(jī)直接訪問
- RoCE v2:是一種網(wǎng)絡(luò)層協(xié)議,使用RoCE v2協(xié)議的包可以被三層路由,具有更好的擴(kuò)展性,基于UDP協(xié)議封裝,允許不同廣播域下的主機(jī)通過三層訪問
3、iWARP
iWARP,即internet Wide Area RDMA Protocol,基于TCP實(shí)現(xiàn)的RDMA網(wǎng)絡(luò),它使用TCP來實(shí)現(xiàn)可靠的數(shù)據(jù)傳輸,但由于TCP協(xié)議限制,其性能上丟失了大部分RDMA的優(yōu)勢。相比RoCE,在大型組網(wǎng)的情況下,iWARP的大量TCP連接會(huì)占用大量的內(nèi)存資源,對系統(tǒng)規(guī)格要求更高??梢允褂闷胀ǖ囊蕴W(wǎng)交換機(jī),但是需要支持iWARP的網(wǎng)卡。
RDMA
三、RDMA對比
類別 | RoCE | IB | iWARP |
---|---|---|---|
性能 | 中 | 高 | 低(受TCP影響) |
擴(kuò)展性 | 中 | 高 | 低 |
穩(wěn)定性 | 中 | 高 | 低 |
維護(hù)難度 | 低 | 高 | 中 |
投入成本 | 低 | 高 | 中 |
網(wǎng)絡(luò)設(shè)備 | 以太網(wǎng)交換機(jī) | IB交換機(jī) | 以太網(wǎng)交換機(jī) |
網(wǎng)卡要求 | 支持RoCE | 支持IB | 支持iWARP |
標(biāo)準(zhǔn)編制 | IBTA(InfiniBand Trade Association) | IBTA(InfiniBand Trade Association) | IETF(Internet Engineering Task Force) |
1、優(yōu)缺點(diǎn)說明
a、性能
- RoCE提高了企業(yè)數(shù)據(jù)中心的速度和能力,在不更換以太網(wǎng)基礎(chǔ)設(shè)施情況下降低總體成本
- Infiniband使用串行鏈路和總線一次1bit地發(fā)送數(shù)據(jù),從而實(shí)現(xiàn)更快、更有效的通信
- iWARP提供了與RoCE類似的低延遲和高吞吐量的傳輸能力,但性能略遜于 InfiniBand 和 RoCE
b、擴(kuò)展性
三種RDMA網(wǎng)絡(luò)協(xié)議都具有很高的可擴(kuò)展性和靈活性,其中Infiniband協(xié)議擴(kuò)展性最高,Infiniband一個(gè)子網(wǎng)可以支持成千上萬個(gè)節(jié)點(diǎn),它提供了相對簡單和可擴(kuò)展架構(gòu),通過Infiniband路由器創(chuàng)建幾乎無限的集群大小。
c、維護(hù)難度
三種RDMA網(wǎng)絡(luò)協(xié)議中,其中Infiniband維護(hù)難度及成本最高,Infiniband需要采購特定廠家生產(chǎn)的IB網(wǎng)卡和IB交換機(jī),使用了私有協(xié)議作為專用網(wǎng)絡(luò)技術(shù),無法繼承用戶在IP網(wǎng)絡(luò)運(yùn)維的積累;
當(dāng)前Infiniband市場空間占比很少,業(yè)內(nèi)有經(jīng)驗(yàn)的運(yùn)維人員嚴(yán)重缺乏,網(wǎng)絡(luò)一旦出現(xiàn)故障,無法及時(shí)修復(fù),運(yùn)營成本極高,目前基于傳統(tǒng)以太網(wǎng)承載RDMA(RoCE v2)成為RDMA大規(guī)模應(yīng)用的必要趨勢。
2、總結(jié)說明
- 對于追求最高性能的網(wǎng)絡(luò)通信,無疑首選是Infiniband
- 對于追求更高性能、更易于管理和成本有限的網(wǎng)絡(luò)通信,無疑首選是RoCE