RDMA是一種直接內(nèi)存訪問技術(shù),RDMA 通過網(wǎng)絡(luò)把資料直接傳入計(jì)算機(jī)的存儲(chǔ)區(qū),將數(shù)據(jù)從一個(gè)系統(tǒng)快速移動(dòng)到遠(yuǎn)程系統(tǒng)存儲(chǔ)器中,而不對(duì)操作系統(tǒng)造成任何影響,這樣就不需要用到多少計(jì)算機(jī)的處理功能。它消除了外部存儲(chǔ)器復(fù)制和文本交換操作,因而能解放內(nèi)存帶寬和CPU 周期用于改進(jìn)應(yīng)用系統(tǒng)性能。這允許高通量、低延遲的網(wǎng)絡(luò)通信,尤其適合在大規(guī)模并行計(jì)算機(jī)集群中使用。
常見的 RDMA 實(shí)現(xiàn)包括 iWARP、RoCE 與 InfiniBand。其中,InfiniBand 是超級(jí)計(jì)算機(jī)最常用的技術(shù),其可以做到 1ms 的延遲及超過 100Gb 每秒的傳輸速率。這對(duì)于超大規(guī)模的計(jì)算機(jī)集群是必要的。超級(jí)計(jì)算機(jī)、人工智能,云計(jì)算的數(shù)據(jù)中心都會(huì)受益于 InfiniBand 的卓越效能。世界 TOP500 超級(jí)計(jì)算機(jī)(2017年 6 月排行榜)中 36%使用了 InfiniBand 技術(shù)。
Mellanox 提供從 HPC(高性能計(jì)算中心)、數(shù)據(jù)中心、WEB2.0、機(jī)器學(xué)習(xí)、云服務(wù)器等解決方案,并專門針對(duì)目前火熱的人工智能算法進(jìn)行了架構(gòu)優(yōu)化。其客戶包括 Facebook、Paypal、NVIDIA、百度、京東、騰訊等。
E級(jí)超算已經(jīng)成為世界各國(guó)在超算領(lǐng)域追逐的新目標(biāo)。目前,由江南計(jì)算所、國(guó)防科大和中科曙光公司根據(jù)不同技術(shù)路線研制的三臺(tái) E 級(jí)原型系統(tǒng)已經(jīng)完成并分別安裝在濟(jì)南、天津和深圳國(guó)家超級(jí)計(jì)算中心。據(jù) Hyperion Research 公司按照系統(tǒng)驗(yàn)收的時(shí)間估算,2021 至 2026 年期間,全球?qū)⒔ǔ?28~38 臺(tái) E 級(jí)或接近 E 級(jí)的超級(jí)計(jì)算機(jī),總價(jià)值約在 100~150 億美元。

在實(shí)現(xiàn)上,RDMA 實(shí)際上是一種智能網(wǎng)卡與軟件架構(gòu)充分優(yōu)化的遠(yuǎn)端內(nèi)存直接高速訪問技術(shù),通過將 RDMA 協(xié)議固化于硬件(即網(wǎng)卡)上,以及支持 Zero-copy和 Kernel bypass 這兩種途徑來(lái)達(dá)到其高性能的遠(yuǎn)程直接數(shù)據(jù)存取的目標(biāo)。其通信過程使得用戶在使用 RDMA 時(shí)具備如下優(yōu)勢(shì):
? 零拷貝(Zero-copy) - 應(yīng)用程序能夠直接執(zhí)行數(shù)據(jù)傳輸,在不涉及到網(wǎng)絡(luò)軟件棧的情況下。數(shù)據(jù)能夠被直接發(fā)送到緩沖區(qū)或者能夠直接從緩沖區(qū)里接收,而不需要被復(fù)制到網(wǎng)絡(luò)層。
? 內(nèi)核旁路(Kernel bypass) - 應(yīng)用程序可以直接在用戶態(tài)執(zhí)行數(shù)據(jù)傳輸,不需要在內(nèi)核態(tài)與用戶態(tài)之間做上下文切換。
? 不需要 CPU 干預(yù)(No CPU involvement) - 應(yīng)用程序可以訪問遠(yuǎn)程主機(jī)內(nèi)存而不消耗遠(yuǎn)程主機(jī)中的任何 CPU。遠(yuǎn)程主機(jī)內(nèi)存能夠被讀取而不需要遠(yuǎn)程主機(jī)上的進(jìn)程(或 CPU)參與。遠(yuǎn)程主機(jī)的 CPU 的緩存(cache)不會(huì)被訪問的內(nèi)存內(nèi)容所填充。
? 消息基于事務(wù)(Message based transactions) - 數(shù)據(jù)被處理為離散消息而不是流,消除了應(yīng)用程序?qū)⒘髑懈顬椴煌?事務(wù)的需求。
? 支持分散/聚合條目(Scatter/gather entries support) - RDMA 原生態(tài)支持分散/聚合。也就是說,讀取多個(gè)內(nèi)存緩沖區(qū)然后作為一個(gè)流發(fā)出去或者接收一個(gè)流然后寫入到多個(gè)內(nèi)存緩沖區(qū)里去。
目前,RDMA 技術(shù)在超算、AI 訓(xùn)練、存儲(chǔ)等多個(gè)高性能場(chǎng)景大量部署,已形成廣泛應(yīng)用。但是 RDMA 技術(shù)路線也有很多,用戶及各家廠商對(duì)于 RDMA 技術(shù)路線的選擇也不盡相同。
在三種主流的 RDMA 技術(shù)中,可以劃分為兩大陣營(yíng)。一個(gè)是 IB 技術(shù), 另一個(gè)是支持 RDMA 的以太網(wǎng)技術(shù)(RoCE 和 iWARP)。其中,IBTA 主要聚焦 IB 和 RoCE 技術(shù),而 iWARP 則是在 IEEE/IETF 標(biāo)準(zhǔn)化的技術(shù)。
在存儲(chǔ)領(lǐng)域,支持 RDMA 的技術(shù)早就存在,比如SRP(SCSI RDMA Protocol)和iSER(iSCSI Extensions for RDMA)。如今興起的 NVMe over Fabrics 如果使用的不是 FC 網(wǎng)絡(luò)的話,本質(zhì)上就是 NVMeover RDMA。換句話說,NVMe over InfiniBand, NVMe over RoCE 和 NVMe over iWARP 都是 NVMe over RDMA。
1、總線級(jí)數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)白皮書.pdf
2、RDMA提高數(shù)據(jù)傳輸效率.pdf
3、配置 InfiniBand 和 RDMA 網(wǎng)絡(luò).pdf
4、華為RDMA.pdf
5、面向AI智能無(wú)損數(shù)據(jù)中心網(wǎng)絡(luò).pdf
6、面向分布式 AI智能網(wǎng)卡低延遲Fabric技術(shù).pdf
7、NVMe存儲(chǔ)SPDK 加速前后端 IO.pdf
8、基于RDMA多播機(jī)制的分布式持久性內(nèi)存文件系統(tǒng).pdf
9、云環(huán)境下分布式存儲(chǔ)性能優(yōu)化實(shí)踐.pdf
《RDMA技術(shù)合集(上)》
1、智能網(wǎng)卡低延遲Fabric技術(shù).pdf
2、RDMA參數(shù)選擇.pdf
3、RDMA在數(shù)據(jù)中心中的應(yīng)用研究.pdf
4、RDMA系統(tǒng)的挑戰(zhàn).pdf
5、RDMA網(wǎng)絡(luò)人工智能訓(xùn)練重要硬件
6、RDMA技術(shù)白皮書(中文版)
7、RDMA技術(shù)調(diào)研
8、RDMA在數(shù)據(jù)中心中的應(yīng)用研究























審核編輯 :李倩
-
存儲(chǔ)器
+關(guān)注
關(guān)注
39文章
7759瀏覽量
172285 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
67文章
8567瀏覽量
137268 -
RDMA
+關(guān)注
關(guān)注
0文章
102瀏覽量
9672
原文標(biāo)題:RDMA技術(shù)場(chǎng)景和參數(shù)優(yōu)化
文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
[VirtualLab] 傾斜光柵的參數(shù)優(yōu)化及公差分析
RDMA設(shè)計(jì)40:隊(duì)列管理及連接建立功能驗(yàn)證與分析
RDMA設(shè)計(jì)35:基于 SV 的驗(yàn)證平臺(tái)
RDMA設(shè)計(jì)4:技術(shù)需求分析2
RDMA設(shè)計(jì)3:技術(shù)需求分析1
RDMA設(shè)計(jì)2:開發(fā)必要性之性能簡(jiǎn)介
RDMA設(shè)計(jì)1:開發(fā)必要性1之設(shè)計(jì)考慮
RDMA over RoCE V2設(shè)計(jì)1:通用,穩(wěn)定及高性能!
RDMA over RoCE V2設(shè)計(jì)1:為什么要設(shè)計(jì)它?
RDMA技術(shù)場(chǎng)景和參數(shù)優(yōu)化
評(píng)論