今年早些時(shí)候,NVIDIA首席執(zhí)行官黃仁勛發(fā)布了NVIDIA? DGX-2?服務(wù)器,并稱其為“全球最大GPU”。DGX-2在單一系統(tǒng)中包含了16個(gè)NVIDIA Tesla? V100 32 GB GPU和其他頂級(jí)組件(兩個(gè)24核Xeon CPU、1.5 TB DDR4 DRAM內(nèi)存和30 TB NVMe存儲(chǔ)),通過基于NVSwitch的NVLink結(jié)構(gòu)連接,可提供2 petaFLOPS的性能,堪稱最強(qiáng)大的超級(jí)計(jì)算機(jī)之一。
NVSwitch使DGX-2成為了最大的GPU,這意味著其總體并非各部分的簡單加成。事實(shí)證明,讓DGX-2服務(wù)器能夠稱得上“全球最大GPU”的,正是其中看似最不起眼的部分。讓我們來看看創(chuàng)新NVIDIA NVSwitch?芯片及其他工程特性如何使DGX-2成為了全球最大的GPU。
注:本文中的信息來自于Alex Ishii 和 Denis Foley 在Hot Chip 2018大會(huì)上的專題演示“NVSwitch and DGX?2 – NVIDIA NVLink-Switching Chip and Scale-Up GPU-Compute Server”。
單一GPU
讓我們先看看單一多核GPU如何與CPU交互,如圖1所示。程序員通過NVIDIA CUDA?技術(shù)明確地展現(xiàn)了并行工作。工作流經(jīng)PCIe I / O端口進(jìn)入GPU,其中數(shù)據(jù)由GPU驅(qū)動(dòng)程序分發(fā)到可用的圖形處理群集(GPC)和流式多處理器(SM)內(nèi)核。XBAR的采用讓GPU / SM內(nèi)核能夠在L2高速緩存和高帶寬GPU內(nèi)存(HBM2)上交換數(shù)據(jù)。
GPC和GPU內(nèi)存之間的高帶寬可實(shí)現(xiàn)大規(guī)模計(jì)算能力和快速同步,但規(guī)模受限,因其要求數(shù)據(jù)必須適合本地GPU內(nèi)存,才能有效使用XBAR提供的高帶寬。
圖1. 連接到CPU的單一GPU
雙GPU(PCIe和NVLink)
圖2顯示了添加另一個(gè)GPU是如何增加可用GPU內(nèi)存量的。在所示配置中,GPU只能以PCIe提供的32 GBps的最大雙向帶寬,訪問其他GPU上的內(nèi)存。此外,這些交互會(huì)與總線上的CPU操作競(jìng)爭,甚至進(jìn)一步占用可用帶寬。
圖2. 通過PCIe總線連接的雙GPU
NVIDIA NVLink?技術(shù)使GPC無需通過PCIe總線即可訪問遠(yuǎn)程GPU內(nèi)存,如圖3所示。NVLinks實(shí)現(xiàn)了XBAR之間的有效橋接。V100 GPU上最多可采用六個(gè)NVLink,GPU之間的雙向帶寬可達(dá)300 GBps。但是,在具有兩個(gè)以上GPU的系統(tǒng)中,六個(gè)可用的NVLink必須先分成較小的鏈接組,每個(gè)組專用于訪問不同的特定單一GPU。這就限制了可使用直接連接來構(gòu)建的機(jī)器規(guī)模,并降低了每對(duì)GPU之間的帶寬。
圖3. 通過NVLink技術(shù)連接的雙GPU
Super Crossbar將GPU連接在一起
理想的情況是提供某種交叉,讓更多GPU能夠訪問所有GPU內(nèi)存,所有GPU都可能在單一GPU驅(qū)動(dòng)程序?qū)嵗目刂葡?,如圖4所示。有了這樣的交叉,可在沒有其他進(jìn)程干預(yù)的情況對(duì)GPU內(nèi)存進(jìn)行訪問,且可用帶寬將足夠高,可提供類似于上文所述的雙GPU情況下的性能擴(kuò)展。
圖4. 尋找交叉開關(guān)設(shè)備
最終目標(biāo)是提供以下所有內(nèi)容:
更大的問題規(guī)模容量。大小受整個(gè)GPU集合的GPU內(nèi)存容量限制,而非單一GPU容量。
強(qiáng)大的可擴(kuò)展性。與現(xiàn)有解決方案相比,NUMA效應(yīng)將大大降低。總內(nèi)存帶寬實(shí)際上會(huì)隨GPU數(shù)量而增長。
使用便利。針對(duì)較少數(shù)量的GPU編寫的應(yīng)用程序?qū)⒏子谝浦?。此外,豐富的資源可助力快速開展實(shí)驗(yàn)。
以上16-GPU配置(假設(shè)有32GB V100 GPU)產(chǎn)生的總?cè)萘渴蛊淠軌蚯八从械剡\(yùn)行“一個(gè)超強(qiáng)GPU”的計(jì)算。
NVIDIA NVSwitch介紹
NVSwitch(圖5)是一款GPU橋接設(shè)備,可提供所需的NVLink交叉網(wǎng)絡(luò)。端口邏輯模塊中的數(shù)據(jù)包轉(zhuǎn)換使得進(jìn)出多GPU的流量看似是通過單一GPU的。
圖5. 帶有標(biāo)注的NVSwitch芯片裸片
NVSwitch芯片并行運(yùn)行,以支持?jǐn)?shù)量日益增加的GPU之間的互連。可使用三個(gè)NVSwitch芯片構(gòu)建一個(gè)8 GPU封閉系統(tǒng)。兩條NVLink路徑將每個(gè)GPU連接至每臺(tái)交換機(jī),流量在所有NVLink和NVSwitch之間交叉。 GPU使用任意對(duì)之間的300 GBps雙向帶寬成對(duì)通信,因?yàn)镹VSwitch芯片提供了從任何源到任何目的地的唯一路徑。
圖6. NVSwitch框圖
實(shí)現(xiàn)了對(duì)分帶寬
讓每個(gè)GPU從另一個(gè)GPU讀取數(shù)據(jù),而不會(huì)有兩個(gè)GPU從同一遠(yuǎn)程GPU讀取數(shù)據(jù),就實(shí)現(xiàn)了無干擾的成對(duì)通信能力。使用16個(gè)GPU實(shí)現(xiàn)的1.98 TBps讀取帶寬與128B傳輸在理論上80%的雙向NVLink效率相匹配。
圖7. 實(shí)現(xiàn)的對(duì)分帶寬結(jié)果
使用cuFFT(16K X 16K)
實(shí)現(xiàn)更強(qiáng)大的可擴(kuò)展性
通過在越來越多的GPU上(更高的GFLOPS,相應(yīng)的總運(yùn)行時(shí)間卻更短)、以及搭載V100 GPU的NVIDIA DGX-1服務(wù)器上運(yùn)行“iso-problem instance”計(jì)算進(jìn)行對(duì)比,即能證明其強(qiáng)大的可擴(kuò)展性能,如圖8所示。如果沒有NVSwitch網(wǎng)絡(luò)提供的NVLink交叉,由于問題分散在更多GPU上,傳輸數(shù)據(jù)所需的時(shí)間要長于在本地對(duì)相同數(shù)據(jù)進(jìn)行簡單計(jì)算所需的時(shí)間。
圖8. 使用NVLink與Hybrid Cube Mesh的cuFFT結(jié)果
全歸約基準(zhǔn)測(cè)試
圖9也體現(xiàn)了NVLink交叉的優(yōu)勢(shì)。全歸約基準(zhǔn)測(cè)試是對(duì)機(jī)器學(xué)習(xí)應(yīng)用程序中采用的重要通信原語進(jìn)行的測(cè)量。與兩臺(tái)配備八個(gè)GPU的服務(wù)器(通過InfiniBand連接)相比,NVLink交叉讓16 GPU DGX-2服務(wù)器能夠提供更高帶寬和更低延遲。 針對(duì)較小的信息,NVLink網(wǎng)絡(luò)的效率明顯優(yōu)于InfiniBand。
圖9. 全歸約基準(zhǔn)測(cè)試結(jié)果顯示NVLink與InfiniBand帶寬效率的顯著差異
HPC和AI訓(xùn)練基準(zhǔn)測(cè)試的加速
圖10所示,與總GPU數(shù)相同的兩臺(tái)DGX-1(采用V100)服務(wù)器相比,HPC和AI訓(xùn)練基準(zhǔn)測(cè)試性能得以提升,速度達(dá)到了其2到2.7倍。對(duì)比所用的DGX-1服務(wù)器各采用了8個(gè)Tesla V100 32 GB GPU和雙槽Xeon E5 2698v4處理器。服務(wù)器通過四個(gè)EDR IB / GbE端口連接。
圖10. HPC和AI訓(xùn)練基準(zhǔn)測(cè)試的加速
總結(jié)
正因有了NVSwitch芯片,DGX-2才可謂全球最大GPU。NVSwitch是一種暢通無阻的設(shè)備,具有18個(gè)NVLink端口,每端口51.5 GBps,聚合雙向帶寬達(dá)928 GBps。采用了NVSwitch芯片的DGX-2可提供512 GB的總?cè)萘?,針?duì)特定應(yīng)用的性能表現(xiàn)超過InfiniBand連接的一對(duì)DGX-1服務(wù)器的兩倍。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5696瀏覽量
110142 -
gpu
+關(guān)注
關(guān)注
28文章
5283瀏覽量
136105
原文標(biāo)題:全球最大GPU 背后的秘密:NVSwitch如何實(shí)現(xiàn)NVIDIA DGX-2的超強(qiáng)功力?
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
國產(chǎn)來襲!2nm AI GPU?
首屆中國NVIDIA DGX Spark黑客松大賽開啟報(bào)名
如何在 VisionFive v2 上使用外部 GPU?
NVIDIA DGX Spark助力高等教育領(lǐng)域重大項(xiàng)目
如何在DGX Spark上運(yùn)行NVIDIA Omniverse
NVIDIA DGX Spark系統(tǒng)恢復(fù)過程與步驟
NVIDIA DGX Spark助力構(gòu)建自己的AI模型
NVIDIA DGX Spark快速入門指南
NVIDIA黃仁勛向SpaceX馬斯克交付DGX Spark
NVIDIA DGX Spark新一代AI超級(jí)計(jì)算機(jī)正式交付
工控核心板GPU實(shí)測(cè)!工業(yè)級(jí)圖形加速到底有多強(qiáng)?#核心板 #GPU #嵌入式
NVIDIA DGX Spark桌面AI計(jì)算機(jī)開啟預(yù)訂
DGX-2為什么被稱為全球最大GPU
評(píng)論