
英偉達(dá) | GTC2022| 高性能計(jì)算
NVIDIA | RTX4090 |液冷服務(wù)器
在東數(shù)西算、生命科學(xué)、遙感測(cè)繪、地質(zhì)勘探、真空羽流、冷凍電鏡等技術(shù)的快速發(fā)展下,高性能計(jì)算的發(fā)展逐漸被人們所重視。GTC 2022會(huì)上指出高性能計(jì)算是推動(dòng)科學(xué)發(fā)展的關(guān)鍵工具之一。
昨天GeForce RTX 4090顯卡正式公布,是全新GeForce RTX 40系列的旗艦產(chǎn)品,也是全球首款基于全新NVIDIA Ada Lovelace架構(gòu)。與上一代采用DLSS 2的RTX 3090 Ti相比,采用DLSS 3的RTX 4090的性能提升可達(dá)4倍。RTX 4090具有760億個(gè)晶體管、16384個(gè)CUDA 核心和 24GB 高速美光 GDDR6X 顯存。
本文將從英偉達(dá)為何在高性能計(jì)算中處于不敗地位、高性能計(jì)算發(fā)展趨勢(shì)、以及高性能計(jì)算解決方案為大家解讀。

高端GPU
英偉達(dá)獨(dú)角戲?
作為通用計(jì)算的“加速神器”--——高端GPU正在成為大型數(shù)據(jù)中心、人工智能、超算等領(lǐng)域的剛需。英偉達(dá)在高端GPU市場(chǎng)長(zhǎng)期占據(jù)主導(dǎo)地位,市場(chǎng)份額一度超過(guò)90%。目前國(guó)內(nèi)企業(yè)要突破英偉達(dá)等國(guó)外公司的壟斷還有很長(zhǎng)的路要走。而國(guó)內(nèi)基于架構(gòu)創(chuàng)新的DSA(針對(duì)特定領(lǐng)域的可編程處理器)芯片產(chǎn)品日益豐富,可能會(huì)帶來(lái)一些曙光。
高端GPU與傳統(tǒng)GPU“涇渭分明”
傳統(tǒng)GPU聚焦圖像學(xué),關(guān)注幀數(shù)、渲染逼真度、對(duì)于真實(shí)場(chǎng)景的映射程度等指標(biāo),主要用于運(yùn)行游戲、專業(yè)圖像處理、加密貨幣處理等場(chǎng)景。而高端GPU是用于計(jì)算加速的芯片產(chǎn)品,專注于基礎(chǔ)科學(xué)等超算領(lǐng)域和訓(xùn)練、推理等大規(guī)模人工智能計(jì)算場(chǎng)景。
衡量高端GPU的主要維度是通用性、易用性和高性能。通用硬件架構(gòu)應(yīng)該足夠靈活,以適應(yīng)人工智能的迭代算法和場(chǎng)景。易用性是指開(kāi)發(fā)門檻更低,開(kāi)發(fā)者更容易上手,結(jié)合實(shí)際場(chǎng)景進(jìn)行定制化開(kāi)發(fā)。高性能是指芯片產(chǎn)品的基本性能和性價(jià)比必須達(dá)到國(guó)際先進(jìn)水平,才能進(jìn)行市場(chǎng)開(kāi)拓。
2022年第二季度獨(dú)立GPU市場(chǎng)(包括AIB 合作伙伴顯卡)份額

來(lái)源:Jon Peddie Research
算力往往是市場(chǎng)對(duì)GPU性能優(yōu)劣的“第一印象”。但高端GPU的性能不等于紙面性能,尤其不能用單一性能的紙面數(shù)據(jù)來(lái)衡量。
在實(shí)際使用的過(guò)程中,GPU的通用性、易用性、實(shí)際性的重要程度遠(yuǎn)大于紙面標(biāo)出的算力這一單一性能。紙面指標(biāo)標(biāo)得再高,也要關(guān)注內(nèi)存和帶寬夠不夠,以及芯片之間的互聯(lián)等問(wèn)題解決得好不好。用單一性能來(lái)衡量GPU是否高端,是一個(gè)常見(jiàn)的誤區(qū)。
高性能計(jì)算將是主要“競(jìng)技場(chǎng)”
長(zhǎng)期以來(lái),英偉達(dá)一直主導(dǎo)著高端GPU市場(chǎng),市場(chǎng)份額超過(guò)90%,尤其是在人工智能計(jì)算領(lǐng)域。到目前為止,英偉達(dá)已經(jīng)推出Volta、Ampere、Hopper等用于高性能計(jì)算和AI訓(xùn)練的架構(gòu),并在此基礎(chǔ)上推出了V100、A100、H100等高端GPU。面向向量的雙精度浮點(diǎn)運(yùn)算能力從7.8 TFLOPS一路走到30 TFLOPS。
作為全球第二大獨(dú)立GPU供應(yīng)商,AMD雖在高端GPU的整體份額與英偉達(dá)存在差距,但在超算領(lǐng)域闖出了一片天。在最新全球超級(jí)計(jì)算機(jī)TOP500榜單上,世界上最快的超級(jí)計(jì)算機(jī)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室(ORNL)前沿、世界排名第三的超級(jí)計(jì)算機(jī)LUMI,都采用了AMD EPYC處理器和AMD Instinct MI250X GPU加速器。
AMD在超算領(lǐng)域的亮眼表現(xiàn),是建立在針對(duì)性的軟硬件設(shè)計(jì)上,基于CDNA 2架構(gòu)的GPU加速器、ROCm軟件平臺(tái)與開(kāi)源應(yīng)用程序資源中心AMD Infinity Hub的組合,構(gòu)成了對(duì)于科研人員更加友好的硬件性能和編程環(huán)境。
雖然直接使用GPU進(jìn)行高性能或AI計(jì)算更方便,但上層應(yīng)用降本增效的核心需求對(duì)底層算力提出了更高的要求。國(guó)外AI創(chuàng)業(yè)公司推出的AI芯片往往基于一種新的架構(gòu),全面提升并側(cè)重優(yōu)化并行計(jì)算能力。國(guó)內(nèi)領(lǐng)先的AI芯片公司也出于同樣的考慮,推出了一系列基于DSA架構(gòu)的人工智能計(jì)算芯片。
在國(guó)內(nèi)市場(chǎng),基于架構(gòu)創(chuàng)新的DSA芯片產(chǎn)品日益豐富。如華為自研的面向AI計(jì)算的架構(gòu)特色達(dá)芬奇,昆侖芯科技推出的第一代架構(gòu)XPU-K和第二代架構(gòu)XPU-R,燧原科技的自研架構(gòu)GCU-CARA等,都已經(jīng)進(jìn)入規(guī)模落地階段。隨著AI計(jì)算的應(yīng)用場(chǎng)景越來(lái)越細(xì)分和復(fù)雜,定制化和異構(gòu)化DSA有望在下一代計(jì)算平臺(tái)中發(fā)揮更大的作用。
新應(yīng)用領(lǐng)域?qū)映霾桓F
全球?yàn)?zāi)難性氣候事件正在不斷增加,提前預(yù)測(cè)此類事件對(duì)保護(hù)人類安全越來(lái)越重要,因此未來(lái)一年與氣候預(yù)測(cè)相關(guān)的應(yīng)用程序?qū)⒃贖PC領(lǐng)域備受關(guān)注。此外,隨著HPC在云端的使用,將有更多HPC應(yīng)用于消費(fèi)導(dǎo)向的軟件程序開(kāi)發(fā),虛擬世界和元宇宙概念的出現(xiàn),也讓HPC迎來(lái)新的發(fā)展機(jī)遇,既可用于游戲(AR/VR)等娛樂(lè)應(yīng)用,也可用于數(shù)字孿生等模擬應(yīng)用。
HPC市場(chǎng)正在擴(kuò)展新的領(lǐng)域,在傳統(tǒng)的模擬和建模過(guò)程中加入人工智能(AI)和數(shù)據(jù)分析技術(shù)。新冠疫情的爆發(fā)增加了對(duì)靈活、可擴(kuò)展的云端HPC解決方案的需求,這一需求連同各個(gè)垂直行業(yè)(生命科學(xué)、汽車、金融、游戲、制造業(yè)、航空航天等)對(duì)快速處理數(shù)據(jù)和高精度日益增長(zhǎng)的需求,將會(huì)是未來(lái)幾年推動(dòng)HPC應(yīng)用增長(zhǎng)的主要因素。AI、邊緣計(jì)算、5G等技術(shù)將拓寬HPC的功能,從而形成新的芯片/系統(tǒng)架構(gòu),為各個(gè)行業(yè)提供高效處理和分析能力。
提高HPC安全性將成為關(guān)鍵
當(dāng)市場(chǎng)整體的數(shù)字化程度提升,則安全風(fēng)險(xiǎn)也將隨之增加。越來(lái)越多的高性能計(jì)算正在遠(yuǎn)離數(shù)據(jù)中心,將直接導(dǎo)致無(wú)法通過(guò)軟件補(bǔ)丁處理的攻擊數(shù)量增加。這給開(kāi)發(fā)團(tuán)隊(duì)帶來(lái)巨大壓力,迫使他們緊急推出硬件來(lái)解決這些問(wèn)題,由此縮短硬件設(shè)計(jì)周期。因此提高開(kāi)發(fā)者的生產(chǎn)效率以緊跟上市需求的步伐將成為下一步布局重點(diǎn)。
HPC處理器架構(gòu)多樣化
隨著數(shù)據(jù)量增加,不僅是安全性,基礎(chǔ)設(shè)施存儲(chǔ)以及數(shù)據(jù)處理的計(jì)算能力必須得到提升。此外,新的架構(gòu)包括芯片間的連接也是推動(dòng)新需求所必需的。
受到不斷變化的AI工作負(fù)載、靈活的計(jì)算(CPU、GPU、FPGA、DPU等)、成本、內(nèi)存和IO吞吐量等因素共同驅(qū)動(dòng),HPC架構(gòu)正在經(jīng)歷巨變。微架構(gòu)層面變得互連更快、計(jì)算密度更高存儲(chǔ)可拓展、基礎(chǔ)設(shè)施效率更高、生態(tài)友好性、空間管理和安全性更高。從系統(tǒng)的角度來(lái)看,下一代HPC架構(gòu)將出現(xiàn)分解架構(gòu)和異構(gòu)系統(tǒng)的爆炸式增長(zhǎng),不同的專用處理架構(gòu)將集成在單個(gè)節(jié)點(diǎn)中,在模塊之間實(shí)現(xiàn)精密、靈活的切換。如此復(fù)雜的系統(tǒng)也帶來(lái)了巨大的驗(yàn)證挑戰(zhàn),尤其是系統(tǒng)的IP或節(jié)點(diǎn)、軟硬件動(dòng)態(tài)協(xié)調(diào)、基于工作負(fù)載的性能、電源等相關(guān)驗(yàn)證。要滿足這些驗(yàn)證需求,需要開(kāi)發(fā)新的軟硬件驗(yàn)證方法。
移動(dòng)數(shù)據(jù)對(duì)電力和時(shí)間有很大的需求,這是系統(tǒng)管理者現(xiàn)在面臨的挑戰(zhàn)之一,減少數(shù)據(jù)移動(dòng)量將成為未來(lái)的一種趨勢(shì)。我們需要繼續(xù)擴(kuò)展資源,利用高級(jí)封裝和芯片間接口來(lái)支持更高性能的設(shè)備,即通過(guò)使用多裸晶來(lái)擴(kuò)展設(shè)備內(nèi)的處理能力,這在未來(lái)一年內(nèi)有望真正實(shí)現(xiàn)。

高性能計(jì)算
液冷解決方案
在深度學(xué)習(xí)、視覺(jué)計(jì)算、圖像渲染、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)的迅猛發(fā)展的大背景下,高性能計(jì)算HPC、液冷散熱已經(jīng)不再是少數(shù)大公司或大型科研機(jī)構(gòu)的專屬要求,而是被越來(lái)越多的包括政府、教育科研、遙感測(cè)繪、醫(yī)藥研發(fā)、小分子研究、細(xì)胞治療、圖像識(shí)別的客戶所需要和接受。
藍(lán)海大腦為滿足客戶需求,結(jié)合行業(yè)特點(diǎn)從計(jì)算節(jié)點(diǎn)、網(wǎng)絡(luò)、存儲(chǔ)、功耗、擴(kuò)展、散熱等方面出發(fā),提出完善的解決方案。

產(chǎn)品特性
機(jī)架式液冷設(shè)計(jì),即插即用,快速輕松投入使用;
支持最多9塊GPU圖形卡和2顆CPU處理器;
機(jī)架的存儲(chǔ)空間可大大擴(kuò)展,可用于云存儲(chǔ)服務(wù);
液冷系統(tǒng)密度更高、更節(jié)能、防噪音效果更好;
高效節(jié)能、綠色環(huán)保
客戶收益
超融合架構(gòu)承擔(dān)著計(jì)算資源池和分布式存儲(chǔ)資源池的作用,極大地簡(jiǎn)化了數(shù)據(jù)中心的基礎(chǔ)架構(gòu),通過(guò)軟件定義的計(jì)算資源虛擬化和分布式存儲(chǔ)架構(gòu)實(shí)現(xiàn)無(wú)單點(diǎn)故障、無(wú)單點(diǎn)瓶頸、彈性擴(kuò)展、性能線性增長(zhǎng)等能力。
通過(guò)簡(jiǎn)單方便的統(tǒng)一管理界面,實(shí)現(xiàn)對(duì)數(shù)據(jù)中心計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、虛擬化等資源的統(tǒng)一監(jiān)控、管理和運(yùn)維。
超融合基礎(chǔ)架構(gòu)形成的計(jì)算資源池和存儲(chǔ)資源池直接可以被云計(jì)算平臺(tái)進(jìn)行調(diào)配,服務(wù)于OpenStack、EDP、Docker、Hadoop、R、HPC等IaaS、PaaS、SaaS平臺(tái),對(duì)上層的應(yīng)用系統(tǒng)或應(yīng)用集群等進(jìn)行支撐。
分布式存儲(chǔ)架構(gòu)簡(jiǎn)化容災(zāi)方式,實(shí)現(xiàn)同城數(shù)據(jù)雙活和異地容災(zāi)?,F(xiàn)有的超融合基礎(chǔ)架構(gòu)可以延伸到公有云,可以輕松將私有云業(yè)務(wù)遷到公有云服務(wù)。
審核編輯 黃昊宇
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5696瀏覽量
110144 -
gpu
+關(guān)注
關(guān)注
28文章
5289瀏覽量
136109 -
高性能計(jì)算
+關(guān)注
關(guān)注
0文章
97瀏覽量
13829
發(fā)布評(píng)論請(qǐng)先 登錄
GPU不是AI的唯一解:英偉達(dá)用Groq LPU證明,推理賽道需要“另一條腿”
新思科技與英偉達(dá)多項(xiàng)硬核科技成果亮相GTC 2026
每塊GPU對(duì)應(yīng)16TB SSD,英偉達(dá)KV緩存虹吸高性能TLC SSD
如何在NVIDIA CUDA Tile中編寫高性能矩陣乘法
NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)
NVIDIA RTX PRO 4000 Blackwell GPU性能測(cè)試
在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程
NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試
英偉達(dá)NVIDIA為何可以在高性能計(jì)算GPU中處于不敗地位?
評(píng)論