本文作者:
Ashraf EassaNVIDIA 加速計(jì)算部門高級產(chǎn)品營銷經(jīng)理
Chris PorterNVIDIA HPC & AI 高級技術(shù)營銷經(jīng)理
高性能計(jì)算(HPC)已經(jīng)成為必不可少的科學(xué)研究工具。
無論是研發(fā)出拯救生命的新藥,還是抵御氣候變化,或是精確模擬我們的世界,這些解決方案都需要強(qiáng)大的處理能力,而且這一需求正在快速增長,日益超出傳統(tǒng)計(jì)算方法能夠應(yīng)對的范疇。
因此,業(yè)界紛紛采用 NVIDIA 的 GPU 進(jìn)行加速計(jì)算。結(jié)合 AI,它能帶來數(shù)百萬倍的性能加速,推動科學(xué)的進(jìn)步。如今,已有 2700 個應(yīng)用受益于 NVIDIA GPU 加速,而在日益增長的 300 萬開發(fā)者共同組成的社區(qū)支持下,這一數(shù)字仍在不斷攀升。
HPC 應(yīng)用性能提升
為將所有 HPC 應(yīng)用的速度提升數(shù)倍,我們需要在堆棧的每個層面進(jìn)行不斷的創(chuàng)新,包括芯片、系統(tǒng)以及應(yīng)用框架本身。
隨著架構(gòu)和 NVIDIA 軟件棧整體上的不斷進(jìn)步, NVIDIA 平臺的性能每年都會顯著提高。與六年前發(fā)布的 P100 相比, H100 Tensor Core GPU 的性能提高 26 倍,比摩爾定律快 3 倍以上。
NVIDIA 平臺的核心是一個功能豐富的高性能軟件堆棧。為了方便各種 HPC 應(yīng)用實(shí)現(xiàn) GPU 加速,該平臺加入了 NVIDIA HPC SDK。SDK 使開發(fā)者能夠使用標(biāo)準(zhǔn)語言、導(dǎo)語指令以及 CUDA 來編寫和移植 GPU 加速應(yīng)用,為開發(fā)者帶來了無與倫比的靈活性。
NVIDIA HPC SDK 的強(qiáng)大之處在于其龐大且高度優(yōu)化的 GPU 加速數(shù)學(xué)庫,使用戶能夠充分發(fā)揮 NVIDIA GPU 的性能潛力。為了實(shí)現(xiàn)最佳的多 GPU 和多節(jié)點(diǎn)擴(kuò)展性能, NVIDIA HPC SDK 還提供強(qiáng)大的通信庫:
NVSHMEM 為跨多個 GPU 內(nèi)存的數(shù)據(jù)創(chuàng)建了一個全局地址空間。
NVIDIA 集合通信庫(NCCL)優(yōu)化了 GPU 之間的通信。
總之,該平臺提供最高的性能和靈活性,為龐大的、不斷增長的 GPU 加速 HPC 應(yīng)用提供支持。
HPC 的性能和能效
為了展示 NVIDIA 全棧創(chuàng)新如何助力加速 HPC 實(shí)現(xiàn)最高性能, 我們將一臺配備 4 顆 NVIDIA GPU 的慧與(HPE)服務(wù)器與一臺配備另一家廠商同等數(shù)量加速器模塊且配置相似的服務(wù)器進(jìn)行了性能比較。
我們使用多種算例測試了廣泛使用的五個 HPC 應(yīng)用。盡管在各個行業(yè)中有約 2700 個應(yīng)用基于 NVIDIA 平臺實(shí)現(xiàn)了加速,但由于另一家廠商的加速器只支持部分軟件和應(yīng)用版本,我們在此次比較中所能使用的應(yīng)用有限。
對于除 NAMD (用于分子動力學(xué)模擬的軟件)以外的所有應(yīng)用,我們首先獲得多個算例的結(jié)果,然后使用它們的幾何平均值作為計(jì)算結(jié)果,這樣可以將異常值的影響最小化并反映客戶的體驗(yàn)。
我們還在多 GPU 和單 GPU 場景下測試了這些應(yīng)用。
在多 GPU 場景中,測試系統(tǒng)中的所有加速器都被用來運(yùn)行一個模擬,基于 A100 Tensor Core GPU 的服務(wù)器所提供的性能比起另一臺服務(wù)器高出 2.1 倍。
得益于計(jì)算性能的持續(xù)進(jìn)步,分子動力學(xué)領(lǐng)域正朝著模擬更大的原子體系和更長的時間的方向發(fā)展。這使研究者能夠模擬越來越多的生物化學(xué)機(jī)制,例如光合電子傳遞和視覺信號轉(zhuǎn)導(dǎo)。對于此類過程,由于模擬這一主要驗(yàn)證方式耗時過長,之前無法通過模擬來對其進(jìn)行驗(yàn)證,導(dǎo)致這類過程也一直引發(fā)科學(xué)界的爭論。
但我們認(rèn)識到,并非所有用戶都會在每次模擬時使用多個 GPU 運(yùn)行。為了獲得最佳吞吐量,最好的方法往往是為每次模擬分配一個 GPU。
當(dāng)在單一加速器模塊( NVIDIA A100 上一個的完整 GPU 和另一款產(chǎn)品上的兩個計(jì)算芯片)上運(yùn)行這些應(yīng)用時,基于 NVIDIA A100 的系統(tǒng)提供了高達(dá) 1.9 倍的性能。
電力成本占據(jù)了數(shù)據(jù)中心和超級計(jì)算中心總擁有成本(TCO)中的很大一部分,這突出了高能效計(jì)算平臺的重要性。根據(jù)我們的測試, NVIDIA 平臺的每瓦吞吐量比其他產(chǎn)品高 2.8 倍。
多年來, 我們?yōu)榱俗畲笙薅鹊靥岣邞?yīng)用性能和效率而堅(jiān)持不懈地進(jìn)行軟硬件協(xié)同優(yōu)化,最終打造出具有卓越性能和能效的 NVIDIA A100 GPU。欲進(jìn)一步了解 NVIDIA Ampere 架構(gòu),請參見 NVIDIA A100 Tensor Core GPU 白皮書。
A100 在操作系統(tǒng)中也表現(xiàn)為一個單一的處理器,只需要啟動一個 MPI 線程就可以充分發(fā)揮它的性能。而且由于一個節(jié)點(diǎn)中所有 GPU 之間都采用 600-GB/s NVLink 互聯(lián),因此 A100 可以提供出色的擴(kuò)展性能。
AI 與 HPC 的融合
正如加速計(jì)算將模擬和仿真應(yīng)用的速度提高了數(shù)倍, AI 和 HPC 的結(jié)合也將進(jìn)一步提升性能,推動下一波科學(xué)研究的發(fā)展。
從我們首次提交 MLPerf 訓(xùn)練結(jié)果到最近一次提交,已有三年的時間。在這三年里, NVIDIA 平臺在這套由同行評審的行業(yè)標(biāo)準(zhǔn)基準(zhǔn)測試中將深度學(xué)習(xí)性能提高了 20 倍。這些成果來自于芯片、軟件和規(guī)模上的全面提高。
科學(xué)家和研究者已在使用 AI 大幅提升性能,加快科學(xué)研究的速度。
使識別引力波所需的時間減少為原來 10 萬分之一。
對呼吸道飛沫中的 Delta SARS-CoV-2 病毒(原子數(shù)超過 10 億)進(jìn)行模擬的速度提高 1000 倍。
加速清潔聚變能源的發(fā)展。
為余熱鍋爐(HRSG)工廠創(chuàng)建預(yù)測性數(shù)字孿生。
世界各地的超級計(jì)算中心都在持續(xù)使用加速 AI 超級計(jì)算機(jī)。
阿貢領(lǐng)導(dǎo)力計(jì)算設(shè)施(ALCF)的 Polaris 超級計(jì)算機(jī)、美國國家能源研究科學(xué)計(jì)算中心(NERSC)的 Perlmutter、意大利多所大學(xué)組建的 CINECA 聯(lián)盟建設(shè)的 Leonardo,均采用 A100 Tensor Core GPU 加速。
即將在 2023 年上線的 Alps 超級計(jì)算機(jī)基于 NVIDIA 的 Grace Hopper 超級芯片打造而成。
計(jì)劃于 2023 年交付的洛斯阿拉莫斯國家實(shí)驗(yàn)室的 Venado 系統(tǒng),將包含 Grace Hopper 超級芯片以及 Grace CPU 超級芯片節(jié)點(diǎn)。
原文標(biāo)題:NVIDIA 通過全棧創(chuàng)新推動高性能計(jì)算的發(fā)展
文章出處:【微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5696瀏覽量
110144 -
HPC
+關(guān)注
關(guān)注
0文章
350瀏覽量
25083 -
高性能計(jì)算
+關(guān)注
關(guān)注
0文章
97瀏覽量
13829
原文標(biāo)題:NVIDIA 通過全棧創(chuàng)新推動高性能計(jì)算的發(fā)展
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA向Kubernetes社區(qū)捐贈動態(tài)資源分配GPU驅(qū)動程序
Oracle和NVIDIA合作加速向量搜索和企業(yè)數(shù)據(jù)處理
NVIDIA推出cuEST量子化學(xué)加速庫
NVIDIA cuDF和cuVS獲全球領(lǐng)先數(shù)據(jù)平臺采用
借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程
RSoft GPU加速技術(shù)重塑光子元件設(shè)計(jì)效率革命
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
NVIDIA RTX PRO 4000 Blackwell GPU性能測試
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
NVIDIA推出NVQLink高速互連架構(gòu)
NVIDIA Spectrum-X 以太網(wǎng)交換機(jī)助力 Meta 和 Oracle 加速網(wǎng)絡(luò)性能
Lambda采用Supermicro NVIDIA Blackwell GPU服務(wù)器集群構(gòu)建人工智能工廠
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品
NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀(jì)錄
采用NVIDIA GPU加速HPC應(yīng)用性能提升
評論