十年前,AWS(Amazon Web Services)發(fā)布了首個(gè)采用 NVIDIA M2050 GPU 的實(shí)例。當(dāng)時(shí),基于 CUDA 的應(yīng)用主要專注于加速科學(xué)模擬,AI 和深度學(xué)習(xí)還遙遙無(wú)期。
自那時(shí)起,AW 就不斷擴(kuò)充云端 GPU 實(shí)例陣容,包括 K80(p2)、K520(g3)、M60(g4)、V100(p3 / p3dn)和 T4(g4)。
現(xiàn)在,已全面上市的全新 AWS P4d 實(shí)例采用最新 NVIDIA A100 Tensor Core GPU,開(kāi)啟了加速計(jì)算的下一個(gè)十年。
全新的 P4d 實(shí)例,為機(jī)器學(xué)習(xí)訓(xùn)練和高性能計(jì)算應(yīng)用提供 AWS 上性能與成本效益最高的 GPU 平臺(tái)。與默認(rèn)的 FP32 精度相比,全新實(shí)例將 FP16 機(jī)器學(xué)習(xí)模型的訓(xùn)練時(shí)間減少多達(dá) 3 倍,將 TF32 機(jī)器學(xué)習(xí)模型的訓(xùn)練的時(shí)間減少多達(dá) 6 倍。
這些實(shí)例還提供出色的推理性能。NVIDIA A100 GPU 在最近的 MLPerf Inference 基準(zhǔn)測(cè)試中一騎絕塵,實(shí)現(xiàn)了比 CPU 快 237 倍的性能。

每個(gè) P4d 實(shí)例均內(nèi)置八個(gè) NVIDIA A100 GPU,通過(guò) AWS UltraClusters,客戶可以利用 AWS 的 Elastic Fabric Adapter(EFA)和 Amazon FSx 提供的可擴(kuò)展高性能存儲(chǔ),按需、可擴(kuò)展地同時(shí)訪問(wèn)多達(dá) 4,000 多個(gè) GPU。P4d 提供 400Gbps 網(wǎng)絡(luò),通過(guò)使用 NVLink、NVSwitch、NCCL 和 GPUDirect RDMA 等 NVIDIA 技術(shù),進(jìn)一步加速深度學(xué)習(xí)訓(xùn)練的工作負(fù)載。EFA 上的 NVIDIA GPUDirect RDMA 在服務(wù)器之間可通過(guò) GPU 傳輸數(shù)據(jù),無(wú)需通過(guò) CPU 和系統(tǒng)內(nèi)存,從而確保網(wǎng)絡(luò)的低延遲。
此外,許多 AWS 服務(wù)都支持 P4d 實(shí)例,包括 Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster 和 Amazon SageMaker。P4d 還可使用所有 NGC 提供的經(jīng)過(guò)優(yōu)化的容器化軟件,包括 HPC 應(yīng)用、AI 框架、預(yù)訓(xùn)練模型、Helm 圖表以及 TensorRT 和 Triton Inference Server 等推理軟件。
目前,P4d 實(shí)例已在美國(guó)東部和西部上市,并將很快擴(kuò)展到其他地區(qū)。用戶可以通過(guò)按需實(shí)例(On-Demand)、Savings Plans、預(yù)留實(shí)例(Reserved Instances)或競(jìng)價(jià)型實(shí)例(Spot Instances)幾種不同的方式進(jìn)行購(gòu)買。
GPU 云計(jì)算發(fā)展最初的十年,已為市場(chǎng)帶來(lái)超過(guò) 100 exaflops 的 AI 計(jì)算。隨著基于 NVIDIA A100 GPU 的 Amazon EC2 P4d 實(shí)例的問(wèn)世,GPU 云計(jì)算的下一個(gè)十年將迎來(lái)一個(gè)美好的開(kāi)端。
NVIDIA 和 AWS 不斷幫助各種應(yīng)用突破 AI 的界限,以便了解客戶將如何運(yùn)用 AI 強(qiáng)大的性能。
編輯:hfy
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5696瀏覽量
110142 -
gpu
+關(guān)注
關(guān)注
28文章
5283瀏覽量
136105 -
AI
+關(guān)注
關(guān)注
91文章
41326瀏覽量
302714 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
67文章
8567瀏覽量
137260 -
AWS
+關(guān)注
關(guān)注
0文章
444瀏覽量
26645
發(fā)布評(píng)論請(qǐng)先 登錄
借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程
NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)
NVIDIA RTX PRO 4000 Blackwell GPU性能測(cè)試
在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程
NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試
NVIDIA NVQLink技術(shù)被全球十余家超級(jí)計(jì)算中心廣泛采用
工控核心板GPU實(shí)測(cè)!工業(yè)級(jí)圖形加速到底有多強(qiáng)?#核心板 #GPU #嵌入式
Lambda采用Supermicro NVIDIA Blackwell GPU服務(wù)器集群構(gòu)建人工智能工廠
NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析
NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品
aicube的n卡gpu索引該如何添加?
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理
NVIDIA計(jì)劃打造全球首個(gè)工業(yè)AI云平臺(tái)
硅谷GPU云服務(wù)器是什么意思?使用指南詳解
GPU架構(gòu)深度解析
首個(gè)采用NVIDIA M2050 GPU的實(shí)例 開(kāi)啟GPU云計(jì)算下個(gè)十年
評(píng)論