從 Microsoft Office 等生產(chǎn)力軟件到更復(fù)雜的設(shè)計(jì)和工程工具,AI 集成正在重新定義主流企業(yè)應(yīng)用。這種轉(zhuǎn)變要求現(xiàn)代數(shù)據(jù)中心超越單一用途的孤島。
對于開發(fā)者而言,獲得專用 GPU 計(jì)算的權(quán)限通常會(huì)成為瓶頸。虛擬機(jī) (VM) 可根據(jù)特定項(xiàng)目需求提供安全、隔離且可擴(kuò)展的環(huán)境,從而解決部分此類挑戰(zhàn)。但是,將整個(gè)物理 GPU 專用于單個(gè) VM 對于混合或輕量級(jí)工作負(fù)載而言效率極低。
這正是NVIDIA 多實(shí)例 GPU (MIG)技術(shù)必不可少的地方。借助 MIG,單個(gè)物理 GPU 在硬件級(jí)別被劃分為多個(gè)完全獨(dú)立的實(shí)例,每個(gè)實(shí)例都具有有保證的內(nèi)存、緩存和計(jì)算核心。對于開發(fā)團(tuán)隊(duì)而言,這可確保可預(yù)測、不妥協(xié)的服務(wù)質(zhì)量 (QoS) 。這意味著,多個(gè)開發(fā)者可以在同一物理服務(wù)器上同時(shí)訓(xùn)練 AI 模型、運(yùn)行仿真或渲染圖形,而無需爭奪資源或干擾彼此的工作負(fù)載。
NVIDIA RTX PRO 4500 Blackwell 服務(wù)器版 GPU 具有 32 GB 的高速 GDDR7 顯存,最多可支持兩個(gè) MIG 實(shí)例,而新發(fā)布的NVIDIA vGPU 20軟件可大幅提升性能,從而跨虛擬化企業(yè)數(shù)據(jù)中心加速各種工作負(fù)載。它們可以同時(shí)為從日常生產(chǎn)力到輕量級(jí) AI 開發(fā)的方方面面提供支持。
本文將介紹如何使用 NVIDIA vGPU 和 NVIDIA RTX PRO 4500 Blackwell Server Edition 部署虛擬機(jī) (VM) 。它涵蓋了使用 vGPU 設(shè)置 MIG、企業(yè)工作負(fù)載的大小調(diào)整、性能比較和補(bǔ)充功能。
為 vGPU 配置 RTX PRO 4500 Blackwell 服務(wù)器版本
采用 MIG 技術(shù)的 RTX PRO 4500 Blackwell Server Edition GPU 徹底改變了虛擬化工作負(fù)載。該解決方案允許將單個(gè)物理 GPU 安全地劃分為兩個(gè)獨(dú)立的 GPU 實(shí)例,每個(gè)實(shí)例均提供專用的 16 GB GPU 幀緩存。這使管理員能夠精確分配專用 GPU 資源,確保為各種虛擬機(jī)提供有保證的服務(wù)質(zhì)量。
要遵循本文中的教程,請確保您的環(huán)境符合表 1 中概述的核心要求。本教程使用 VMware vSphere 設(shè)置 MIG 和 vGPU。

表 1. 使用 NVIDIA vGPU 和 NVIDIA RTX PRO 4500 Blackwell Server Edition 部署 VM 的預(yù)備知識(shí) GPU
為 vGPU 和 MIG 配置文件配置 vSphere
此步驟將介紹配置 hypervisor 設(shè)置以啟用 vGPU 和混合配置文件功能的過程。然后,將 4 GB 配置文件附加到 RTX PRO 4500 Blackwell 服務(wù)器版 GPU 的 MIG 切片上。本教程在主機(jī)上提供三個(gè) VM。將配置具有 4Q 配置文件的 Windows 11 VM 來演示此過程。請注意,VMware Cloud Foundation (VCF) 即將支持 MIG 中的時(shí)間片。
從 vSphere Web 界面開始。
選擇主機(jī):導(dǎo)航至運(yùn)行 RTX PRO 4500 Blackwell Server Edition GPU 的 ESXi 主機(jī)
配置 PCI 設(shè)備:導(dǎo)航至配置 -> 硬件 -> PCI 設(shè)備
查找 GPU:在 PCI 設(shè)備列表中找到 RTX PRO 4500 Blackwell Server Edition 顯卡

圖 1. 在 VMware vSphere 圖形設(shè)備列表中選擇 RTX PRO 4500 Blackwell
配置 vGPU 模式和混合大小的配置文件
接下來,調(diào)整 RTX PRO 4500 Blackwell Server Edition GPU 的“Graphics Device” (圖形設(shè)備) 設(shè)置。
設(shè)備類型:選擇“Shared Direct” (直接共享)
vGPU 模式:選擇“Mixed Size” (混合大小) 以在同一 MIG 實(shí)例上運(yùn)行不同大小的 vGPU 配置文件

圖 2. 將 Shared Direct GPU 配置為設(shè)備類型,將 Mixed Size 配置為 vGPU 模式
附加 MIG 支持的 vGPU 配置文件
初始 VM 創(chuàng)建完成后,下一步是連接由 MIG 支持的 vGPU 配置文件。為此,請先確保 VM 已關(guān)閉。打開 VM 設(shè)置,選擇“Add New Device”(添加新設(shè)備),然后選擇“PCI Device”(PCI 設(shè)備)。

圖 3. 在 Windows 11 VM 設(shè)置中添加新的 PCI 設(shè)備
在此場景中,分配由 MIG 切片支持的 vGPU 配置文件。RRO 4500 Blackwell Server Edition GPU 最多支持兩個(gè) MIG 切片。每個(gè)切片都可以容納各種 vGPU 配置文件。
如圖 4 所示,選擇nvidia_rtx_pro_4500_blackwell_dc-1-4q配置文件,即 4 GB 配置文件。配置文件名稱中出現(xiàn)_dc-1-表示此單個(gè) vGPU 由 RTX PRO 4500 Blackwell Server Edition GPU 上的一個(gè) MIG 切片提供支持。

圖 4. 為 VM 選擇特定的 4 GB MIG 支持的 vGPU 配置文件
VM 設(shè)置現(xiàn)已配置完畢后,New PCI 設(shè)備將顯示由 MIG 支持的 vGPU 配置文件(圖 5)。現(xiàn)在,您可以啟動(dòng) VM。

圖 5. 最終硬件配置,顯示分配的 4Q vGPU 配置文件
為各種企業(yè)工作負(fù)載調(diào)配 VM
NVIDIA RTX PRO 4500 Blackwell 服務(wù)器版 GPU 與 vGPU 軟件搭配使用時(shí),可建立一個(gè)靈活的虛擬平臺(tái),IT 組織可以利用該平臺(tái)來加速各種主流企業(yè)工作負(fù)載。作為演示,我們的團(tuán)隊(duì)配置了三個(gè)不同的 VM,每個(gè) VM 都使用不同的 MIG 支持的 vGPU 配置文件 – 3B、4Q 和 16Q。這些特定的配置文件通常非常適合知識(shí)工作、入門級(jí)工作站、數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)任務(wù)等應(yīng)用。
如需進(jìn)一步探索,請?jiān)?RTX PRO 4500 Blackwell GPU 所在的服務(wù)器虛擬化平臺(tái)主機(jī)上運(yùn)行nvidia-smi。nvidia-smi實(shí)用程序是 NVIDIA 系統(tǒng)管理接口,這是一種對于監(jiān)控和管理 NVIDIA GPU 至關(guān)重要的命令行工具。通過在 ESXi 主機(jī)上運(yùn)行,管理員可以查看實(shí)時(shí)運(yùn)行狀態(tài),包括有關(guān) GPU 顯存利用率、當(dāng)前溫度以及 MIG GPU 實(shí)例和其中運(yùn)行的 vGPU 配置文件的配置和狀態(tài)的詳細(xì)信息。

圖 6. 通過nvidia-smi命令行實(shí)用程序監(jiān)控 GPU 和 MIG 狀態(tài)
MIG GPU 實(shí)例 1 正在運(yùn)行 16Q vGPU 配置文件。MIG GPU 實(shí)例 2 同時(shí)托管 4Q vGPU 配置文件(如本示例的 nvidia-smi 輸出所示)和示例性 3B vGPU 配置文件。
需要安裝合適的 Windows 11 vGPU 驅(qū)動(dòng)程序。請務(wù)必禁用任何會(huì)干擾 NVIDIA 客戶機(jī)驅(qū)動(dòng)程序操作的軟件模擬圖形。使用 Omnissa Horizon 或 RDP 等遠(yuǎn)程協(xié)議連接到 VM。連接后,打開“Windows Device Manager”(Windows 設(shè)備管理器)并查看“Display Adapters”(顯示適配器)。驗(yàn)證 VM 是否使用 MIG 支持的 vGPU 配置文件(如本教程之前的配置)。

圖 7. 在 Windows 設(shè)備管理器中驗(yàn)證 RTX PRO 4500 Blackwell vGPU 配置文件
另一個(gè)實(shí)驗(yàn)涉及運(yùn)行 dxdiag 實(shí)用程序。您可以通過 Windows 搜索欄或在命令提示符下輸入dxdiag來訪問此工具。主圖形設(shè)備應(yīng)標(biāo)識(shí)為 RTX PRO 4500 Blackwell DC-1 -4Q 配置文件。

圖 8. 確認(rèn) RTX PRO 4500 Blackwell vGPU 處于活動(dòng)狀態(tài),并提供全面的硬件加速
NVIDIA 的 vGPU 解決方案架構(gòu)師嘗試在單獨(dú)的 VM 上同時(shí)運(yùn)行兩個(gè)應(yīng)用程序,這證明了 RTX PRO 4500 Blackwell GPU(采用 MIG 支持的 vGPU)的通用性。一臺(tái) VM 托管了在 Linux Docker 容器中運(yùn)行的基于 CUDA 的粒子模擬,而另一臺(tái) VM 則為知識(shí)工作者提供了 Windows 11 桌面。這兩種截然不同的工作負(fù)載同時(shí)執(zhí)行。

圖 9. 同時(shí)執(zhí)行基于 Linux 的 CUDA 粒子模擬和 Windows 11 企業(yè)桌面
使用 NVIDIA RTX PRO 4500 Blackwell 服務(wù)器版本加速工作負(fù)載
對于目前使用 NVIDIA Ampere(A 系列)或 NVIDIA Ada Lovelace(L 系列)架構(gòu)的組織而言,采用NVIDIA RTX PRO 4500 Blackwell 服務(wù)器版本是一次變革性的飛躍,而不是邊際收益,特別是對于 AI 增強(qiáng)型應(yīng)用而言。具體而言,在虛擬化環(huán)境中,與 NVIDIA L4 相比,RTX PRO 4500 Blackwell 服務(wù)器版本在 4K 設(shè)置下可為圖形工作負(fù)載提供近 1.9 倍的加速。

圖 10. 在 4K 吞吐量下,RTX PRO 4500 Blackwell 服務(wù)器版本 GPU 可將 SPECviewperf 15 中的 L4 性能提高一倍
即使組織正在擴(kuò)展其基礎(chǔ)架構(gòu),企業(yè)知識(shí)工作者也需要快速響應(yīng)的交互式桌面體驗(yàn)。RTX PRO 4500 Blackwell 服務(wù)器版 GPU 提供了專為這些部署設(shè)計(jì)的現(xiàn)代平臺(tái)。Blackwell 架構(gòu)引入了 MIG 等功能,可在空間上對 GPU 進(jìn)行分區(qū),從而為虛擬桌面提供可預(yù)測的性能、更高的資源利用率和可靠的服務(wù)質(zhì)量。除了原始計(jì)算和分區(qū)之外,RTX PRO 4500 Blackwell 還可提供更高的 NVENC 吞吐量,從而實(shí)現(xiàn)更高效的遠(yuǎn)程顯示串流。
隨著 vGPU 20.0 的發(fā)布,RTX PRO 4500 Blackwell 服務(wù)器版與主流虛擬化平臺(tái)完全集成,為企業(yè) IT 環(huán)境提供了無縫的部署就緒型解決方案。此更新可確保 IT 管理員能夠在其數(shù)據(jù)中心部署中利用 RTX PRO 4500 Blackwell Server Edition 架構(gòu)的先進(jìn)功能。
vGPU 20 中的更多增強(qiáng)功能
除了支持 NVIDIA RTX PRO 4500 Blackwell Server Edition 之外,vGPU 20 還引入了以下增強(qiáng)功能,旨在加速現(xiàn)代應(yīng)用程序并確保在虛擬化環(huán)境中實(shí)現(xiàn)一致的性能:
全新 NVIDIA AI 虛擬工作站(vWS)工具包:在基于 NVIDIA RTX PRO Blackwell Server Edition 運(yùn)行的 vWS 環(huán)境中部署用于視頻搜索和摘要(VSS)的 NVIDIA AI Blueprint
異構(gòu) vGPU 的固定比例調(diào)度:無論物理 GPU 上的其他實(shí)例如何,均可確保每個(gè) vGPU 實(shí)例的調(diào)度持續(xù)時(shí)間和頻率保持一致
vGPU 支持 VergeOS:通過其用戶界面在私有云操作環(huán)境中自動(dòng)管理 GPU 驅(qū)動(dòng)程序、vGPU 配置文件分配和 MIG 配置
Wayland 支持:適用于基于 Linux 的虛擬機(jī)的顯示服務(wù)器協(xié)議
液冷 GPU 支持for NVIDIA RTX PRO 6000 Blackwell 服務(wù)器版本
NVIDIA vGPU 和 NVIDIA Blackwell 在云端的可用性
GPU 虛擬化為企業(yè)提供了一種經(jīng)濟(jì)高效的方式,使其可以隨時(shí)隨地通過 VM 訪問必要的 GPU 資源,同時(shí)僅利用所需的容量。對于需要高 GPU 顯存的高要求 AI 和視覺計(jì)算任務(wù),主要的云服務(wù)器提供商現(xiàn)在提供 NVIDIA vGPU 和 NVIDIA Blackwell 驅(qū)動(dòng)的實(shí)例:
Google Cloud:宣布推出由 NVIDIA RTX PRO Blackwell Server Edition 提供支持的部分 G4 虛擬機(jī)預(yù)覽版。這些支持 vGPU 的配置包括 12 GB、24 GB、48 GB 和 96 GB 配置文件,支持從串流服務(wù)到高保真 3D 渲染和機(jī)器人傳感器仿真等用例。
Microsoft Azure:NCv6 系列由 NVIDIA RTX PRO 6000 提供支持,將提供支持 NVIDIA vGPU 的部分和完整 GPU 選項(xiàng),最高支持雙 96 GB。
開始使用 NVIDIA Blackwell 和 NVIDIA vGPU
利用 NVIDIA Blackwell 虛擬化的強(qiáng)大功能轉(zhuǎn)變數(shù)據(jù)中心,迎接 AI 驅(qū)動(dòng)的企業(yè)計(jì)算時(shí)代。通過利用 NVIDIA RTX PRO 4500 Blackwell Server Edition 和 NVIDIA vGPU 20,您的組織可以使用其現(xiàn)有的、經(jīng)過驗(yàn)證的基礎(chǔ)設(shè)施來支持越來越多的應(yīng)用程序,因?yàn)槊總€(gè)應(yīng)用程序都越來越多地集成 AI 功能。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5717瀏覽量
110196 -
gpu
+關(guān)注
關(guān)注
28文章
5308瀏覽量
136160 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
18文章
5822瀏覽量
75231 -
AI
+關(guān)注
關(guān)注
91文章
41732瀏覽量
302932
原文標(biāo)題:借助 NVIDIA RTX PRO 4500 Blackwell Server Edition 和 NVIDIA vGPU 20 擴(kuò)展 AI 就緒型數(shù)據(jù)中心
文章出處:【微信號(hào):Leadtek,微信公眾號(hào):麗臺(tái)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)
加速AI未來,睿海光電800G OSFP光模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標(biāo)準(zhǔn)
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)
NVIDIA 在首個(gè)AI推理基準(zhǔn)測試中大放異彩
數(shù)據(jù)中心是什么
什么是數(shù)據(jù)中心
NVIDIA Morpheus為數(shù)據(jù)中心提供AI安全保護(hù)
借助 NVIDIA 融合加速器開發(fā)套件加速數(shù)據(jù)中心 AI
NVIDIA展示新數(shù)據(jù)中心技術(shù)
借助 NVIDIA DPU 和 NVIDIA DOCA 為人工智能時(shí)代的數(shù)據(jù)中心帶來變革
全球領(lǐng)先系統(tǒng)制造商推出 NVIDIA AI 就緒型服務(wù)器,為企業(yè)大幅提升生成式 AI 性能
借助NVIDIA NIM加速AI應(yīng)用部署
光纖為何是AI就緒型數(shù)據(jù)中心的基石?
Cadence 借助 NVIDIA DGX SuperPOD 模型擴(kuò)展數(shù)字孿生平臺(tái)庫,加速 AI 數(shù)據(jù)中心部署與運(yùn)營
曦智科技探討AI數(shù)據(jù)中心三大擴(kuò)展策略
借助NVIDIA產(chǎn)品擴(kuò)展AI就緒型數(shù)據(jù)中心
評(píng)論