中文字幕亚洲区三,五月天亚洲熟女av

最近這幾年，AI浪潮席卷全球，成為整個社會的關注焦點。大家在討論AI的時候，經(jīng)常會提到AI算力集群。AI的三要素，是算力、算法和數(shù)據(jù)。而AI算力集群，就是目前最主要的算力來源。它就像一個超級發(fā)電廠，可以給AI浪潮提供源源不斷的動力。那么，AI算力集群，到底是由哪些東西組成的呢？它為什么能夠提供澎湃的算力？它的內(nèi)部結構又是怎樣的呢？包括了哪些關鍵技術？接下來，小棗君就通過這篇文章，給大家做一個全面梳理。

什么是AI算力集群？

AI算力集群，顧名思義，就是能夠為AI計算任務提供算力的集群系統(tǒng)。集群，英文是cluster，指的是一組相互獨立的、通過高速網(wǎng)絡互聯(lián)的設備。
網(wǎng)上也有定義指出，AI算力集群，指的是“通過高速網(wǎng)絡，將大量高性能計算節(jié)點（如GPU/TPU服務器）互聯(lián)，從而形成的一種分布式計算系統(tǒng)?！贝饲靶椌o大家介紹AI智算的時候說過，所謂AI智算，無非就是訓練和推理兩大任務。訓練的計算量大、難度高，對算力的要求也高。推理的計算量相對較小，難度相對較低，對算力的要求也低。無論是訓練和推理，都涉及到大量的矩陣運算（如卷積、張量乘法）任務。這些計算天然可以分解為獨立子任務進行并行處理。所以，擅長并行計算的GPU、NPU、TPU等芯片，就成為了AI計算的主要工具。這些芯片也被統(tǒng)稱為AI芯片。AI芯片是提供AI算力的最基本單元。單個芯片是沒辦法工作的，需要集成在電路板上。于是，將AI芯片嵌入在手機主板上，或者直接集成到手機SoC主芯片上，就可以為手機提供AI算力。集成在物聯(lián)網(wǎng)設備模組上，就可以為物聯(lián)網(wǎng)設備（汽車、機械臂、AGV無人車、攝像頭等）提供AI算力。這些是端側算力。將AI芯片集成在基站、路由器、網(wǎng)關等設備里，就是邊緣側算力。這些設備體積小，AI芯片就1個，算力很弱，主要完成一些推理計算任務。想要完成更為復雜的訓練任務，就需要一個能搭載更多AI芯片的硬件平臺。將AI芯片做成AI算力板卡，然后在一個服務器里塞入多塊AI算力板卡，就打造出了AI服務器。世上本沒有AI服務器。普通服務器里多塞入幾個AI算力板卡，就變成了AI服務器。一般來說，AI服務器是一機八卡。如果你硬要塞的話，有的最多也可以塞二十卡。但是，限于散熱和功耗，想要塞入更多，就不太現(xiàn)實了。此時的AI服務器，算力又提升了一個數(shù)量級。完成推理任務，更加駕輕就熟。一些簡單的訓練任務（小模型），它也可以勉強勝任。今年崛起的DeepSeek大模型，因為在架構和算法上進行了優(yōu)化，大幅降低了對算力的要求。所以，就有很多廠商，搞了那種單機架的計算設備（包括若干臺AI服務器、存儲、電源等），并將其命名為“一體機”，可以滿足很多行業(yè)企業(yè)用戶DeepSeek大模型私有化部署的需求，賣得熱火朝天。不管是AI服務器還是一體機，AI算力仍然是有限的。針對真正的海量參數(shù)（千億級、萬億級）大模型訓練，仍然需要更強勁的AI算力。于是，就要打造包括更多AI芯片的系統(tǒng)，也就是真正的大規(guī)模AI算力集群?，F(xiàn)在我們經(jīng)常會聽說所謂“萬卡規(guī)?！薄ⅰ笆f卡規(guī)?！?，意思就是說，要打造的目標AI算力集群，需要一萬塊、十萬塊AI算力板卡（AI芯片）。這該怎么辦呢？答案很簡單，就是Scale Up和Scale Out。

什么是Scale Up？

Scale，是擴展的意思。搞過云計算的同學，對這個詞肯定不陌生。

Scale Up，是向上擴展，也叫縱向擴展，增加單節(jié)點的資源數(shù)量。

Scale Out，是向外擴展，也叫橫向擴展，增加節(jié)點的數(shù)量。

在云計算領域，還有和Scale Up對應的Scale Down（縱向縮減），以及和Scale Out對應的Scale In（橫向縮減）。

前面提到的，在每臺服務器里多塞幾塊AI算力板卡，這就是Scale Up。這時，一臺服務器就是一個節(jié)點。

通過通信網(wǎng)絡，將多臺電腦（節(jié)點）連接起來，這就是Scale Out。

Scale Up和Scale Out最主要的區(qū)別，在于AI芯片之間的連接速率。

Scale Up是節(jié)點內(nèi)部連接。它的連接速率更高，時延更低，性能更強勁。

以前，計算機內(nèi)部元件之間的通信主要基于PCIe協(xié)議。這個協(xié)議誕生于上世紀80-90年代PC剛剛普及的時候。雖然協(xié)議后來也有升級，但升級速度緩慢，數(shù)據(jù)傳輸速率和時延根本無法滿足要求需求。

于是，2014年，英偉達專門推出了NVLINK總線協(xié)議。NVLINK允許GPU之間以點對點方式進行通信，速度遠高于PCIe，時延也低得多。

NVLINK原本只用于機器內(nèi)部通信。2022年，英偉達將NVSwitch芯片獨立出來，變成了NVLink交換機，用于連接服務器之間的GPU設備。

這意味著，節(jié)點已經(jīng)不再僅限于1臺服務器了，而是可以由多臺服務器和網(wǎng)絡設備共同組成。

這些設備處于同一個HBD（High Bandwidth Domain，超帶寬域）。英偉達將這種以超大帶寬互聯(lián)16卡以上GPU-GPU的Scale Up系統(tǒng)，稱為超節(jié)點。

歷經(jīng)多年的發(fā)展，NVLINK已經(jīng)迭代到第五代。每塊GPU擁有18個NVLink連接，Blackwell GPU的總帶寬可達到1800GB/s，遠遠超過PCIe Gen6的總線帶寬。

2024年3月，英偉達發(fā)布了NVL72，可以將36個Grace CPU和72個Blackwell GPU集成到一個液冷機柜中，實現(xiàn)總計720 Pflops的AI訓練性能，或1440 Pflops的推理性能。

英偉達是AI計算領域毫無疑問的領軍者。他們有最受歡迎的AI芯片（GPU）和軟件生態(tài)（CUDA），也探索出了最有效的Scale Up實現(xiàn)方式。后來，隨著AI的不斷發(fā)展，越來越多的企業(yè)也開始推出AI芯片。因為NVLINK是私有協(xié)議，所以，這些推出AI芯片的企業(yè)，也要研究如何搭建自己的AI算力集群。英偉達海外的主要競爭對手之一，AMD公司，推出了UA LINK。國內(nèi)的騰訊、阿里、中國移動等企業(yè)，也牽頭推出了ETH-X、ALS、OISA等項目。這些都是開放標準，成本比私有協(xié)議更低，也有利于降低行業(yè)門檻，幫助實現(xiàn)技術平權，符合互聯(lián)網(wǎng)開放解耦的發(fā)展趨勢。值得一提的是，這些標準基本上都是以以太網(wǎng)技術（ETH）為基礎。因為以太網(wǎng)技術最成熟、最開放，擁有很好的產(chǎn)業(yè)鏈基礎。

另一個非常值得關注的技術路線，就是華為的私有協(xié)議UB（Unified Bus）。

最近幾年，華為一直在打造昇騰生態(tài)。昇騰是華為的AI芯片，目前發(fā)展到了昇騰910C。他們也需要自己的AI算力集群解決方案，最大程度地發(fā)揮910C的能量，也為市場推廣鋪平道路。

今年4月，華為高調(diào)發(fā)布CloudMatrix384超節(jié)點，集成了384張昇騰910C算力卡，可提供高達300 Pflops的密集BF16算力，接近達到英偉達GB200 NVL72系統(tǒng)的兩倍。

華為CloudMatrix 384超節(jié)點（來自華為云生態(tài)大會）

CloudMatrix384，就采用了UB技術。準確來說，CloudMatrix384包括了三個不同的網(wǎng)絡平面，分別是UB平面、RDMA平面和VPC平面。

三個平面互補，實現(xiàn)了CloudMatrix384極強的卡間通信能力，也實現(xiàn)了整個超節(jié)點的算力提升。限于篇幅，具體技術細節(jié)下次再單獨介紹。

需要再說明一下，面對開放標準的競爭壓力，英偉達前段時間公布了NVLink Fusion計劃，向8家合作伙伴開放了其NVLink技術，以幫助他們構建通過將多個芯片連接在一起的定制AI系統(tǒng)。

但是，根據(jù)一些媒體的報道，其中一些關鍵的NVLink組件仍然是未開放的，英偉達還是沒有那么爽快。

什么是Scale Out？

再來看看Scale Out。

Scale Out，其實就接近于我們傳統(tǒng)意義上的數(shù)據(jù)通信網(wǎng)絡了。把傳統(tǒng)服務器連接起來的技術，包括胖樹架構、葉脊網(wǎng)絡架構那些，還有TCP/IP、以太網(wǎng)那些技術，都是Scale Out的基礎。

當然了，AI智算對網(wǎng)絡性能的要求很高，所以，傳統(tǒng)技術也要升級，才能滿足條件。

目前，Scale Out主要采用的通信網(wǎng)絡技術，是Infiniband（IB）和RoCEv2。

這兩個技術都是基于RDMA（遠程直接內(nèi)存訪問）協(xié)議，擁有比傳統(tǒng)以太網(wǎng)更高的速率、更低的時延，負載均衡能力也更強。

IB當年也是為了取代PCIe而推出的技術，后來起起伏伏，掌握這項技術的Mellanox（邁絡思）公司被英偉達收購。IB也變成了英偉達的私有技術。這個技術性能是真好，但價格也是真貴。它是英偉達算力布局的重要組成部分。

RoCEv2，則是開放標準，是傳統(tǒng)以太網(wǎng)融合RDMA的產(chǎn)物，也是產(chǎn)業(yè)界為了對抗IB一家獨大所推出的產(chǎn)物。它的價格便宜，和IB的性能差距也在不斷縮小。

比起Scale Up領域的多個標準，Scale Out目前標準相對集中，主要就是RoCEv2，路線非常清晰。畢竟，Scale Up是節(jié)點內(nèi)，和芯片產(chǎn)品強相關。Scale Out是節(jié)點外，更強調(diào)兼容性。

前面我說了，Scale Up和Scale Out最主要的區(qū)別在于速率帶寬。

IB和RoCEv2僅能提供Tbps級別的帶寬。而Scale Up，能夠?qū)崿F(xiàn)數(shù)百個GPU間10Tbps帶寬級別的互聯(lián)。

在時延方面，Scale Up和Scale Out也有很大的差距。IB和RoCEv2的時延高達10微秒。而Scale Up對網(wǎng)絡時延的要求極為嚴苛，需要達到百納秒（100納秒=0.1微秒）級別。

在AI訓練過程中，包括多種并行計算方式，例如TP（張量并行）、 EP（專家并行）、PP（流水線并行）和DP（數(shù)據(jù)并行）。

通常來說，PP和DP的通信量較小，一般交給Scale Out搞定。而TP和EP的通信量大，需要交給Scale Up（超節(jié)點內(nèi)部）搞定。

超節(jié)點，作為Scale Up的當前最優(yōu)解，通過內(nèi)部高速總線互連，能夠有效支撐并行計算任務，加速GPU之間的參數(shù)交換和數(shù)據(jù)同步，縮短大模型的訓練周期。

超節(jié)點一般也都會支持內(nèi)存語義能力，GPU之間可以直接讀取對方的內(nèi)存，這也是Scale Out不具備的。

站在組網(wǎng)和運維的角度來看，更大的Scale Up也有明顯優(yōu)勢。

超節(jié)點的HBD（超帶寬域）越大，Scale Up的GPU越多，Scale Out的組網(wǎng)就越簡單，大幅降低組網(wǎng)復雜度。

Scale Up & Scale Out組網(wǎng)示意圖

Scale Up系統(tǒng)是一個高度集成的小型集群，內(nèi)部總線已經(jīng)連好。這也降低了網(wǎng)絡部署的難度，縮短了部署周期。后期的運維，也會方便很多。

當然，Scale Up也不能無限大，也要考慮本身的成本因素。具體的規(guī)模，需要根據(jù)需求場景進行測算。

概括來說，Scale Up和Scale Out，就是性能和成本之間的平衡。隨著時間的推移和技術的進步，以后肯定還會出現(xiàn)更大規(guī)模的超節(jié)點。Scale Up和Scale Out之間的邊界，也會越來越模糊。

前面提到的ETH-X等開放Scale Up標準，都是基于以太網(wǎng)技術。從技術的角度來看，以太網(wǎng)具有最大交換芯片容量（單芯片51.2T已商用）、最高速Serdes技術（目前達到112Gbps），交換芯片時延也很低（200ns），完全可以滿足Scale Up的性能要求。

Scale Out也是基于以太網(wǎng)。這不就大一統(tǒng)了么？

AI算力集群的發(fā)展趨勢

最后，我再來說說AI算力集群的一些趨勢動向。

目前看來，AI算力集群體現(xiàn)出這么幾個趨勢：

1、物理空間的異地化。

AI算力集群正在向萬卡、十萬卡方向發(fā)展。英偉達NVL72的1個機架有72顆芯片，華為CM384的16個機架有384顆芯片。華為基于CM384搞十萬卡，需要432套（384×432=165888），那就是6912個機架。

對于單體數(shù)據(jù)中心來說，很難容納下這么多機架。電力供應也會成為問題。

所以，現(xiàn)在業(yè)界在探索異地數(shù)據(jù)中心共同組成AI算力集群，協(xié)力完成AI訓練任務。這個非?？简為L距離、大帶寬、低時延的DCI光通信技術，會加速空芯光纖等前沿技術的應用。

2、節(jié)點架構的定制化。

我們剛才介紹AI集群，都是在討論如何把海量的AI芯片給“聚集起來”。其實，AI算力集群除了堆芯片數(shù)量之外，越來越看重架構的深度設計。

計算資源（GPU、NPU、CPU，甚至包括內(nèi)存、硬盤）的池化，成為趨勢。集群需要充分適配AI大模型的架構（例如MoE架構），提供定制性的設計，才能更好地完成計算任務。

換言之，單純提供AI芯片是不夠的，還要提供量體裁衣的設計。

3、運維能力的智能化。

大家都聽說過，AI大模型訓練容易出錯。嚴重的時候，幾個小時就錯一次。錯了就要重新算，非常耽誤事，不僅拉長了訓練周期，也增加了訓練成本。

所以，企業(yè)在打造AI算力集群的時候，越來越關注系統(tǒng)的可靠性和穩(wěn)定性。引入各種AI技術，對潛在故障進行預判，對亞健康設備或模塊進行提前替換，成為一種趨勢。

這些技術有利于降低故障率和中斷率，增強系統(tǒng)穩(wěn)定性，也等于是變相提升了算力。

4、算力的綠色化。AI智算需要消耗大量的算力，也會產(chǎn)生很高的能耗，所以目前各大廠商都在努力研究如何降低AI智算集群的能耗，提升綠色能源的使用比例，這也有利于AI智算的長遠發(fā)展。我們國家的東數(shù)西算戰(zhàn)略，其實也是出于這方面的目的。

好啦，以上就是關于AI算力集群的介紹。應該是非常全面且具體了，不知道大家都看懂了沒？

文章來源于鮮棗課堂，作者小棗君

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

高速網(wǎng)絡

高速網(wǎng)絡

+關注

關注
0

文章
18

瀏覽量
7091
AI算力

AI算力

+關注

關注
1

文章
174

瀏覽量
10042

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

一文看懂AI算力集群

評論