日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

算力網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式訓(xùn)練范式

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:電子發(fā)燒友 ? 2025-06-08 08:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)綜合報道 隨著AI技術(shù)迅猛發(fā)展,尤其是大型語言模型的興起,對于算力的需求呈現(xiàn)出爆炸性增長。這不僅推動了智算中心的建設(shè),還對網(wǎng)絡(luò)互聯(lián)技術(shù)提出了新的挑戰(zhàn)。

AI大模型訓(xùn)練過程中,由于單個AI芯片的算力提升速度無法跟上模型參數(shù)的增長速率,再加上龐大的模型參數(shù)和訓(xùn)練數(shù)據(jù),已遠遠超出單個AI芯片甚至單臺服務(wù)器的能力范圍。因此,需要將數(shù)據(jù)樣本和模型結(jié)構(gòu)分散到多個計算設(shè)備上,這導(dǎo)致了設(shè)備間的頻繁通信需求。為了適應(yīng)這一變化,智算中心服務(wù)器內(nèi)部的網(wǎng)絡(luò)互聯(lián)技術(shù)變得至關(guān)重要。

芯片間互聯(lián)技術(shù)

AI服務(wù)器的互聯(lián)技術(shù)是保障其高性能計算能力的關(guān)鍵,涉及芯片間、服務(wù)器內(nèi)以及服務(wù)器間等多個層面的高速數(shù)據(jù)傳輸。

芯片間互聯(lián)技術(shù)方面,英偉達、AMD、英特爾都推出了相關(guān)技術(shù),分別是NVLink、Infinity Fabric、CXL(Compute Express Link)等。NVLink是由NVIDIA開發(fā)的GPU之間的高速互連技術(shù),能加快CPU與GPU、GPU與GPU之間的數(shù)據(jù)傳輸速度,提高系統(tǒng)性能。從2016年到2022年,NVLink歷經(jīng)多次迭代更新,例如基于Hopper架構(gòu)的第四代NVLink,單鏈可實現(xiàn)50GB/s的雙向帶寬,單芯片可支持18鏈路,即900GB/s的總雙向帶寬。在NVIDIA的DGX H100服務(wù)器中,GPU(H100)之間互聯(lián)主要通過NV Switch芯片來實現(xiàn),而NV Switch芯片與GPU之間的數(shù)據(jù)傳輸就依賴于NVLink。

AMD推出的Infinity Fabric,由傳輸數(shù)據(jù)的Infinity Scalable Data Fabric(SDF)和負責(zé)控制的Infinity Scalable Control Fabric(SCF)兩個系統(tǒng)組成,連接了on-die和off-die以及多路CPU間的通信。最新的AMD Instinct MI300X GPU采用5nm制程,支持客戶將8個GPU整合為一個性能主導(dǎo)型節(jié)點,并且具有全互聯(lián)式點對點環(huán)形設(shè)計,使用了第4代Infinity Fabric高速總線互聯(lián),總線帶寬達到896GB/s(與英偉達H100的900GB/s帶寬相當(dāng))。

CXL(Compute Express Link)是英特爾提出的一種開放性互聯(lián)協(xié)議,CXL是建立在PCIe物理層之上的協(xié)議,可以實現(xiàn)設(shè)備之間的緩存和內(nèi)存一致性。利用廣泛存在的PCIe接口,CXL允許內(nèi)存在各種硬件上共享:CPU、NIC和DPU、GPU和其它加速器、SSD和內(nèi)存設(shè)備,從而滿足高性能異構(gòu)計算的要求。

服務(wù)器內(nèi)互聯(lián)技術(shù)有PCIe Switch、Retimer芯片。PCIe Switch,即PCIe開關(guān)或PCIe交換機,主要作用是實現(xiàn)PCIe設(shè)備互聯(lián)。由于PCIe的鏈路通信是一種端對端的數(shù)據(jù)傳輸,需要Switch提供擴展或聚合能力,從而允許更多的設(shè)備連接到一個PCIe端口,以解決PCIe通道數(shù)量不夠的問題。例如在AI服務(wù)器中,GPU與CPU連接時可能需要用到PCIe Switch,并且隨著PCIe總線技術(shù)的升級,PCIe Switch每代速率提升,能提高數(shù)據(jù)傳輸?shù)乃俣取?br />
在AI服務(wù)器中,GPU與CPU連接時至少需要一顆Retimer芯片來保證信號質(zhì)量,很多AI服務(wù)器都會配置多顆Retimer芯片。例如Astera Labs在AI加速器中配置了4顆Retimer芯片。

AI服務(wù)器間互聯(lián)技術(shù)

服務(wù)器間互聯(lián)技術(shù)有InfiniBand、RoCE、高速以太網(wǎng)。InfiniBand是一種高性能的網(wǎng)絡(luò)互聯(lián)技術(shù),具有低延遲、高帶寬的特點,能夠滿足AI服務(wù)器之間超低延遲、超高帶寬的通信需求,適用于大規(guī)模AI模型訓(xùn)練時服務(wù)器之間的高效通信和數(shù)據(jù)同步。例如訓(xùn)練超大模型往往需要成百上千臺服務(wù)器組成集群,服務(wù)器之間就需要InfiniBand這樣的網(wǎng)絡(luò)進行高效通信。

RoCE(RDMA over Converged Ethernet),基于以太網(wǎng)的RDMA(遠程直接內(nèi)存訪問)技術(shù),它允許數(shù)據(jù)在網(wǎng)絡(luò)中直接從一臺計算機的內(nèi)存?zhèn)鬏數(shù)搅硪慌_計算機的內(nèi)存,而無需操作系統(tǒng)內(nèi)核的介入,從而降低了延遲,提高了帶寬利用率,可用于AI服務(wù)器間的互聯(lián),提升數(shù)據(jù)傳輸效率。

高速以太網(wǎng),如400Gbps甚至800Gbps以太網(wǎng)適配器,能為AI服務(wù)器間提供高速的網(wǎng)絡(luò)連接,保障大規(guī)模集群部署時服務(wù)器之間的數(shù)據(jù)傳輸性能。例如昆侖芯超節(jié)點結(jié)合百度智能云自研的基于導(dǎo)軌優(yōu)化的HPN(High Performance Network)架構(gòu),可支撐從數(shù)百卡到上萬卡的XPU集群構(gòu)建,其中就涉及到高速以太網(wǎng)技術(shù)的應(yīng)用。

小結(jié)

在AI服務(wù)器中,互聯(lián)技術(shù)的作用已從數(shù)據(jù)傳輸通道升級為算力釋放引擎。通過高帶寬、低延遲、可擴展的互聯(lián)架構(gòu),AI服務(wù)器能夠突破單節(jié)點算力瓶頸,實現(xiàn)萬億參數(shù)模型的分布式訓(xùn)練;降低推理延遲,支撐實時AI應(yīng)用的商業(yè)化落地;優(yōu)化能效比,應(yīng)對超大規(guī)模數(shù)據(jù)中心的能耗挑戰(zhàn)。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41305

    瀏覽量

    302685
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1697

    瀏覽量

    16838
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Java并發(fā)編程的“基石”——多線程概念初識

    AI 調(diào)度底層:Java 并發(fā)基石與未來技術(shù)融合 當(dāng)我們在屏幕前流暢地與大語言模型對話,或是看著自動駕駛系統(tǒng)瞬間處理海量視覺數(shù)據(jù)時,往往只會驚嘆于
    發(fā)表于 04-16 18:50

    邊緣AI臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值

    310P芯片的底層架構(gòu),深度剖析這款產(chǎn)品的技術(shù)細節(jié)、門檻及其在實際產(chǎn)業(yè)落地中的真實價值。 一、176TOPS的產(chǎn)業(yè)門檻:為何這是邊緣
    發(fā)表于 03-10 14:19

    從云端集中到邊緣分布:邊緣智如何重塑網(wǎng)絡(luò)布局

    隨著大模型推理延遲進入毫秒級時代,整個科技行業(yè)都意識到:網(wǎng)絡(luò)的規(guī)則正在被改寫。這場變革的核心,正是從云端集中式計算向邊緣分布式智能的范式
    的頭像 發(fā)表于 12-25 11:34 ?633次閱讀
    從云端集中到邊緣<b class='flag-5'>分布</b>:邊緣智<b class='flag-5'>算</b>如何重塑<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>網(wǎng)絡(luò)</b>布局

    剖析AI分布式KVM系統(tǒng)的革新意義

    AI技術(shù)的深度融合,不僅解決了傳統(tǒng)系統(tǒng)在復(fù)雜場景下的效率瓶頸,更通過數(shù)據(jù)驅(qū)動、場景感知與自主決策能力,重構(gòu)了人機協(xié)作的底層邏輯。本文將從技術(shù)演進、行業(yè)痛點、應(yīng)用價值三個維度,剖析
    的頭像 發(fā)表于 11-11 11:28 ?1055次閱讀

    中科星云星平臺全國首批代理商簽約成功 共建分布式 AI 生態(tài)

    9月30日下午,中科星云物連科技(北京)有限公司旗下子公司—星云數(shù)智科技(深圳)有限公司,與覆蓋北京、上海、成都、西安、烏魯木齊等重點城市的20 家企業(yè)正式簽約,共同推進星分布式AI
    的頭像 發(fā)表于 10-09 10:34 ?843次閱讀
    中科星云星<b class='flag-5'>算</b>平臺全國首批代理商簽約成功 共建<b class='flag-5'>分布式</b> <b class='flag-5'>AI</b> <b class='flag-5'>算</b><b class='flag-5'>力</b>生態(tài)

    與電力的終極博弈,填上了AIDC的“電力黑洞”

    ),專注于提供人工智能訓(xùn)練與推理所需的服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)。AIDC采用異構(gòu)計算架構(gòu),結(jié)合GPU、FPGA、ASIC等多種AI加速芯片,形成高并發(fā)
    的頭像 發(fā)表于 09-22 02:43 ?9049次閱讀

    華為超節(jié)點互聯(lián)技術(shù)引領(lǐng)AI基礎(chǔ)設(shè)施新范式

    今日,華為全聯(lián)接大會2025在上海啟幕,華為副董事長、輪值董事長徐直軍發(fā)表題為“以開創(chuàng)的超節(jié)點互聯(lián)技術(shù),引領(lǐng)AI基礎(chǔ)設(shè)施新范式”的主題演講,正式發(fā)布全球最強
    的頭像 發(fā)表于 09-20 16:15 ?2317次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    、分布式群體智能 1)物聯(lián)網(wǎng)AGI系統(tǒng) 優(yōu)勢: 組成部分: 2)分布式AI訓(xùn)練 7、發(fā)展重點:基于強化學(xué)習(xí)的后訓(xùn)練與推理 8、超越大模型:
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+神經(jīng)形態(tài)計算、類腦芯片

    AI芯片發(fā)展的重要方向。如果利用超導(dǎo)約瑟夫森結(jié)(JJ)來模擬與實時突觸電路相連的神經(jīng)元,神經(jīng)網(wǎng)絡(luò)運行的速度要比目前的數(shù)字或模擬技術(shù)提升幾
    發(fā)表于 09-17 16:43

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升還是智力

    持續(xù)發(fā)展體現(xiàn)在: 1、收益遞減 大模型的基礎(chǔ)的需要極大的,這首先源于昂貴的高性能AI芯片,然后是寶貴的電力、水等與環(huán)境相關(guān)的資源。 收益遞減體現(xiàn)在: ①模型大小 ②訓(xùn)練數(shù)據(jù)量 ③
    發(fā)表于 09-14 14:04

    加速AI未來,睿海光電800G OSFP光模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標(biāo)準(zhǔn)

    客戶的共同選擇 超中心應(yīng)用 :為某國家實驗室提供800G OSFP SR8模塊,構(gòu)建E級超互聯(lián)網(wǎng)絡(luò) AI訓(xùn)練集群 :某自動駕駛企業(yè)采用我
    發(fā)表于 08-13 16:38

    一鍵部署無損網(wǎng)絡(luò):EasyRoCE助力分布式存儲效能革命

    分布式存儲的性能瓶頸往往在于網(wǎng)絡(luò)。如何構(gòu)建一個高帶寬、超低時延、零丟包的無損網(wǎng)絡(luò),是釋放分布式存儲全部潛力、賦能企業(yè)關(guān)鍵業(yè)務(wù)(如實時數(shù)據(jù)庫、AI
    的頭像 發(fā)表于 08-04 11:34 ?1842次閱讀
    一鍵部署無損<b class='flag-5'>網(wǎng)絡(luò)</b>:EasyRoCE助力<b class='flag-5'>分布式</b>存儲效能革命

    重新思考 AI 時代的分布式計算

    層次的關(guān)注點在于這一效率突破揭示了傳統(tǒng)分布式計算范式AI工作負載獨特需求之間的根本不匹配。AI技術(shù)浪潮對基礎(chǔ)設(shè)施選型帶來了深層挑戰(zhàn):當(dāng)前廣
    的頭像 發(fā)表于 07-31 14:25 ?1370次閱讀
    重新思考 <b class='flag-5'>AI</b> 時代的<b class='flag-5'>分布式</b>計算

    華為助力廣東移動構(gòu)建“九州”互聯(lián)網(wǎng)

    隨著AI大模型的快速發(fā)展,社會數(shù)字化轉(zhuǎn)型邁入時代。大數(shù)據(jù)搬運、AI分布式訓(xùn)練、視聯(lián)網(wǎng)、數(shù)聯(lián)網(wǎng)
    的頭像 發(fā)表于 07-10 09:53 ?1045次閱讀

    潤和軟件發(fā)布StackRUNS異構(gòu)分布式推理框架

    當(dāng)下,AI模型規(guī)模持續(xù)膨脹、多模態(tài)應(yīng)用場景日益復(fù)雜,企業(yè)正面臨異構(gòu)資源碎片化帶來的嚴(yán)峻挑戰(zhàn)。為應(yīng)對行業(yè)痛點,江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)正式發(fā)布自主研發(fā)的StackRUNS異構(gòu)
    的頭像 發(fā)表于 06-13 09:10 ?1619次閱讀
    潤和軟件發(fā)布StackRUNS異構(gòu)<b class='flag-5'>分布式</b>推理框架
    稷山县| 海原县| 连云港市| 清涧县| 任丘市| 新竹县| 阿克| 竹溪县| 白水县| 嘉祥县| 鹤岗市| 长寿区| 年辖:市辖区| 阿坝县| 内丘县| 藁城市| 台北市| 万年县| 灵石县| 南靖县| 上虞市| 汶川县| 昌吉市| 石狮市| 石泉县| 磴口县| 克东县| 赞皇县| 凤庆县| 安吉县| 叶城县| 武川县| 安徽省| 汉中市| 南丹县| 安龙县| 龙口市| 望谟县| 高雄县| 贵港市| 拜泉县|