同性视频网站,91无码人妻一区,国产91色

隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，大模型（如GPT、BERT等）在自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域取得了顯著成果。然而，大模型的參數(shù)量和計(jì)算量極其龐大，傳統(tǒng)的硬件架構(gòu)或者單臺(tái)設(shè)備（如單個(gè)GPU）難以滿足其計(jì)算需求。大模型的特點(diǎn)如下：

1. DeepSeek-R1模型的參數(shù)量高達(dá)6710億，訓(xùn)練過程需要數(shù)萬臺(tái)GPU協(xié)同工作。

2. 計(jì)算需求：大模型的前向傳播、反向傳播和梯度更新涉及大規(guī)模的矩陣運(yùn)算，單設(shè)備無法在合理時(shí)間內(nèi)完成。

3. 內(nèi)存需求：大模型的參數(shù)和中間結(jié)果需要大量?jī)?nèi)存存儲(chǔ)，單設(shè)備的內(nèi)存容量有限。

4. 數(shù)據(jù)需求：大模型的訓(xùn)練需要海量數(shù)據(jù)，單設(shè)備難以高效處理。

為提高大模型的計(jì)算效率，必須充分利用矩陣和向量運(yùn)算的內(nèi)在并行性。大模型訓(xùn)練的核心流程：前向傳播、反向傳播和梯度更新，均依賴大規(guī)模矩陣計(jì)算，這為分布式并行提供了天然優(yōu)勢(shì)。目前，主要的并行計(jì)算策略包括：

a)數(shù)據(jù)并行（Data Parallelism）：將訓(xùn)練數(shù)據(jù)拆分成多個(gè)批次或子集，分配到多個(gè)設(shè)備上執(zhí)行局部計(jì)算。各設(shè)備獨(dú)立計(jì)算梯度后，通過梯度同步或聚合機(jī)制實(shí)現(xiàn)全局參數(shù)更新。

b)模型并行（Model Parallelism）：將模型按照參數(shù)或模塊劃分，分布到多臺(tái)設(shè)備上進(jìn)行計(jì)算。當(dāng)模型單個(gè)設(shè)備內(nèi)存難以容納時(shí)，模型并行可以有效擴(kuò)展計(jì)算規(guī)模。

c)流水線并行（Pipeline Parallelism）：將模型按照層級(jí)或階段劃分成多個(gè)片段，各設(shè)備依次負(fù)責(zé)不同層的計(jì)算。數(shù)據(jù)在設(shè)備間依次傳遞，形成一條類似流水線的處理路徑，從而在不同處理階段實(shí)現(xiàn)并行性。

分布式計(jì)算通過多種并行策略的協(xié)同應(yīng)用，不僅可以突破單設(shè)備算力和內(nèi)存的限制，還能顯著加速大規(guī)模深度學(xué)習(xí)模型的訓(xùn)練。

在大模型訓(xùn)練和推理中，GPU雖然是核心計(jì)算單元，但其計(jì)算能力往往受到數(shù)據(jù)管理、通信和存儲(chǔ)等任務(wù)的限制。DPU（Data Processing Unit，數(shù)據(jù)處理單元）作為一種新型硬件加速器，正在成為大模型訓(xùn)練和推理的重要助力。DPU的出現(xiàn)正是為了解決這些問題：

a)卸載GPU的計(jì)算負(fù)擔(dān)：GPU主要負(fù)責(zé)矩陣運(yùn)算等核心計(jì)算任務(wù)，但數(shù)據(jù)加載、預(yù)處理、通信等任務(wù)會(huì)占用其資源。DPU可以接管這些任務(wù)，通過高速I/O接口直接從存儲(chǔ)設(shè)備讀取數(shù)據(jù)，減少CPU的介入。大模型訓(xùn)練需要頻繁讀取和寫入大量數(shù)據(jù)（如模型參數(shù)、中間結(jié)果、數(shù)據(jù)集等），傳統(tǒng)的存儲(chǔ)系統(tǒng)可能成為瓶頸。DPU支持NVMe over Fabric/RDMA等高速存儲(chǔ)協(xié)議，能夠直接從遠(yuǎn)程存儲(chǔ)設(shè)備讀取數(shù)據(jù)。讓GPU專注于計(jì)算，從而提高整體效率。

b)優(yōu)化數(shù)據(jù)預(yù)處理與檢索：大模型在訓(xùn)練階段需要大量的預(yù)處理（如圖像增強(qiáng)、文本分詞等），在推理階段也需要通過知識(shí)庫進(jìn)行檢索增強(qiáng)，這些操作通過遠(yuǎn)程訪問分布式文件系統(tǒng)來完成。在CPU處理模式下，遠(yuǎn)端存儲(chǔ)訪問協(xié)議的處理成為瓶頸。我們通過DPU進(jìn)行遠(yuǎn)端存儲(chǔ)訪問協(xié)議的卸載，提高數(shù)據(jù)讀寫的效率，提供比CPU更高的吞吐量和更低的延遲。

c)加速分布式訓(xùn)練中的通信：分布式訓(xùn)練中，GPU之間的通信（如梯度同步）會(huì)消耗大量時(shí)間。DPU可以優(yōu)化通信任務(wù)，支持高效的All-Reduce操作，減少通信延遲。DPU內(nèi)置專用的通信引擎，使能GPU Direct RDMA，減少CPU的干預(yù)，實(shí)現(xiàn)超高帶寬、低延遲的GPU間通信。

d)提高能效比：DPU專門針對(duì)數(shù)據(jù)管理和通信任務(wù)進(jìn)行了優(yōu)化，能夠以更低的功耗完成這些任務(wù)，從而降低整體能耗

中科馭數(shù)作為國(guó)內(nèi)領(lǐng)軍的DPU芯片和產(chǎn)品供應(yīng)商，憑借多年在DPU領(lǐng)域的積累，不斷推陳出新，基于公司全自研的國(guó)產(chǎn)芯片K2-Pro，推出應(yīng)用于智算中心的系列產(chǎn)品和方案。

圖1 : 中科馭數(shù)K2-Pro

K2-Pro芯片的網(wǎng)絡(luò)處理能力，可以很好的支撐國(guó)產(chǎn)化推理集群的各種應(yīng)用需求，在中科馭數(shù)自建的全國(guó)產(chǎn)化推理集群中，很好的承擔(dān)了高通量網(wǎng)絡(luò)傳輸，云化流表卸載與分布式資源快速加載的任務(wù)。

同時(shí)，在AI模型訓(xùn)練方向，中科馭數(shù)完全自主研發(fā)的RDMA網(wǎng)卡助力數(shù)據(jù)中心高速網(wǎng)絡(luò)連接，確保大規(guī)模模型的數(shù)據(jù)傳輸效率，減少通信延遲，提升整體計(jì)算性能。RDMA性能達(dá)到200Gbps。釋放CPU算力，彌補(bǔ)國(guó)產(chǎn)CPU性能不足問題。提供微秒級(jí)時(shí)延和百G級(jí)帶寬以及千萬級(jí)別的IOPS存儲(chǔ)訪問能力，滿足模型計(jì)算對(duì)數(shù)據(jù)快速加載的性能要求。

近日，中科馭數(shù)基于全國(guó)產(chǎn)化CPU、GPU、DPU 三U一體設(shè)備本地化部署了DeepSeek模型，系統(tǒng)中通過國(guó)產(chǎn)CPU實(shí)現(xiàn)整體業(yè)務(wù)調(diào)度與主要服務(wù)進(jìn)程運(yùn)行，采用國(guó)產(chǎn)GPU完成模型推理運(yùn)算，由中科馭數(shù)DPU進(jìn)行設(shè)備裸金屬業(yè)務(wù)管理以及云化網(wǎng)絡(luò)/存儲(chǔ)能力卸載提速。該系統(tǒng)底層采用全國(guó)產(chǎn)化的3U一體服務(wù)器搭建，在兼顧安全性與低成本的同時(shí)，可以高效運(yùn)行DeepSeek-V3與DeepSeek-R1等多個(gè)AI推理模型系統(tǒng)。中科馭數(shù)通過這種方式完成多個(gè)AI模型適配，打通全國(guó)產(chǎn)化三U一體算力底層支撐，能夠幫助AI應(yīng)用在落地過程中實(shí)現(xiàn)更好的數(shù)據(jù)隱私性保護(hù)與抵御外部風(fēng)險(xiǎn)的能力，同時(shí)也積極推動(dòng)產(chǎn)業(yè)鏈協(xié)同與資源優(yōu)化整合。

圖2 ：中科馭數(shù)智算中心解決方案

DPU通過卸載GPU的計(jì)算負(fù)擔(dān)、優(yōu)化數(shù)據(jù)預(yù)處理、加速通信和存儲(chǔ)任務(wù)，正在成為大模型訓(xùn)練和推理的重要助力。馭數(shù)的DPU產(chǎn)品憑借其高性能、低功耗和可擴(kuò)展性，為大模型訓(xùn)練和推理提供了強(qiáng)有力的支持。隨著深度學(xué)習(xí)技術(shù)的進(jìn)一步發(fā)展，類似DeepSeek大模型的興起，以及由此帶來對(duì)智算資源的大幅優(yōu)化，給國(guó)產(chǎn)GPU和CPU實(shí)現(xiàn)高效大模型訓(xùn)練和推理的大規(guī)模部署帶來巨大可能和期盼。

同時(shí)，智算租賃因?yàn)镈eepSeek模型對(duì)于部署資源的優(yōu)化，讓最終從“看著挺美”變成“用著挺美”。很多用戶開始嘗試租賃智能算資源，這要求智算資源可以按需快速部署。中科馭數(shù)的DPU產(chǎn)品，通過流程簡(jiǎn)化和存儲(chǔ)卸載，實(shí)現(xiàn)了裸金屬部署時(shí)間從傳統(tǒng)的30分鐘優(yōu)化到3分鐘，大大便利了資源的反復(fù)利用，也極大地提升了客戶訂閱的體驗(yàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

DPU

DPU

+關(guān)注

關(guān)注
0

文章
417

瀏覽量
27150
中科馭數(shù)

中科馭數(shù)

+關(guān)注

關(guān)注
0

文章
145

瀏覽量
4612
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3797

瀏覽量
5280

原文標(biāo)題：中科馭數(shù)DPU助力大模型訓(xùn)練和推理

文章出處：【微信號(hào)：yusurtech，微信公眾號(hào)：馭數(shù)科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

中科馭數(shù)DPU助力大模型訓(xùn)練和推理

評(píng)論