日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中科馭數(shù)DPU助力大模型訓(xùn)練和推理

馭數(shù)科技 ? 來源:馭數(shù)科技 ? 2025-02-19 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,大模型(如GPT、BERT等)在自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域取得了顯著成果。然而,大模型的參數(shù)量和計(jì)算量極其龐大,傳統(tǒng)的硬件架構(gòu)或者單臺(tái)設(shè)備(如單個(gè)GPU)難以滿足其計(jì)算需求。大模型的特點(diǎn)如下:

1. DeepSeek-R1模型的參數(shù)量高達(dá)6710億,訓(xùn)練過程需要數(shù)萬臺(tái)GPU協(xié)同工作。

2. 計(jì)算需求:大模型的前向傳播、反向傳播和梯度更新涉及大規(guī)模的矩陣運(yùn)算,單設(shè)備無法在合理時(shí)間內(nèi)完成。

3. 內(nèi)存需求:大模型的參數(shù)和中間結(jié)果需要大量?jī)?nèi)存存儲(chǔ),單設(shè)備的內(nèi)存容量有限。

4. 數(shù)據(jù)需求:大模型的訓(xùn)練需要海量數(shù)據(jù),單設(shè)備難以高效處理。

為提高大模型的計(jì)算效率,必須充分利用矩陣和向量運(yùn)算的內(nèi)在并行性。大模型訓(xùn)練的核心流程:前向傳播、反向傳播和梯度更新,均依賴大規(guī)模矩陣計(jì)算,這為分布式并行提供了天然優(yōu)勢(shì)。目前,主要的并行計(jì)算策略包括:

a)數(shù)據(jù)并行(Data Parallelism):將訓(xùn)練數(shù)據(jù)拆分成多個(gè)批次或子集,分配到多個(gè)設(shè)備上執(zhí)行局部計(jì)算。各設(shè)備獨(dú)立計(jì)算梯度后,通過梯度同步或聚合機(jī)制實(shí)現(xiàn)全局參數(shù)更新。

b)模型并行(Model Parallelism):將模型按照參數(shù)或模塊劃分,分布到多臺(tái)設(shè)備上進(jìn)行計(jì)算。當(dāng)模型單個(gè)設(shè)備內(nèi)存難以容納時(shí),模型并行可以有效擴(kuò)展計(jì)算規(guī)模。

c)流水線并行(Pipeline Parallelism):將模型按照層級(jí)或階段劃分成多個(gè)片段,各設(shè)備依次負(fù)責(zé)不同層的計(jì)算。數(shù)據(jù)在設(shè)備間依次傳遞,形成一條類似流水線的處理路徑,從而在不同處理階段實(shí)現(xiàn)并行性。

分布式計(jì)算通過多種并行策略的協(xié)同應(yīng)用,不僅可以突破單設(shè)備算力和內(nèi)存的限制,還能顯著加速大規(guī)模深度學(xué)習(xí)模型的訓(xùn)練。

在大模型訓(xùn)練和推理中,GPU雖然是核心計(jì)算單元,但其計(jì)算能力往往受到數(shù)據(jù)管理、通信和存儲(chǔ)等任務(wù)的限制。DPU(Data Processing Unit,數(shù)據(jù)處理單元)作為一種新型硬件加速器,正在成為大模型訓(xùn)練和推理的重要助力。DPU的出現(xiàn)正是為了解決這些問題:

a)卸載GPU的計(jì)算負(fù)擔(dān):GPU主要負(fù)責(zé)矩陣運(yùn)算等核心計(jì)算任務(wù),但數(shù)據(jù)加載、預(yù)處理、通信等任務(wù)會(huì)占用其資源。DPU可以接管這些任務(wù),通過高速I/O接口直接從存儲(chǔ)設(shè)備讀取數(shù)據(jù),減少CPU的介入。大模型訓(xùn)練需要頻繁讀取和寫入大量數(shù)據(jù)(如模型參數(shù)、中間結(jié)果、數(shù)據(jù)集等),傳統(tǒng)的存儲(chǔ)系統(tǒng)可能成為瓶頸。DPU支持NVMe over Fabric/RDMA等高速存儲(chǔ)協(xié)議,能夠直接從遠(yuǎn)程存儲(chǔ)設(shè)備讀取數(shù)據(jù)。讓GPU專注于計(jì)算,從而提高整體效率。

b)優(yōu)化數(shù)據(jù)預(yù)處理與檢索:大模型在訓(xùn)練階段需要大量的預(yù)處理(如圖像增強(qiáng)、文本分詞等),在推理階段也需要通過知識(shí)庫進(jìn)行檢索增強(qiáng),這些操作通過遠(yuǎn)程訪問分布式文件系統(tǒng)來完成。在CPU處理模式下,遠(yuǎn)端存儲(chǔ)訪問協(xié)議的處理成為瓶頸。我們通過DPU進(jìn)行遠(yuǎn)端存儲(chǔ)訪問協(xié)議的卸載,提高數(shù)據(jù)讀寫的效率,提供比CPU更高的吞吐量和更低的延遲。

c)加速分布式訓(xùn)練中的通信:分布式訓(xùn)練中,GPU之間的通信(如梯度同步)會(huì)消耗大量時(shí)間。DPU可以優(yōu)化通信任務(wù),支持高效的All-Reduce操作,減少通信延遲。DPU內(nèi)置專用的通信引擎,使能GPU Direct RDMA,減少CPU的干預(yù),實(shí)現(xiàn)超高帶寬、低延遲的GPU間通信。

d)提高能效比:DPU專門針對(duì)數(shù)據(jù)管理和通信任務(wù)進(jìn)行了優(yōu)化,能夠以更低的功耗完成這些任務(wù),從而降低整體能耗

中科馭數(shù)作為國(guó)內(nèi)領(lǐng)軍的DPU芯片和產(chǎn)品供應(yīng)商,憑借多年在DPU領(lǐng)域的積累,不斷推陳出新,基于公司全自研的國(guó)產(chǎn)芯片K2-Pro,推出應(yīng)用于智算中心的系列產(chǎn)品和方案。

0d0f4986-ede4-11ef-9310-92fbcf53809c.png

圖1 : 中科馭數(shù)K2-Pro

K2-Pro芯片的網(wǎng)絡(luò)處理能力,可以很好的支撐國(guó)產(chǎn)化推理集群的各種應(yīng)用需求,在中科馭數(shù)自建的全國(guó)產(chǎn)化推理集群中,很好的承擔(dān)了高通量網(wǎng)絡(luò)傳輸,云化流表卸載與分布式資源快速加載的任務(wù)。

同時(shí),在AI模型訓(xùn)練方向,中科馭數(shù)完全自主研發(fā)的RDMA網(wǎng)卡助力數(shù)據(jù)中心高速網(wǎng)絡(luò)連接,確保大規(guī)模模型的數(shù)據(jù)傳輸效率,減少通信延遲,提升整體計(jì)算性能。RDMA性能達(dá)到200Gbps。釋放CPU算力,彌補(bǔ)國(guó)產(chǎn)CPU性能不足問題。提供微秒級(jí)時(shí)延和百G級(jí)帶寬以及千萬級(jí)別的IOPS存儲(chǔ)訪問能力,滿足模型計(jì)算對(duì)數(shù)據(jù)快速加載的性能要求。

近日,中科馭數(shù)基于全國(guó)產(chǎn)化CPU、GPU、DPU 三U一體設(shè)備本地化部署了DeepSeek模型,系統(tǒng)中通過國(guó)產(chǎn)CPU實(shí)現(xiàn)整體業(yè)務(wù)調(diào)度與主要服務(wù)進(jìn)程運(yùn)行,采用國(guó)產(chǎn)GPU完成模型推理運(yùn)算,由中科馭數(shù)DPU進(jìn)行設(shè)備裸金屬業(yè)務(wù)管理以及云化網(wǎng)絡(luò)/存儲(chǔ)能力卸載提速。該系統(tǒng)底層采用全國(guó)產(chǎn)化的3U一體服務(wù)器搭建,在兼顧安全性與低成本的同時(shí),可以高效運(yùn)行DeepSeek-V3與DeepSeek-R1等多個(gè)AI推理模型系統(tǒng)。中科馭數(shù)通過這種方式完成多個(gè)AI模型適配,打通全國(guó)產(chǎn)化三U一體算力底層支撐,能夠幫助AI應(yīng)用在落地過程中實(shí)現(xiàn)更好的數(shù)據(jù)隱私性保護(hù)與抵御外部風(fēng)險(xiǎn)的能力,同時(shí)也積極推動(dòng)產(chǎn)業(yè)鏈協(xié)同與資源優(yōu)化整合。

0d2e953e-ede4-11ef-9310-92fbcf53809c.png

圖2 :中科馭數(shù)智算中心解決方案

DPU通過卸載GPU的計(jì)算負(fù)擔(dān)、優(yōu)化數(shù)據(jù)預(yù)處理、加速通信和存儲(chǔ)任務(wù),正在成為大模型訓(xùn)練和推理的重要助力。馭數(shù)的DPU產(chǎn)品憑借其高性能、低功耗和可擴(kuò)展性,為大模型訓(xùn)練和推理提供了強(qiáng)有力的支持。隨著深度學(xué)習(xí)技術(shù)的進(jìn)一步發(fā)展,類似DeepSeek大模型的興起,以及由此帶來對(duì)智算資源的大幅優(yōu)化,給國(guó)產(chǎn)GPU和CPU實(shí)現(xiàn)高效大模型訓(xùn)練和推理的大規(guī)模部署帶來巨大可能和期盼。

同時(shí),智算租賃因?yàn)镈eepSeek模型對(duì)于部署資源的優(yōu)化,讓最終從“看著挺美”變成“用著挺美”。很多用戶開始嘗試租賃智能算資源,這要求智算資源可以按需快速部署。中科馭數(shù)的DPU產(chǎn)品,通過流程簡(jiǎn)化和存儲(chǔ)卸載,實(shí)現(xiàn)了裸金屬部署時(shí)間從傳統(tǒng)的30分鐘優(yōu)化到3分鐘,大大便利了資源的反復(fù)利用,也極大地提升了客戶訂閱的體驗(yàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • DPU
    DPU
    +關(guān)注

    關(guān)注

    0

    文章

    417

    瀏覽量

    27150
  • 中科馭數(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    145

    瀏覽量

    4612
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3797

    瀏覽量

    5280

原文標(biāo)題:中科馭數(shù)DPU助力大模型訓(xùn)練和推理

文章出處:【微信號(hào):yusurtech,微信公眾號(hào):馭數(shù)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    訓(xùn)練推理:大模型算力需求的新拐點(diǎn)已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點(diǎn)主要集中在大模型訓(xùn)練所需的算力投入。一個(gè)萬億參數(shù)大模型訓(xùn)練可能需要數(shù)千張GPU芯片連續(xù)運(yùn)行數(shù)月,成本高
    的頭像 發(fā)表于 02-05 16:07 ?1057次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到<b class='flag-5'>推理</b>:大<b class='flag-5'>模型</b>算力需求的新拐點(diǎn)已至

    中關(guān)村云計(jì)算產(chǎn)業(yè)聯(lián)盟黨建交流活動(dòng)在中科數(shù)圓滿舉辦

    活動(dòng)伊始,與會(huì)人員參觀了中科數(shù) DPU 展廳,深入了解 DPU 技術(shù)在云計(jì)算領(lǐng)域的創(chuàng)新應(yīng)用與發(fā)展前景。
    的頭像 發(fā)表于 01-23 15:20 ?748次閱讀

    中科數(shù)亮相光合組織2025人工智能創(chuàng)新大會(huì) 共筑開放智算新生態(tài)

    作為國(guó)內(nèi) DPU 芯片領(lǐng)域的領(lǐng)軍企業(yè),中科數(shù)近期受邀參與由海光信息牽頭成立的光合組織主辦的 2025 人工智能創(chuàng)新大會(huì)。本次大會(huì)以 “智算無界,光合共生” 為核心主題,匯聚了 250
    的頭像 發(fā)表于 12-30 16:33 ?608次閱讀

    彰顯硬科技實(shí)力 中科數(shù)榮登VENTURE50硬科技榜 構(gòu)建DPU“運(yùn)力”底座

    近日,由清科控股、投資界發(fā)起的 2025 VENTURE50(簡(jiǎn)稱 V50)評(píng)選結(jié)果正式揭曉,DPU 芯片研發(fā)領(lǐng)軍企業(yè)中科數(shù)憑借深厚的技術(shù)壁壘、成熟的商業(yè)化能力及突出的產(chǎn)業(yè)價(jià)值,成功
    的頭像 發(fā)表于 12-13 11:26 ?1272次閱讀

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    模型。 我們使用MNIST數(shù)據(jù)集,訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于手寫數(shù)字識(shí)別。一旦模型訓(xùn)練并保存,就可以用于對(duì)新圖像進(jìn)行
    發(fā)表于 10-22 07:03

    中科數(shù)西南總部落地成都天府新區(qū)

    近日,2025 天府人工智能產(chǎn)業(yè)生態(tài)大會(huì)在成都科創(chuàng)生態(tài)島盛大開幕。省委副書記、省長(zhǎng)施小琳出席活動(dòng)。在開幕式備受關(guān)注的人工智能產(chǎn)業(yè)重大項(xiàng)目集中簽約環(huán)節(jié),中科數(shù)與天府新區(qū)管委會(huì)正式簽署合作協(xié)議,宣告
    的頭像 發(fā)表于 10-13 15:10 ?1196次閱讀

    中科數(shù)榮登2025北京民營(yíng)企業(yè)科技創(chuàng)新百?gòu)?qiáng)榜單

    近日,北京市工商業(yè)聯(lián)合會(huì)正式發(fā)布《2025 北京民營(yíng)企業(yè)科技創(chuàng)新百?gòu)?qiáng)榜單》,國(guó)內(nèi)領(lǐng)先的 DPU 芯片研發(fā)企業(yè)中科數(shù)憑借在研發(fā)投入強(qiáng)度、知識(shí)產(chǎn)權(quán)積累、產(chǎn)業(yè)號(hào)召力等核心維度的突出表現(xiàn),成
    的頭像 發(fā)表于 09-26 11:17 ?1484次閱讀

    中科數(shù)亮相2025新一代計(jì)算產(chǎn)業(yè)大會(huì)

    近日,由中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)指導(dǎo)、新一代計(jì)算標(biāo)準(zhǔn)工作委員會(huì)(以下簡(jiǎn)稱 “新一代計(jì)算標(biāo)工委”)主辦,中科數(shù)、Intel 及經(jīng)開區(qū)國(guó)家信創(chuàng)園聯(lián)合承辦的新一代計(jì)算產(chǎn)業(yè)大會(huì)順利召開。本次大會(huì)聚焦數(shù)字
    的頭像 發(fā)表于 09-26 11:14 ?937次閱讀

    中科曙光助力紫東太初4.0大模型重磅發(fā)布

    近日,全球首個(gè)“深度推理+多模態(tài)”大模型——“紫東太初”4.0在2025東湖國(guó)際人工智能高峰論壇上正式發(fā)布。中科曙光作為核心生態(tài)伙伴,依托中國(guó)首個(gè)AI計(jì)算開放架構(gòu),為“紫東太初”4.0提供圖文多模態(tài)
    的頭像 發(fā)表于 09-24 09:33 ?840次閱讀

    中科數(shù)亮相2025 CCF全國(guó)高性能計(jì)算學(xué)術(shù)大會(huì)

    在昨日開幕的中國(guó)計(jì)算機(jī)學(xué)會(huì)全國(guó)高性能計(jì)算學(xué)術(shù)大會(huì)(CCF HPC China 2025)上,中科數(shù)作為高通量以太網(wǎng)聯(lián)盟成員參與聯(lián)盟成果發(fā)布。同期舉辦的世界算力博覽會(huì)上,中科
    的頭像 發(fā)表于 08-20 09:39 ?1152次閱讀

    螞蟻數(shù)科正式發(fā)布金融推理模型

    7月26日,以“智能時(shí)代,同球共濟(jì)”為主題的2025世界人工智能大會(huì)在上海開幕;亮點(diǎn)很多。我們看到在世界人工智能大會(huì)論壇上,螞蟻數(shù)科正式發(fā)布了金融推理模型Agentar-Fin-R1,金融
    的頭像 發(fā)表于 07-28 16:36 ?772次閱讀

    模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型推理過程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來了挑戰(zhàn)。為了解決這一問題,本文將探討大模型
    發(fā)表于 07-03 19:43

    龍芯中科與文心系列模型開展深度技術(shù)合作

    ”解決方案。 強(qiáng)強(qiáng)聯(lián)合!自主架構(gòu)賦能大模型訓(xùn)練 文心大模型 文心4.5系列模型均使用飛槳深度學(xué)習(xí)框架進(jìn)行高效訓(xùn)練、
    的頭像 發(fā)表于 07-02 16:53 ?1496次閱讀

    中科數(shù)亮相2025龍芯產(chǎn)品發(fā)布暨用戶大會(huì)

    近日,龍芯中科正式發(fā)布基于國(guó)產(chǎn)自主指令集龍架構(gòu)研發(fā)的服務(wù)器處理器龍芯3C6000系列芯片、工控領(lǐng)域及移動(dòng)終端處理器龍芯2K3000/3B6000M芯片,以及相關(guān)整機(jī)和解決方案。中科數(shù)
    的頭像 發(fā)表于 07-02 15:30 ?1613次閱讀

    中科數(shù)DPU全棧產(chǎn)品亮相福州數(shù)博會(huì),賦能智算時(shí)代算力基建

    會(huì)”)也拉開帷幕。共有150多家企業(yè)參展,展會(huì)吸引了八萬多名觀眾參觀。作為國(guó)內(nèi)DPU領(lǐng)域領(lǐng)軍企業(yè),中科數(shù)攜三大產(chǎn)品線亮相展會(huì),其創(chuàng)新的DPU
    的頭像 發(fā)表于 05-23 11:01 ?773次閱讀
    <b class='flag-5'>中科</b><b class='flag-5'>馭</b><b class='flag-5'>數(shù)</b>攜<b class='flag-5'>DPU</b>全棧產(chǎn)品亮相福州<b class='flag-5'>數(shù)</b>博會(huì),賦能智算時(shí)代算力基建
    崇明县| 濮阳市| 噶尔县| 安顺市| 昌图县| 石楼县| 嘉义县| 宜兴市| 天等县| 峡江县| 综艺| 张家界市| 美姑县| 集贤县| 罗田县| 鄂托克旗| 宜黄县| 临汾市| 宾阳县| 平潭县| 镇坪县| 酒泉市| 同心县| 苗栗县| 汤原县| 榆社县| 双辽市| 深水埗区| 巴彦县| 阜新| 昌黎县| 习水县| 河源市| 卢湾区| 军事| 宁津县| 龙里县| 海城市| 丰城市| 蕲春县| 津市市|