2026年4月24日,寒武紀(jì)已基于vLLM推理框架完成對(duì)深度求索公司最新開源模型285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro的Day 0適配,適配代碼已開源到GitHub社區(qū)(點(diǎn)擊文末“閱讀原文”可直接跳轉(zhuǎn))。這一成果得益于寒武紀(jì)長(zhǎng)期積累的自研NeuWare軟件生態(tài)與芯片設(shè)計(jì)技術(shù),也是寒武紀(jì)對(duì)芯片與算法聯(lián)合創(chuàng)新持續(xù)投入的延續(xù)。此前,寒武紀(jì)已對(duì)DeepSeek系列模型開展深入的軟硬件協(xié)同性能優(yōu)化,達(dá)成業(yè)界領(lǐng)先的算力利用率水平。
本次適配從“快速模型遷移”與”極致性能優(yōu)化*“兩個(gè)維度,充分展現(xiàn)了寒武紀(jì)的核心技術(shù)實(shí)力。
快速完成DeepSeek-V4新模型適配,實(shí)現(xiàn)Day 0首發(fā)
在軟件生態(tài)層面,寒武紀(jì)NeuWare軟件棧全面擁抱開源社區(qū),原生支持 PyTorch、vLLM、Diffusers等主流AI框架,新模型可快速遷移至寒武紀(jì)平臺(tái);在國產(chǎn)軟件生態(tài)層面,寒武紀(jì)與眾智FlagOS生態(tài)持續(xù)深度合作,解耦模型與不同架構(gòu)芯片之間的生態(tài)壁壘,進(jìn)一步降低模型適配遷移成本;在算子開發(fā)層面,寒武紀(jì)充分利用Triton良好的社區(qū)兼容性和易用性進(jìn)行快速算子開發(fā)適配,進(jìn)一步縮短功能適配周期;在AI協(xié)同層面,寒武紀(jì)研發(fā)了代碼生成智能體CNAgent,實(shí)現(xiàn)算子生成、模型遷移的全流程加速;在硬件層面,寒武紀(jì)芯片原生支持主流低精度數(shù)據(jù)格式,無需額外轉(zhuǎn)換即可快速完成功能適配與精度驗(yàn)證。通過軟硬件協(xié)同,寒武紀(jì)在模型發(fā)布當(dāng)日即可實(shí)現(xiàn)穩(wěn)定運(yùn)行,真正做到Day 0適配。
極致性能優(yōu)化,釋放DeepSeek-V4推理潛能
針對(duì)DeepSeek-V4的新結(jié)構(gòu),寒武紀(jì)通過自研高性能融合算子庫Torch-MLU-Ops,對(duì)Compressor、mHC等模塊進(jìn)行專項(xiàng)加速;利用BangC高性能編程語言,編寫稀疏/壓縮Attention、GroupGemm等熱點(diǎn)算子的極致優(yōu)化Kernel,充分釋放硬件底層性能。
在推理框架優(yōu)化層面,寒武紀(jì)在vLLM中全面支持TP/PP/SP/DP/EP5D混合并行、通信計(jì)算并行、低精度量化以及PD分離部署等優(yōu)化技術(shù),通過策略優(yōu)化,在滿足延時(shí)約束下達(dá)到最佳的詞元吞吐能力,顯著提升端到端推理效率。
硬件特性同樣被深度挖掘:利用MLU離散訪存與排序加速能力,有效加速稀疏Attention、Indexer等結(jié)構(gòu);高互聯(lián)帶寬與低通信延時(shí),將Prefill和Decode兩種不同工作負(fù)載場(chǎng)景下的通信占比降至最低,最大化分布式推理的利用率。
正是這種軟硬件一體化的設(shè)計(jì)思路,使得寒武紀(jì)能夠在大模型部署中持續(xù)降低算力成本,提升性能上限。寒武紀(jì)將繼續(xù)深耕大模型軟硬件協(xié)同生態(tài),為開發(fā)者與客戶提供更快、更省、更高效的大模型部署方案。
-
模型
+關(guān)注
關(guān)注
1文章
3831瀏覽量
52287 -
寒武紀(jì)
+關(guān)注
關(guān)注
13文章
220瀏覽量
75081 -
DeepSeek
+關(guān)注
關(guān)注
2文章
855瀏覽量
3414
原文標(biāo)題:寒武紀(jì) Day 0 適配 DeepSeek-V4,共赴國產(chǎn)模芯協(xié)作新里程碑
文章出處:【微信號(hào):Cambricon_Developer,微信公眾號(hào):寒武紀(jì)開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
云天勵(lì)飛完成DeepSeek-V4系列模型關(guān)鍵機(jī)制適配驗(yàn)證
摩爾線程攜手智源人工智能研究院Day-0適配DeepSeek-V4 Pro和Flash雙模型
摩爾線程攜手上海AI實(shí)驗(yàn)室Day-0適配DeepSeek-V4核心算子
摩爾線程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels
開放原子AtomGit平臺(tái)首發(fā)適配DeepSeek-V4系列模型
登臨科技GPU+架構(gòu)深度適配DeepSeek-V4大模型
華為云首發(fā)適配DeepSeek-V4模型
沐曦股份Day 0適配DeepSeek-V4-Flash模型
壁仞科技壁礪166系列GPU產(chǎn)品率先支持DeepSeek-V4模型
榮耀YOYO首搭DeepSeek-V4大模型 重塑安卓端側(cè)AI新標(biāo)桿
海光信息DCU平臺(tái)完成對(duì)DeepSeek V4模型極速適配
寒武紀(jì)實(shí)現(xiàn)對(duì)GLM-5的Day 0適配
寒武紀(jì)成功適配DeepSeek-V3.2-Exp模型
寒武紀(jì)Day 0適配DeepSeek-V4模型
評(píng)論