近日,北京智源研究院眾智FlagOS社區(qū)宣布,已完成DeepSeekV4Flash 284B大模型在海光等多款AI芯片上的Day0全量適配與推理部署,同步實(shí)現(xiàn)三大關(guān)鍵技術(shù)突破,讓國產(chǎn)主流算力平臺(tái)可高效運(yùn)行新一代千億級(jí)MoE大模型。
DeepSeek當(dāng)日發(fā)布V4系列兩大模型,其中DeepSeekV4Flash采用MoE架構(gòu),總參數(shù)284B,激活參數(shù)13B,支持100萬token上下文長度,在長文本、復(fù)雜推理、代碼與數(shù)學(xué)任務(wù)上表現(xiàn)突出。
海光平臺(tái)核心適配成果
依托FlagOS三大技術(shù)突破,海光芯片實(shí)現(xiàn)對(duì)DeepSeekV4Flash的穩(wěn)定高效運(yùn)行:
全算子覆蓋,無CUDA依賴
FlagGems算子庫實(shí)現(xiàn)模型推理全鏈路算子替代,MoE調(diào)度Attention、RMSNorm、TopK 路由等核心模塊均基于Triton重新實(shí)現(xiàn),海光可脫離NVIDIA私有庫獨(dú)立運(yùn)行,適配效率大幅提升。
突破顯存限制,覆蓋主流配置
針對(duì)ogroup=8機(jī)制,F(xiàn)lagOS采用獨(dú)立張量并行策略,在保證ogroup切分不超8份前提下,支持模型其他部分超8份張量并行,讓更小顯存芯片可正常加載與推理,不再局限于高端大顯存硬件。
精度路徑打通,效果無損對(duì)齊
DeepSeekV4Flash原生為FP4+FP8混合精度,F(xiàn)lagOS完成權(quán)重反量化、計(jì)算路徑重建與精度對(duì)齊驗(yàn)證,海光平臺(tái)運(yùn)行效果與原生版本保持一致,滿足生產(chǎn)級(jí)部署要求。
極簡部署與生態(tài)支持
FlagOS為海光等芯片提供開箱即用的DeepSeekV4Flash版本,開發(fā)者可通過源碼安裝或直接下載模型鏡像快速部署:
·支持單機(jī)8 卡、雙機(jī)16卡推理,一鍵開啟FlagGems加速
·模型與鏡像已發(fā)布至FlagRelease、魔搭、HuggingFace等平臺(tái)
·底層優(yōu)化自動(dòng)生效,無需修改業(yè)務(wù)代碼,兼容原生使用習(xí)慣
經(jīng)GPQA_Diamond、AIME等權(quán)威評(píng)測集驗(yàn)證,海光平臺(tái)上的FlagOS適配版,在語言理解、復(fù)雜推理、代碼生成、數(shù)學(xué)計(jì)算等能力與CUDA原生版本對(duì)齊,可用于金融、政企、教育、研發(fā)等關(guān)鍵場景。
本次適配標(biāo)志著以海光為代表的國產(chǎn)AI芯片,已具備支撐新一代千億級(jí)MoE大模型的能力。FlagOS將傳統(tǒng)數(shù)周的跨芯片適配周期縮短至數(shù)天,實(shí)現(xiàn) “模型發(fā)布即多芯片支持”,大幅降低大模型規(guī)?;涞爻杀尽?/p>
作為FlagOS生態(tài)重要硬件平臺(tái),海光持續(xù)參與異構(gòu)算力協(xié)同建設(shè),依托統(tǒng)一系統(tǒng)軟件棧實(shí)現(xiàn)模型快速遷移、高效推理,與智源研究院、眾智FlagOS社區(qū)共同推進(jìn)國產(chǎn)AI算力普惠化,為大模型與智能體時(shí)代提供安全、高效、可控的算力底座。
-
海光信息
+關(guān)注
關(guān)注
0文章
63瀏覽量
2750 -
DeepSeek
+關(guān)注
關(guān)注
2文章
860瀏覽量
3440
發(fā)布評(píng)論請(qǐng)先 登錄
摩爾線程攜手智源人工智能研究院Day-0適配DeepSeek-V4 Pro和Flash雙模型
登臨科技GPU+架構(gòu)深度適配DeepSeek-V4大模型
寒武紀(jì)Day 0適配DeepSeek-V4模型
華為云首發(fā)適配DeepSeek-V4模型
軟通華方超節(jié)點(diǎn)服務(wù)器產(chǎn)品全面適配DeepSeek V4模型
沐曦股份Day 0適配DeepSeek-V4-Flash模型
燧原科技L600 FP8原生適配DeepSeek-V4-Pro/Flash模型
國產(chǎn)AI算力:從DeepSeek V4與華為昇騰協(xié)同看全棧自主之路
長江計(jì)算G940K V2超節(jié)點(diǎn)服務(wù)器完成對(duì)DeepSeek V4模型極速適配
海光信息DCU平臺(tái)完成對(duì)DeepSeek V4模型極速適配
摩爾線程S5000 + 智源FlagOS:基于原生FP8引擎,Day-0適配DeepSeek-V4
智源FlagOS攜手海光信息完成DeepSeek V4 Flash全量適配
評(píng)論