欧美日韩黄色,91啦国产欧美日韩,欧美97精品中文

近日，北京智源研究院眾智FlagOS社區(qū)宣布，已完成DeepSeekV4Flash 284B大模型在海光等多款AI芯片上的Day0全量適配與推理部署，同步實(shí)現(xiàn)三大關(guān)鍵技術(shù)突破，讓國產(chǎn)主流算力平臺(tái)可高效運(yùn)行新一代千億級(jí)MoE大模型。

DeepSeek當(dāng)日發(fā)布V4系列兩大模型，其中DeepSeekV4Flash采用MoE架構(gòu)，總參數(shù)284B，激活參數(shù)13B，支持100萬token上下文長度，在長文本、復(fù)雜推理、代碼與數(shù)學(xué)任務(wù)上表現(xiàn)突出。

海光平臺(tái)核心適配成果

依托FlagOS三大技術(shù)突破，海光芯片實(shí)現(xiàn)對(duì)DeepSeekV4Flash的穩(wěn)定高效運(yùn)行：

全算子覆蓋，無CUDA依賴

FlagGems算子庫實(shí)現(xiàn)模型推理全鏈路算子替代，MoE調(diào)度Attention、RMSNorm、TopK 路由等核心模塊均基于Triton重新實(shí)現(xiàn)，海光可脫離NVIDIA私有庫獨(dú)立運(yùn)行，適配效率大幅提升。

突破顯存限制，覆蓋主流配置

針對(duì)ogroup=8機(jī)制，F(xiàn)lagOS采用獨(dú)立張量并行策略，在保證ogroup切分不超8份前提下，支持模型其他部分超8份張量并行，讓更小顯存芯片可正常加載與推理，不再局限于高端大顯存硬件。

精度路徑打通，效果無損對(duì)齊

DeepSeekV4Flash原生為FP4+FP8混合精度，F(xiàn)lagOS完成權(quán)重反量化、計(jì)算路徑重建與精度對(duì)齊驗(yàn)證，海光平臺(tái)運(yùn)行效果與原生版本保持一致，滿足生產(chǎn)級(jí)部署要求。

極簡部署與生態(tài)支持

FlagOS為海光等芯片提供開箱即用的DeepSeekV4Flash版本，開發(fā)者可通過源碼安裝或直接下載模型鏡像快速部署：

·支持單機(jī)8 卡、雙機(jī)16卡推理，一鍵開啟FlagGems加速

·模型與鏡像已發(fā)布至FlagRelease、魔搭、HuggingFace等平臺(tái)

·底層優(yōu)化自動(dòng)生效，無需修改業(yè)務(wù)代碼，兼容原生使用習(xí)慣

經(jīng)GPQA_Diamond、AIME等權(quán)威評(píng)測集驗(yàn)證，海光平臺(tái)上的FlagOS適配版，在語言理解、復(fù)雜推理、代碼生成、數(shù)學(xué)計(jì)算等能力與CUDA原生版本對(duì)齊，可用于金融、政企、教育、研發(fā)等關(guān)鍵場景。

本次適配標(biāo)志著以海光為代表的國產(chǎn)AI芯片，已具備支撐新一代千億級(jí)MoE大模型的能力。FlagOS將傳統(tǒng)數(shù)周的跨芯片適配周期縮短至數(shù)天，實(shí)現(xiàn) “模型發(fā)布即多芯片支持”，大幅降低大模型規(guī)?；涞爻杀尽?/p>

作為FlagOS生態(tài)重要硬件平臺(tái)，海光持續(xù)參與異構(gòu)算力協(xié)同建設(shè)，依托統(tǒng)一系統(tǒng)軟件棧實(shí)現(xiàn)模型快速遷移、高效推理，與智源研究院、眾智FlagOS社區(qū)共同推進(jìn)國產(chǎn)AI算力普惠化，為大模型與智能體時(shí)代提供安全、高效、可控的算力底座。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

海光信息

海光信息

+關(guān)注

關(guān)注
0

文章
63

瀏覽量
2750
DeepSeek

DeepSeek

+關(guān)注

關(guān)注
2

文章
860

瀏覽量
3440

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

智源FlagOS攜手海光信息完成DeepSeek V4 Flash全量適配

評(píng)論