4月24日,隨著DeepSeek V4大模型的正式開源與發(fā)布,國產(chǎn)算力生態(tài)迎來關(guān)鍵拼圖。軟通動(dòng)力旗下軟通華方迅速響應(yīng),依托“鯤鵬+昇騰”雙引擎架構(gòu),基于核心產(chǎn)品A800T A3/超強(qiáng)A800I A3超節(jié)點(diǎn)服務(wù)器,率先完成了對DeepSeek V4的全棧適配與驗(yàn)證工作。這一舉措不僅展現(xiàn)了公司在國產(chǎn)算力領(lǐng)域的深厚技術(shù)積淀,更為廣大企業(yè)用戶提供了穩(wěn)定、高效的算力底座,加速DeepSeek V4在行業(yè)端的規(guī)模化落地與應(yīng)用。
DeepSeek V4-Pro和DeepSeek V4-Flash正式發(fā)布并開源,模型上下文處理長度由原有的128K顯著擴(kuò)展至1M,實(shí)現(xiàn)近10倍的容量提升,首次增加了KV Cache滑窗和壓縮算法,大幅減少Attention計(jì)算和訪存開銷,并通過模型架構(gòu)創(chuàng)新更好地支持了Agent和Coding場景。軟通華方超強(qiáng)A800T A3/超強(qiáng)A800I A3超節(jié)點(diǎn)產(chǎn)品也全面適配,同時(shí)為便于用戶快速微調(diào),提供了基于超節(jié)點(diǎn)的訓(xùn)練參考實(shí)現(xiàn)。
軟通華方超強(qiáng)A800T A3/超強(qiáng)A800I A3超節(jié)點(diǎn)系列產(chǎn)品,DeepSeek V4-Flash模型單卡Decode吞吐2000+TPS,超強(qiáng)A800I A3風(fēng)冷超節(jié)點(diǎn)采用平等架構(gòu)、全局內(nèi)存統(tǒng)一編址、點(diǎn)對點(diǎn)互聯(lián)帶寬達(dá)784GB/s。提供32到384多種規(guī)格滿足不同業(yè)務(wù)需求,滿足互聯(lián)網(wǎng)、運(yùn)營商、金融等行業(yè)對大模型推理超高吞吐、超大并發(fā)的極致性能需求。
基于超強(qiáng)A800I A3 64卡超節(jié)點(diǎn)結(jié)合大EP模式部署,DeepSeek V4-Flash模型,8K/1K輸入輸出場景,基于vLLM推理引擎可實(shí)現(xiàn)2000+TPS的單卡Decode吞吐,單卡吞吐持續(xù)提升。針對DeepSeek V4-Pro模型,超期A800I A3同步支持推理部署,性能持續(xù)優(yōu)化中。
軟件生態(tài)部分,華為CANN推出了PyPTO編程范式與TileLang方案同步開源。
為了解決自定義算子開發(fā)門檻高、周期長的痛點(diǎn),昇騰CANN推出了PyPTO編程范式。PyPTO提供完善的Python API,使開發(fā)者能夠以符合Python習(xí)慣的語法進(jìn)行算子開發(fā)。
高效的算子開發(fā):PyPTO依托內(nèi)置高級編譯優(yōu)化,可自動(dòng)完成流水編排與內(nèi)存管理,使開發(fā)者無需關(guān)注硬件細(xì)節(jié)而專注于計(jì)算流表達(dá),實(shí)現(xiàn)DeepSeek V4新一代模型算子開發(fā)周期可縮短至天級。
高性能Kernel自動(dòng)生成:針對Attention、Compressor、mHC等復(fù)雜邏輯算子,PyPTO可自動(dòng)生成高度優(yōu)化的Kernel,避免開發(fā)者手動(dòng)處理繁瑣的同步與數(shù)據(jù)搬運(yùn),顯著縮短從算法驗(yàn)證到部署落地的開發(fā)周期。
PTO ISA虛擬指令集跨代兼容:PyPTO基于PTO虛擬指令集(PTO ISA),實(shí)現(xiàn)了對硬件新特性的“零感適配”,針對不同代際芯片統(tǒng)一指令接口,實(shí)現(xiàn)了同一套算子代碼,在不同代際芯片上的兼容實(shí)現(xiàn)。借助畢昇編譯器的VF(Vector Fusion)自動(dòng)融合能力,可在micro kernel級別實(shí)現(xiàn)更優(yōu)融合。
TileLang社區(qū)生態(tài):TileLang-Ascend是TileLang針對華為昇騰平臺(tái)深度優(yōu)化的實(shí)現(xiàn),分別對應(yīng)Tilelang-Ascend的Expert和Developer開發(fā)模式,提供AscendC基礎(chǔ)指令和PTO AS兩種對接層次,為各種編程前端語言和編譯器提供多層開放接口。DeepSeek V4模型相關(guān)實(shí)現(xiàn)已在TileAI開源社區(qū)正式發(fā)布,后續(xù)將持續(xù)推進(jìn)性能優(yōu)化與功能迭代。
軟通華方超強(qiáng)A800T A3/超強(qiáng)A800I A3產(chǎn)品適配DeepSeek V4-Flash、DeepSeek V4-Pro。我們期待與廣大客戶及開發(fā)者攜手共進(jìn),在DeepSeek V4的新紀(jì)元中探索無限可能。
-
軟通動(dòng)力
+關(guān)注
關(guān)注
1文章
1213瀏覽量
16543 -
大模型
+關(guān)注
關(guān)注
2文章
3797瀏覽量
5278 -
DeepSeek
+關(guān)注
關(guān)注
2文章
855瀏覽量
3413
原文標(biāo)題:Day0全面適配!軟通華方完成對DeepSeek V4極速部署支持!
文章出處:【微信號(hào):isoftstone-group,微信公眾號(hào):軟通動(dòng)力】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
云天勵(lì)飛完成DeepSeek-V4系列模型關(guān)鍵機(jī)制適配驗(yàn)證
開放原子AtomGit平臺(tái)首發(fā)適配DeepSeek-V4系列模型
登臨科技GPU+架構(gòu)深度適配DeepSeek-V4大模型
寧暢AI服務(wù)器全棧適配DeepSeek V4大模型
寒武紀(jì)Day 0適配DeepSeek-V4模型
華為云首發(fā)適配DeepSeek-V4模型
華為昇騰超節(jié)點(diǎn)系列產(chǎn)品全面支持DeepSeek V4模型
沐曦股份Day 0適配DeepSeek-V4-Flash模型
燧原科技L600 FP8原生適配DeepSeek-V4-Pro/Flash模型
壁仞科技壁礪166系列GPU產(chǎn)品率先支持DeepSeek-V4模型
軟通華方超節(jié)點(diǎn)服務(wù)器產(chǎn)品全面適配DeepSeek V4模型
評論