近日,深度求索正式開(kāi)源全新系列模型DeepSeek-V4。瀚博半導(dǎo)體第一時(shí)間完成載天VA16加速卡的FP4+FP8 混合精度適配,加速大模型高并發(fā)、低成本落地。
DeepSeek-V4:百萬(wàn)上下文時(shí)代的開(kāi)源標(biāo)桿
深度求索官方宣告,“從1M上下文開(kāi)始將是DeepSeek所有官方服務(wù)的標(biāo)配”,大模型正式邁入百萬(wàn)長(zhǎng)文本普惠時(shí)代。DeepSeek-V4 全系標(biāo)配百萬(wàn)token上下文窗口,采用混合注意力機(jī)制,相比 DeepSeek-V3.2 大幅降低單 token 推理 FLOPs 和 KV 緩存需求。結(jié)合壓縮稀疏注意力(CSA)與重度壓縮注意力(HCA),顯著提升長(zhǎng)上下文處理效率,在 Agent 能力、世界知識(shí)和推理性能上均領(lǐng)先國(guó)內(nèi)與開(kāi)源模型。
在模型能力上,DeepSeek-V4-Pro性能比肩世界頂尖閉源模型。在 Agentic Coding 評(píng)測(cè)中已達(dá)到當(dāng)前開(kāi)源模型最佳水平;在數(shù)學(xué)、STEM、競(jìng)賽型代碼的測(cè)評(píng)中,超越當(dāng)前所有已公開(kāi)評(píng)測(cè)的開(kāi)源模型。DeepSeek-V4-Flash則由于模型參數(shù)和激活更小,提供更加快捷、經(jīng)濟(jì)的 API 服務(wù),簡(jiǎn)單任務(wù)上與 Pro版 旗鼓相當(dāng)。
瀚博VA16全棧支撐:
大顯存+FP4/FP8混合精度
要在部署端充分釋放DeepSeek-V4的上述能力,需要硬件側(cè)的原生支持。
瀚博載天VA16配備128GB超大顯存,為百萬(wàn)token超長(zhǎng)上下文的KV緩存提供充裕駐留空間。同時(shí),VA16 支持FP4和FP8數(shù)據(jù)精度格式,顯著降低顯存占用、提升推理吞吐。配合兼容vLLM等主流框架的全棧軟件生態(tài),以及最高2TB總顯存的一體機(jī)私有化部署方案,開(kāi)發(fā)者可快速實(shí)現(xiàn)從模型驗(yàn)證到業(yè)務(wù)上線。
低精度革命的開(kāi)篇
此次FP4+FP8 混合精度成功適配DeepSeek-V4,是瀚博半導(dǎo)體在低精度大模型適配領(lǐng)域的里程碑。面向百萬(wàn)上下文普惠新時(shí)代,瀚博將持續(xù)攜手產(chǎn)業(yè)伙伴,加速大模型應(yīng)用的高效、安全、規(guī)?;涞亍?/p>
-
開(kāi)源
+關(guān)注
關(guān)注
3文章
4375瀏覽量
46476 -
模型
+關(guān)注
關(guān)注
1文章
3834瀏覽量
52289 -
DeepSeek
+關(guān)注
關(guān)注
2文章
857瀏覽量
3416
原文標(biāo)題:瀚博VA16 FP4+FP8適配DeepSeek-V4,單機(jī)2TB顯存支持百萬(wàn)上下文推理
文章出處:【微信號(hào):瀚博半導(dǎo)體VastaiTech,微信公眾號(hào):瀚博半導(dǎo)體VastaiTech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
燧弘華創(chuàng)HonMaaS平臺(tái)深度適配DeepSeek-V4大模型
摩爾線程完成DeepSeek-V4全鏈路工程化適配:S5000基于MUSA+SGLang實(shí)現(xiàn)復(fù)雜MoE模型快速落地
云天勵(lì)飛完成DeepSeek-V4系列模型關(guān)鍵機(jī)制適配驗(yàn)證
摩爾線程攜手智源人工智能研究院Day-0適配DeepSeek-V4 Pro和Flash雙模型
摩爾線程攜手上海AI實(shí)驗(yàn)室Day-0適配DeepSeek-V4核心算子
開(kāi)放原子AtomGit平臺(tái)首發(fā)適配DeepSeek-V4系列模型
登臨科技GPU+架構(gòu)深度適配DeepSeek-V4大模型
寒武紀(jì)Day 0適配DeepSeek-V4模型
華為云首發(fā)適配DeepSeek-V4模型
沐曦股份Day 0適配DeepSeek-V4-Flash模型
壁仞科技壁礪166系列GPU產(chǎn)品率先支持DeepSeek-V4模型
瀚博半導(dǎo)體載天VA16加速卡成功適配DeepSeek-V4大模型
評(píng)論