來源:模力方舟
當(dāng)模型開始承擔(dān)更復(fù)雜的任務(wù),真正影響體驗(yàn)的因素已經(jīng)不只在單輪問答。
開發(fā)者會(huì)把更長(zhǎng)的代碼倉(cāng)庫(kù)、更完整的項(xiàng)目文檔、更復(fù)雜的需求說明、更連續(xù)的工具調(diào)用流程交給模型處理。模型需要在長(zhǎng)上下文中保持穩(wěn)定理解,也需要在多步推理、檢索、規(guī)劃、代碼生成和 Agent 任務(wù)中持續(xù)工作。
圍繞這一方向,DeepSeek 在今天上推出了DeepSeek-V4,現(xiàn)已在模力方舟正式上線。
DeepSeek-V4是 DeepSeek 最新發(fā)布的預(yù)覽版模型系列,核心目標(biāo)指向「高效百萬 Token 上下文智能」。本次上線的兩個(gè)版本均采用 MoE 架構(gòu),并支持最高 100 萬 Token 上下文窗口:
DeepSeek-V4-Pro總參數(shù)規(guī)模為 1.6T,激活參數(shù) 49B,面向復(fù)雜推理、長(zhǎng)上下文理解、代碼與 Agent 等高強(qiáng)度任務(wù)。
DeepSeek-V4-Flash總參數(shù)規(guī)模為 284B,激活參數(shù) 13B,面向更高效率、更低成本的高頻調(diào)用場(chǎng)景。
百萬 Token 上下文:長(zhǎng)任務(wù)進(jìn)入工程可用區(qū)間
長(zhǎng)上下文一直是大模型走向復(fù)雜任務(wù)的關(guān)鍵能力。
在研發(fā)、辦公、知識(shí)庫(kù)、數(shù)據(jù)分析等場(chǎng)景中,任務(wù)輸入經(jīng)常超過傳統(tǒng)上下文窗口。比如一次性分析大型代碼倉(cāng)庫(kù)、對(duì)比多份技術(shù)文檔、梳理長(zhǎng)周期項(xiàng)目記錄、處理多輪 Agent 任務(wù)軌跡,都需要模型在更長(zhǎng)輸入中保持信息定位、關(guān)聯(lián)分析和結(jié)果生成能力。
DeepSeek-V4系列將上下文長(zhǎng)度推進(jìn)到 100 萬 Token,同時(shí)在長(zhǎng)上下文效率上做了大幅優(yōu)化。
根據(jù) DeepSeek 技術(shù)報(bào)告,在 100 萬 Token 上下文設(shè)置下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2 僅需 27% 的單 Token 推理 FLOPs 和 10% 的 KV Cache;DeepSeek-V4-Flash 則進(jìn)一步降至 10% 的單 Token 推理 FLOPs 和 7% 的 KV Cache。

這意味著,百萬級(jí)上下文不再只是參數(shù)表中的規(guī)格,也開始更接近可持續(xù)調(diào)用的工程形態(tài)。
架構(gòu)升級(jí):CSA 與 HCA 解決長(zhǎng)上下文效率問題
DeepSeek-V4 系列的核心升級(jí)之一,是混合注意力架構(gòu)。
DeepSeek-V4 引入了 Compressed Sparse Attention(CSA)與 Heavily Compressed Attention(HCA)。CSA 會(huì)先壓縮 KV Cache,再通過稀疏選擇降低注意力計(jì)算開銷;HCA 則采用更高壓縮率,對(duì)超長(zhǎng)序列進(jìn)行更激進(jìn)的 KV 壓縮。

兩者組合后,模型在處理長(zhǎng)文本時(shí)可以減少注意力計(jì)算與緩存壓力,同時(shí)保留對(duì)局部細(xì)節(jié)的建模能力。
在這一基礎(chǔ)上,DeepSeek-V4 還加入了 Manifold-Constrained Hyper-Connections(mHC),用于增強(qiáng)傳統(tǒng)殘差連接,提高深層信號(hào)傳播穩(wěn)定性;訓(xùn)練側(cè)則引入 Muon 優(yōu)化器,以提升收斂效率和訓(xùn)練穩(wěn)定性。
這些改動(dòng)共同指向一個(gè)目標(biāo):讓模型在更長(zhǎng)上下文、更復(fù)雜推理、更高調(diào)用頻率下保持可用性。
訓(xùn)練與后訓(xùn)練:從領(lǐng)域?qū)<业浇y(tǒng)一模型能力
DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均基于超過 32T 高質(zhì)量 Token 進(jìn)行預(yù)訓(xùn)練。
在后訓(xùn)練階段,DeepSeek-V4 系列采用兩階段范式:先分別培養(yǎng)數(shù)學(xué)、代碼、Agent、指令跟隨等方向的領(lǐng)域?qū)<夷P?,再通過 On-Policy Distillation(OPD)將不同能力整合到統(tǒng)一模型中。
這種路線適合復(fù)雜通用模型的能力融合。單一模型既要完成知識(shí)問答,也要完成代碼、搜索、推理和工具調(diào)用任務(wù),后訓(xùn)練環(huán)節(jié)就需要把多個(gè)專項(xiàng)能力統(tǒng)一到穩(wěn)定的交互體驗(yàn)中。
Pro 與 Flash:一個(gè)強(qiáng)能力版本,一個(gè)高效率版本
DeepSeek-V4-Pro 更適合復(fù)雜任務(wù)。
在 DeepSeek 技術(shù)報(bào)告中,DeepSeek-V4-Pro-Max 作為 DeepSeek-V4-Pro 的最高推理強(qiáng)度模式,在知識(shí)、推理、代碼、Agent、長(zhǎng)上下文等方向均展現(xiàn)出較強(qiáng)表現(xiàn)。報(bào)告中也提到,DeepSeek-V4-Pro-Max 在公開 Agent 評(píng)測(cè)中可與 Kimi-K2.6、GLM-5.1 等開源模型處于同一梯隊(duì),并在 100 萬 Token 長(zhǎng)上下文任務(wù)中取得強(qiáng)結(jié)果。
DeepSeek-V4-Flash 的定位更偏效率。
它以 284B 總參數(shù)、13B 激活參數(shù)實(shí)現(xiàn) 100 萬 Token 上下文支持,在更小激活規(guī)模下保留了較強(qiáng)推理能力。對(duì)于高頻調(diào)用、批量處理、成本敏感型應(yīng)用,F(xiàn)lash 版本更適合作為默認(rèn)模型底座。

簡(jiǎn)單來說:
復(fù)雜推理、長(zhǎng)文檔分析、代碼 Agent、高質(zhì)量?jī)?nèi)容生成,優(yōu)先選擇 DeepSeek-V4-Pro。
日常問答、批量摘要、檢索增強(qiáng)、輕量 Agent、高并發(fā)調(diào)用,優(yōu)先選擇 DeepSeek-V4-Flash。
中文寫作、搜索與 Agent:更貼近日常生產(chǎn)力場(chǎng)景
除了標(biāo)準(zhǔn)評(píng)測(cè),DeepSeek 技術(shù)報(bào)告還給出了面向真實(shí)任務(wù)的內(nèi)部評(píng)估。
在中文寫作任務(wù)中,DeepSeek-V4-Pro 覆蓋功能寫作與創(chuàng)意寫作兩類場(chǎng)景。報(bào)告顯示,在功能寫作對(duì)比中,DeepSeek-V4-Pro 相比 Gemini-3.1-Pro 獲得 62.7% 的總體勝率;在創(chuàng)意寫作中,其在指令跟隨和寫作質(zhì)量?jī)蓚€(gè)維度也取得較高勝率。

在搜索增強(qiáng)問答場(chǎng)景中,DeepSeek-V4-Pro 覆蓋 RAG 與 Agentic Search 兩類模式。對(duì)于需要多步檢索、對(duì)比、分析和規(guī)劃的問題,Agentic Search 能夠調(diào)用更多工具與上下文,適合更復(fù)雜的信息處理任務(wù)。
這類能力對(duì)開發(fā)者應(yīng)用尤其關(guān)鍵。無論是企業(yè)知識(shí)庫(kù)問答、技術(shù)資料檢索、代碼庫(kù)理解,還是自動(dòng)化工作流中的多工具協(xié)同,模型都需要在「看得長(zhǎng)」「想得深」「調(diào)得動(dòng)工具」之間取得平衡。
模力方舟已開放在線體驗(yàn)與 API 調(diào)用
DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 現(xiàn)均已上線模力方舟。
開發(fā)者可以在模力方舟進(jìn)行在線體驗(yàn),也可以通過 API 接入到自己的應(yīng)用、Agent 工作流、知識(shí)庫(kù)系統(tǒng)或研發(fā)工具鏈中。
對(duì)于正在構(gòu)建長(zhǎng)上下文應(yīng)用的團(tuán)隊(duì),DeepSeek-V4-Pro 可以承擔(dān)復(fù)雜文檔、代碼和推理任務(wù);對(duì)于需要控制成本和調(diào)用效率的場(chǎng)景,DeepSeek-V4-Flash 可以作為更輕量的基礎(chǔ)模型選擇。
-
大模型
+關(guān)注
關(guān)注
2文章
3797瀏覽量
5278 -
DeepSeek
+關(guān)注
關(guān)注
2文章
855瀏覽量
3413
原文標(biāo)題:模力方舟上線 DeepSeek-V4:百萬 Token 上下文,Pro 與 Flash 雙版本在線體驗(yàn)
文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
摩爾線程完成DeepSeek-V4全鏈路工程化適配:S5000基于MUSA+SGLang實(shí)現(xiàn)復(fù)雜MoE模型快速落地
云天勵(lì)飛完成DeepSeek-V4系列模型關(guān)鍵機(jī)制適配驗(yàn)證
摩爾線程攜手智源人工智能研究院Day-0適配DeepSeek-V4 Pro和Flash雙模型
摩爾線程攜手上海AI實(shí)驗(yàn)室Day-0適配DeepSeek-V4核心算子
摩爾線程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels
開放原子AtomGit平臺(tái)首發(fā)適配DeepSeek-V4系列模型
登臨科技GPU+架構(gòu)深度適配DeepSeek-V4大模型
寒武紀(jì)Day 0適配DeepSeek-V4模型
華為云首發(fā)適配DeepSeek-V4模型
沐曦股份Day 0適配DeepSeek-V4-Flash模型
壁仞科技壁礪166系列GPU產(chǎn)品率先支持DeepSeek-V4模型
OpenClaw 全面接入DeepSeek-V4系列模型
榮耀YOYO首搭DeepSeek-V4大模型 重塑安卓端側(cè)AI新標(biāo)桿
模力方舟與TorchV達(dá)成戰(zhàn)略合作
模力方舟上線DeepSeek-V4系列大模型
評(píng)論