97超碰玖玖爱,嘿咻视频网站,97精品人妻一区二区

來源：模力方舟

當(dāng)模型開始承擔(dān)更復(fù)雜的任務(wù)，真正影響體驗(yàn)的因素已經(jīng)不只在單輪問答。

開發(fā)者會(huì)把更長(zhǎng)的代碼倉(cāng)庫(kù)、更完整的項(xiàng)目文檔、更復(fù)雜的需求說明、更連續(xù)的工具調(diào)用流程交給模型處理。模型需要在長(zhǎng)上下文中保持穩(wěn)定理解，也需要在多步推理、檢索、規(guī)劃、代碼生成和 Agent 任務(wù)中持續(xù)工作。

圍繞這一方向，DeepSeek 在今天上推出了DeepSeek-V4，現(xiàn)已在模力方舟正式上線。

DeepSeek-V4是 DeepSeek 最新發(fā)布的預(yù)覽版模型系列，核心目標(biāo)指向「高效百萬 Token 上下文智能」。本次上線的兩個(gè)版本均采用 MoE 架構(gòu)，并支持最高 100 萬 Token 上下文窗口：

DeepSeek-V4-Pro總參數(shù)規(guī)模為 1.6T，激活參數(shù) 49B，面向復(fù)雜推理、長(zhǎng)上下文理解、代碼與 Agent 等高強(qiáng)度任務(wù)。

DeepSeek-V4-Flash總參數(shù)規(guī)模為 284B，激活參數(shù) 13B，面向更高效率、更低成本的高頻調(diào)用場(chǎng)景。

百萬 Token 上下文：長(zhǎng)任務(wù)進(jìn)入工程可用區(qū)間

長(zhǎng)上下文一直是大模型走向復(fù)雜任務(wù)的關(guān)鍵能力。

在研發(fā)、辦公、知識(shí)庫(kù)、數(shù)據(jù)分析等場(chǎng)景中，任務(wù)輸入經(jīng)常超過傳統(tǒng)上下文窗口。比如一次性分析大型代碼倉(cāng)庫(kù)、對(duì)比多份技術(shù)文檔、梳理長(zhǎng)周期項(xiàng)目記錄、處理多輪 Agent 任務(wù)軌跡，都需要模型在更長(zhǎng)輸入中保持信息定位、關(guān)聯(lián)分析和結(jié)果生成能力。

DeepSeek-V4系列將上下文長(zhǎng)度推進(jìn)到 100 萬 Token，同時(shí)在長(zhǎng)上下文效率上做了大幅優(yōu)化。

根據(jù) DeepSeek 技術(shù)報(bào)告，在 100 萬 Token 上下文設(shè)置下，DeepSeek-V4-Pro 相比 DeepSeek-V3.2 僅需 27% 的單 Token 推理 FLOPs 和 10% 的 KV Cache;DeepSeek-V4-Flash 則進(jìn)一步降至 10% 的單 Token 推理 FLOPs 和 7% 的 KV Cache。

這意味著，百萬級(jí)上下文不再只是參數(shù)表中的規(guī)格，也開始更接近可持續(xù)調(diào)用的工程形態(tài)。

架構(gòu)升級(jí)：CSA 與 HCA 解決長(zhǎng)上下文效率問題

DeepSeek-V4 系列的核心升級(jí)之一，是混合注意力架構(gòu)。

DeepSeek-V4 引入了 Compressed Sparse Attention(CSA)與 Heavily Compressed Attention(HCA)。CSA 會(huì)先壓縮 KV Cache，再通過稀疏選擇降低注意力計(jì)算開銷;HCA 則采用更高壓縮率，對(duì)超長(zhǎng)序列進(jìn)行更激進(jìn)的 KV 壓縮。

兩者組合后，模型在處理長(zhǎng)文本時(shí)可以減少注意力計(jì)算與緩存壓力，同時(shí)保留對(duì)局部細(xì)節(jié)的建模能力。

在這一基礎(chǔ)上，DeepSeek-V4 還加入了 Manifold-Constrained Hyper-Connections(mHC)，用于增強(qiáng)傳統(tǒng)殘差連接，提高深層信號(hào)傳播穩(wěn)定性;訓(xùn)練側(cè)則引入 Muon 優(yōu)化器，以提升收斂效率和訓(xùn)練穩(wěn)定性。

這些改動(dòng)共同指向一個(gè)目標(biāo)：讓模型在更長(zhǎng)上下文、更復(fù)雜推理、更高調(diào)用頻率下保持可用性。

訓(xùn)練與后訓(xùn)練：從領(lǐng)域?qū)＜业浇y(tǒng)一模型能力

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均基于超過 32T 高質(zhì)量 Token 進(jìn)行預(yù)訓(xùn)練。

在后訓(xùn)練階段，DeepSeek-V4 系列采用兩階段范式：先分別培養(yǎng)數(shù)學(xué)、代碼、Agent、指令跟隨等方向的領(lǐng)域?qū)＜夷Ｐ?，再通過 On-Policy Distillation(OPD)將不同能力整合到統(tǒng)一模型中。

這種路線適合復(fù)雜通用模型的能力融合。單一模型既要完成知識(shí)問答，也要完成代碼、搜索、推理和工具調(diào)用任務(wù)，后訓(xùn)練環(huán)節(jié)就需要把多個(gè)專項(xiàng)能力統(tǒng)一到穩(wěn)定的交互體驗(yàn)中。

Pro 與 Flash：一個(gè)強(qiáng)能力版本，一個(gè)高效率版本

DeepSeek-V4-Pro 更適合復(fù)雜任務(wù)。

在 DeepSeek 技術(shù)報(bào)告中，DeepSeek-V4-Pro-Max 作為 DeepSeek-V4-Pro 的最高推理強(qiáng)度模式，在知識(shí)、推理、代碼、Agent、長(zhǎng)上下文等方向均展現(xiàn)出較強(qiáng)表現(xiàn)。報(bào)告中也提到，DeepSeek-V4-Pro-Max 在公開 Agent 評(píng)測(cè)中可與 Kimi-K2.6、GLM-5.1 等開源模型處于同一梯隊(duì)，并在 100 萬 Token 長(zhǎng)上下文任務(wù)中取得強(qiáng)結(jié)果。

DeepSeek-V4-Flash 的定位更偏效率。

它以 284B 總參數(shù)、13B 激活參數(shù)實(shí)現(xiàn) 100 萬 Token 上下文支持，在更小激活規(guī)模下保留了較強(qiáng)推理能力。對(duì)于高頻調(diào)用、批量處理、成本敏感型應(yīng)用，F(xiàn)lash 版本更適合作為默認(rèn)模型底座。

簡(jiǎn)單來說：

復(fù)雜推理、長(zhǎng)文檔分析、代碼 Agent、高質(zhì)量?jī)?nèi)容生成，優(yōu)先選擇 DeepSeek-V4-Pro。

日常問答、批量摘要、檢索增強(qiáng)、輕量 Agent、高并發(fā)調(diào)用，優(yōu)先選擇 DeepSeek-V4-Flash。

中文寫作、搜索與 Agent：更貼近日常生產(chǎn)力場(chǎng)景

除了標(biāo)準(zhǔn)評(píng)測(cè)，DeepSeek 技術(shù)報(bào)告還給出了面向真實(shí)任務(wù)的內(nèi)部評(píng)估。

在中文寫作任務(wù)中，DeepSeek-V4-Pro 覆蓋功能寫作與創(chuàng)意寫作兩類場(chǎng)景。報(bào)告顯示，在功能寫作對(duì)比中，DeepSeek-V4-Pro 相比 Gemini-3.1-Pro 獲得 62.7% 的總體勝率;在創(chuàng)意寫作中，其在指令跟隨和寫作質(zhì)量?jī)蓚€(gè)維度也取得較高勝率。

在搜索增強(qiáng)問答場(chǎng)景中，DeepSeek-V4-Pro 覆蓋 RAG 與 Agentic Search 兩類模式。對(duì)于需要多步檢索、對(duì)比、分析和規(guī)劃的問題，Agentic Search 能夠調(diào)用更多工具與上下文，適合更復(fù)雜的信息處理任務(wù)。

這類能力對(duì)開發(fā)者應(yīng)用尤其關(guān)鍵。無論是企業(yè)知識(shí)庫(kù)問答、技術(shù)資料檢索、代碼庫(kù)理解，還是自動(dòng)化工作流中的多工具協(xié)同，模型都需要在「看得長(zhǎng)」「想得深」「調(diào)得動(dòng)工具」之間取得平衡。

模力方舟已開放在線體驗(yàn)與 API 調(diào)用

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 現(xiàn)均已上線模力方舟。

開發(fā)者可以在模力方舟進(jìn)行在線體驗(yàn)，也可以通過 API 接入到自己的應(yīng)用、Agent 工作流、知識(shí)庫(kù)系統(tǒng)或研發(fā)工具鏈中。

對(duì)于正在構(gòu)建長(zhǎng)上下文應(yīng)用的團(tuán)隊(duì)，DeepSeek-V4-Pro 可以承擔(dān)復(fù)雜文檔、代碼和推理任務(wù);對(duì)于需要控制成本和調(diào)用效率的場(chǎng)景，DeepSeek-V4-Flash 可以作為更輕量的基礎(chǔ)模型選擇。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

大模型

大模型

+關(guān)注

關(guān)注
2

文章
3797

瀏覽量
5278
DeepSeek

DeepSeek

+關(guān)注

關(guān)注
2

文章
855

瀏覽量
3413

原文標(biāo)題：模力方舟上線 DeepSeek-V4：百萬 Token 上下文，Pro 與 Flash 雙版本在線體驗(yàn)

文章出處：【微信號(hào)：OSC開源社區(qū)，微信公眾號(hào)：OSC開源社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

模力方舟上線DeepSeek-V4系列大模型

評(píng)論