DeepSeek 剛剛發(fā)布了第四代旗艦?zāi)P停瞥鯠eepSeek-V4-Pro和DeepSeek-V4-Flash兩款產(chǎn)品,均致力于實現(xiàn)高效的百萬詞元上下文推理。
DeepSeek-V4-Pro 是該系列中最大的型號,擁有 1.6 T 的總參數(shù)和 49B 的活動參數(shù)。DeepSeek-V4-Flash 是一款包含 304B 參數(shù)的小型模型,具有 130 億個活動參數(shù),專為高速、高效的工作負載而設(shè)計。這兩種模型最高支持 1M- 詞元上下文窗口,為長上下文編碼、文檔分析、檢索和代理式 AI 工作流開辟了新的可能性。

表 1. DeepSeek V4 系列的規(guī)格。
用于長上下文推理的架構(gòu)創(chuàng)新
V4 系列基于 DeepSeek MoE 架構(gòu)構(gòu)建,重點優(yōu)化了 Transformer 架構(gòu)中的注意力組件。相比DeepSeek-V3.2,這些創(chuàng)新可將每個詞元推理所需的 FLOPs 減少 73%,并將 KV 緩存的內(nèi)存負載降低 90%。
這一點很重要,因為長上下文正在成為代理式應(yīng)用的核心要求。智能體可以存儲多個提示和響應(yīng)。它們在整個工作流程中攜帶系統(tǒng)指令、工具輸出、檢索到的上下文、代碼、日志、內(nèi)存和多步驟推理痕跡。隨著上下文窗口的增長,注意力和 KV 緩存成為主要瓶頸。

圖 1. DeepSeek-V4 混合注意力架構(gòu)概述。通過結(jié)合 CSA、DSA 和 HCA,該模型顯著減少了標準 Transformer 塊內(nèi)的 KV 緩存內(nèi)存占用和計算開銷。
應(yīng)對這一挑戰(zhàn)的核心架構(gòu)解決方案是混合注意力,它融合了:
壓縮稀疏注意力(CSA):通過動態(tài)序列壓縮來減少 KV 條目的數(shù)量,從而降低 KV 緩存的內(nèi)存占用,再結(jié)合 DeepSeek 稀疏注意力(DSA)對注意力矩陣進行稀疏化,以降低計算開銷。
嚴重壓縮注意力(HCA):通過將多個詞元集合中的鍵值(KV)條目合并為單個壓縮條目,實現(xiàn)更激進的壓縮,從而顯著減小 KV 緩存的大小。
DeepSeek-V4 的架構(gòu)創(chuàng)新標志著從基本聊天系統(tǒng)向多回合、長上下文推理和代理式系統(tǒng)的轉(zhuǎn)變。這種新范式強調(diào)了整個堆棧 (軟件、內(nèi)存、計算和網(wǎng)絡(luò)) 從根本上改變了推理經(jīng)濟學(xué)的動態(tài)。隨著開放模型達到智能的前沿,企業(yè)的工作重點從模型選擇轉(zhuǎn)向基礎(chǔ)設(shè)施策略。在這種情況下,最終的競爭優(yōu)勢是能夠以最低的詞元成本部署和擴展這些高性能模型。
開箱即用的 NVIDIA Blackwell 性能見解
無論是開發(fā)者部署用于高級推理的 1.6 T Pro 模型,還是用于實現(xiàn)高速效率的 284B Flash 模型,Blackwell 都能提供 100 萬長上下文推理和萬億參數(shù)智能新時代所需的規(guī)模和低延遲性能。
NVIDIA Blackwell 平臺專為此類工作負載而構(gòu)建。在基于 NVIDIA GB200 NVL72 的 DeepSeek-V4-Pro 上進行的開箱即用測試表明,詞元/ 秒/ 用戶數(shù)超過 150。除了這些初步測試之外,NVIDIA 團隊還利用 vLLM 的 Day 0 NVIDIA Blackwell B300 recipe 生成了開箱即用的性能快照 (圖 2) 。

圖 2. DeepSeek-V4-Pro 在 NVIDIA Blackwell B300 上的開箱即用性能。結(jié)果基于使用該模型的原生 MXFP4 格式的 1K/ 1K ISL/ OSL 配置。
隨著我們優(yōu)化整個極致協(xié)同設(shè)計堆棧 (包括 Dynamo、NVFP4、經(jīng)過優(yōu)化的 CUDA 內(nèi)核、高級并行技術(shù)等) ,這一性能有望進一步提升。
使用 NVIDIA GPU 加速端點進行構(gòu)建
作為 NVIDIA 開發(fā)者計劃的一部分,開發(fā)者可通過 nvidia.com 上由 NVIDIA GPU 加速的端點(https://build.nvidia.com/)(復(fù)制鏈接至瀏覽器打開,下同),開始使用 DeepSeek V4 進行開發(fā)。在轉(zhuǎn)向自托管部署之前,托管端點為使用最新模型進行原型設(shè)計提供了快速便捷的方式。
借助 NVIDIA NIM,DeepSeek V4 也可在首發(fā)日下載,因此可以部署它,使用熟悉的 API 模式構(gòu)建長上下文編碼、文檔分析和智能體工作流。
使用 SGLang 進行部署
SGLang 為基于 NVIDIA Blackwell 和 Hopper 架構(gòu)的 DeepSeek V4 提供三種主要服務(wù)方案,分別針對不同的延遲與吞吐量需求(低延遲、均衡性能和最大吞吐量)進行優(yōu)化,同時還提供專為長上下文工作負載以及預(yù)填充與解碼分解設(shè)計的定制化方案。
使用 vLLM 進行部署
vLLM 為 NVIDIA Blackwell 和 Hopper 提供 DeepSeekV4 的單節(jié)點與多節(jié)點服務(wù)方案,支持擴展至 100 多個 GPU 的多節(jié)點預(yù)填充與解碼分離架構(gòu),并具備工具調(diào)用、推理及預(yù)測解碼能力。
助力智能體工作流
DeepSeek V4 特別適合智能體,因為它在長上下文編排、推理和工具調(diào)用方面表現(xiàn)出色。首先,開發(fā)者可以將 DeepSeek V4 配置為 LLM:
NVIDIA NemoClaw:在安全的 OpenShell 環(huán)境中運行 OpenClaw,利用 DeepSeek V4 構(gòu)建可長期運行的個人助手,適用于代碼生成、個人事務(wù)處理、自主支持等任務(wù)。運行nemoclaw onboard,在第 3 步中輸入您的 DeepSeek V4 提供商 URL 及其 DeepSeek V4 模型名稱。
NVIDIA AI-Q blueprint:為您提供或您的代理一個強大的深度研究助手。該藍圖基于 LangChain 深度代理,具備良好的可擴展性,可輕松將 DeepSeek V4 集成到您的工作流程中,實現(xiàn)高效的編排與規(guī)劃.
NVIDIA Data Explorer 智能體:在 DABstep 基準測試中排名第一,擅長數(shù)據(jù)分析、數(shù)據(jù)科學(xué)和表格研究。該智能體基于 NeMo Agent Toolkit 構(gòu)建,可輕松切換至 DeepSeek V4。
使用開放智能體工具和開放模型的最佳方式是,您始終能夠嘗試新的模型來獲取前沿技術(shù)。
開始使用 DeepSeek
從 NVIDIA Blackwell 上的數(shù)據(jù)中心部署到托管 NIM 微服務(wù)和微調(diào)工作流,NVIDIA 提供了一系列選項,用于在不同的開發(fā)和部署階段集成 DeepSeek 和其他開放模型。NVIDIA 是開源生態(tài)系統(tǒng)的積極貢獻者,已根據(jù)開源許可證發(fā)布了數(shù)百個項目。NVIDIA 致力于優(yōu)化社區(qū)軟件和開放模型,讓用戶廣泛分享在 AI 安全性和彈性方面的工作。
如需開始使用,請前往 Hugging Face 查看 DeepSeek-V4(https://huggingface.co/collections/deepseek-ai/deepseek-v4),或在 build.nvidia.com(https://build.nvidia.com/deepseek-ai/deepseek-v4-pro)上體驗專業(yè)版。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5717瀏覽量
110200 -
gpu
+關(guān)注
關(guān)注
28文章
5308瀏覽量
136160 -
大模型
+關(guān)注
關(guān)注
2文章
3842瀏覽量
5289 -
DeepSeek
+關(guān)注
關(guān)注
2文章
861瀏覽量
3442
原文標題:使用 NVIDIA Blackwell 和 GPU 加速端點構(gòu)建 DeepSeek V4
文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
國產(chǎn)AI算力:從DeepSeek V4與華為昇騰協(xié)同看全棧自主之路
進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片
在Ubuntu上使用Nvidia GPU訓(xùn)練模型
介紹yolo v4版的安裝與測試
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA RTX PRO 4000 Blackwell GPU性能測試
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
海光信息DCU平臺完成對DeepSeek V4模型極速適配
長江計算G940K V2超節(jié)點服務(wù)器完成對DeepSeek V4模型極速適配
壁仞科技壁礪166系列GPU產(chǎn)品率先支持DeepSeek-V4模型
使用NVIDIA Blackwell和GPU加速端點構(gòu)建DeepSeek V4大模型
評論