东京热网站久,91福利精品成人,久久久一区人

DeepSeek 剛剛發(fā)布了第四代旗艦?zāi)Ｐ停瞥鯠eepSeek-V4-Pro和DeepSeek-V4-Flash兩款產(chǎn)品，均致力于實現(xiàn)高效的百萬詞元上下文推理。

DeepSeek-V4-Pro 是該系列中最大的型號，擁有 1.6 T 的總參數(shù)和 49B 的活動參數(shù)。DeepSeek-V4-Flash 是一款包含 304B 參數(shù)的小型模型，具有 130 億個活動參數(shù)，專為高速、高效的工作負載而設(shè)計。這兩種模型最高支持 1M- 詞元上下文窗口，為長上下文編碼、文檔分析、檢索和代理式 AI 工作流開辟了新的可能性。

表 1. DeepSeek V4 系列的規(guī)格。

用于長上下文推理的架構(gòu)創(chuàng)新

V4 系列基于 DeepSeek MoE 架構(gòu)構(gòu)建，重點優(yōu)化了 Transformer 架構(gòu)中的注意力組件。相比DeepSeek-V3.2，這些創(chuàng)新可將每個詞元推理所需的 FLOPs 減少 73%，并將 KV 緩存的內(nèi)存負載降低 90%。

這一點很重要，因為長上下文正在成為代理式應(yīng)用的核心要求。智能體可以存儲多個提示和響應(yīng)。它們在整個工作流程中攜帶系統(tǒng)指令、工具輸出、檢索到的上下文、代碼、日志、內(nèi)存和多步驟推理痕跡。隨著上下文窗口的增長，注意力和 KV 緩存成為主要瓶頸。

圖 1. DeepSeek-V4 混合注意力架構(gòu)概述。通過結(jié)合 CSA、DSA 和 HCA，該模型顯著減少了標準 Transformer 塊內(nèi)的 KV 緩存內(nèi)存占用和計算開銷。

應(yīng)對這一挑戰(zhàn)的核心架構(gòu)解決方案是混合注意力，它融合了：

壓縮稀疏注意力（CSA）：通過動態(tài)序列壓縮來減少 KV 條目的數(shù)量，從而降低 KV 緩存的內(nèi)存占用，再結(jié)合 DeepSeek 稀疏注意力（DSA）對注意力矩陣進行稀疏化，以降低計算開銷。

嚴重壓縮注意力（HCA）：通過將多個詞元集合中的鍵值（KV）條目合并為單個壓縮條目，實現(xiàn)更激進的壓縮，從而顯著減小 KV 緩存的大小。

DeepSeek-V4 的架構(gòu)創(chuàng)新標志著從基本聊天系統(tǒng)向多回合、長上下文推理和代理式系統(tǒng)的轉(zhuǎn)變。這種新范式強調(diào)了整個堆棧 (軟件、內(nèi)存、計算和網(wǎng)絡(luò)) 從根本上改變了推理經(jīng)濟學(xué)的動態(tài)。隨著開放模型達到智能的前沿，企業(yè)的工作重點從模型選擇轉(zhuǎn)向基礎(chǔ)設(shè)施策略。在這種情況下，最終的競爭優(yōu)勢是能夠以最低的詞元成本部署和擴展這些高性能模型。

開箱即用的 NVIDIA Blackwell 性能見解

無論是開發(fā)者部署用于高級推理的 1.6 T Pro 模型，還是用于實現(xiàn)高速效率的 284B Flash 模型，Blackwell 都能提供 100 萬長上下文推理和萬億參數(shù)智能新時代所需的規(guī)模和低延遲性能。

NVIDIA Blackwell 平臺專為此類工作負載而構(gòu)建。在基于 NVIDIA GB200 NVL72 的 DeepSeek-V4-Pro 上進行的開箱即用測試表明，詞元/ 秒/ 用戶數(shù)超過 150。除了這些初步測試之外，NVIDIA 團隊還利用 vLLM 的 Day 0 NVIDIA Blackwell B300 recipe 生成了開箱即用的性能快照 (圖 2) 。

圖 2. DeepSeek-V4-Pro 在 NVIDIA Blackwell B300 上的開箱即用性能。結(jié)果基于使用該模型的原生 MXFP4 格式的 1K/ 1K ISL/ OSL 配置。

隨著我們優(yōu)化整個極致協(xié)同設(shè)計堆棧 (包括 Dynamo、NVFP4、經(jīng)過優(yōu)化的 CUDA 內(nèi)核、高級并行技術(shù)等) ，這一性能有望進一步提升。

使用 NVIDIA GPU 加速端點進行構(gòu)建

作為 NVIDIA 開發(fā)者計劃的一部分，開發(fā)者可通過 nvidia.com 上由 NVIDIA GPU 加速的端點（https://build.nvidia.com/）（復(fù)制鏈接至瀏覽器打開，下同），開始使用 DeepSeek V4 進行開發(fā)。在轉(zhuǎn)向自托管部署之前，托管端點為使用最新模型進行原型設(shè)計提供了快速便捷的方式。

借助 NVIDIA NIM，DeepSeek V4 也可在首發(fā)日下載，因此可以部署它，使用熟悉的 API 模式構(gòu)建長上下文編碼、文檔分析和智能體工作流。

使用 SGLang 進行部署

SGLang 為基于 NVIDIA Blackwell 和 Hopper 架構(gòu)的 DeepSeek V4 提供三種主要服務(wù)方案，分別針對不同的延遲與吞吐量需求（低延遲、均衡性能和最大吞吐量）進行優(yōu)化，同時還提供專為長上下文工作負載以及預(yù)填充與解碼分解設(shè)計的定制化方案。

使用 vLLM 進行部署

vLLM 為 NVIDIA Blackwell 和 Hopper 提供 DeepSeekV4 的單節(jié)點與多節(jié)點服務(wù)方案，支持擴展至 100 多個 GPU 的多節(jié)點預(yù)填充與解碼分離架構(gòu)，并具備工具調(diào)用、推理及預(yù)測解碼能力。

助力智能體工作流

DeepSeek V4 特別適合智能體，因為它在長上下文編排、推理和工具調(diào)用方面表現(xiàn)出色。首先，開發(fā)者可以將 DeepSeek V4 配置為 LLM：

NVIDIA NemoClaw：在安全的 OpenShell 環(huán)境中運行 OpenClaw，利用 DeepSeek V4 構(gòu)建可長期運行的個人助手，適用于代碼生成、個人事務(wù)處理、自主支持等任務(wù)。運行nemoclaw onboard，在第 3 步中輸入您的 DeepSeek V4 提供商 URL 及其 DeepSeek V4 模型名稱。

NVIDIA AI-Q blueprint：為您提供或您的代理一個強大的深度研究助手。該藍圖基于 LangChain 深度代理，具備良好的可擴展性，可輕松將 DeepSeek V4 集成到您的工作流程中，實現(xiàn)高效的編排與規(guī)劃.

NVIDIA Data Explorer 智能體：在 DABstep 基準測試中排名第一，擅長數(shù)據(jù)分析、數(shù)據(jù)科學(xué)和表格研究。該智能體基于 NeMo Agent Toolkit 構(gòu)建，可輕松切換至 DeepSeek V4。

使用開放智能體工具和開放模型的最佳方式是，您始終能夠嘗試新的模型來獲取前沿技術(shù)。

開始使用 DeepSeek

從 NVIDIA Blackwell 上的數(shù)據(jù)中心部署到托管 NIM 微服務(wù)和微調(diào)工作流，NVIDIA 提供了一系列選項，用于在不同的開發(fā)和部署階段集成 DeepSeek 和其他開放模型。NVIDIA 是開源生態(tài)系統(tǒng)的積極貢獻者，已根據(jù)開源許可證發(fā)布了數(shù)百個項目。NVIDIA 致力于優(yōu)化社區(qū)軟件和開放模型，讓用戶廣泛分享在 AI 安全性和彈性方面的工作。

如需開始使用，請前往 Hugging Face 查看 DeepSeek-V4（https://huggingface.co/collections/deepseek-ai/deepseek-v4），或在 build.nvidia.com（https://build.nvidia.com/deepseek-ai/deepseek-v4-pro）上體驗專業(yè)版。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5717

瀏覽量
110200
gpu

gpu

+關(guān)注

關(guān)注
28

文章
5308

瀏覽量
136160
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3842

瀏覽量
5289
DeepSeek

DeepSeek

+關(guān)注

關(guān)注
2

文章
861

瀏覽量
3442

原文標題：使用 NVIDIA Blackwell 和 GPU 加速端點構(gòu)建 DeepSeek V4

文章出處：【微信號：Leadtek，微信公眾號：麗臺科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

使用NVIDIA Blackwell和GPU加速端點構(gòu)建DeepSeek V4大模型

評論