日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA Blackwell和GPU加速端點構(gòu)建DeepSeek V4大模型

麗臺科技 ? 來源:麗臺科技 ? 2026-05-16 09:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepSeek 剛剛發(fā)布了第四代旗艦?zāi)P停瞥鯠eepSeek-V4-Pro和DeepSeek-V4-Flash兩款產(chǎn)品,均致力于實現(xiàn)高效的百萬詞元上下文推理。

DeepSeek-V4-Pro 是該系列中最大的型號,擁有 1.6 T 的總參數(shù)和 49B 的活動參數(shù)。DeepSeek-V4-Flash 是一款包含 304B 參數(shù)的小型模型,具有 130 億個活動參數(shù),專為高速、高效的工作負載而設(shè)計。這兩種模型最高支持 1M- 詞元上下文窗口,為長上下文編碼、文檔分析、檢索和代理式 AI 工作流開辟了新的可能性。

dfd5c690-4e70-11f1-90a1-92fbcf53809c.png

表 1. DeepSeek V4 系列的規(guī)格。

用于長上下文推理的架構(gòu)創(chuàng)新

V4 系列基于 DeepSeek MoE 架構(gòu)構(gòu)建,重點優(yōu)化了 Transformer 架構(gòu)中的注意力組件。相比DeepSeek-V3.2,這些創(chuàng)新可將每個詞元推理所需的 FLOPs 減少 73%,并將 KV 緩存的內(nèi)存負載降低 90%。

這一點很重要,因為長上下文正在成為代理式應(yīng)用的核心要求。智能體可以存儲多個提示和響應(yīng)。它們在整個工作流程中攜帶系統(tǒng)指令、工具輸出、檢索到的上下文、代碼、日志、內(nèi)存和多步驟推理痕跡。隨著上下文窗口的增長,注意力和 KV 緩存成為主要瓶頸。

e02a5b42-4e70-11f1-90a1-92fbcf53809c.jpg

圖 1. DeepSeek-V4 混合注意力架構(gòu)概述。通過結(jié)合 CSA、DSA 和 HCA,該模型顯著減少了標準 Transformer 塊內(nèi)的 KV 緩存內(nèi)存占用和計算開銷。

應(yīng)對這一挑戰(zhàn)的核心架構(gòu)解決方案是混合注意力,它融合了:

壓縮稀疏注意力(CSA):通過動態(tài)序列壓縮來減少 KV 條目的數(shù)量,從而降低 KV 緩存的內(nèi)存占用,再結(jié)合 DeepSeek 稀疏注意力(DSA)對注意力矩陣進行稀疏化,以降低計算開銷。

嚴重壓縮注意力(HCA):通過將多個詞元集合中的鍵值(KV)條目合并為單個壓縮條目,實現(xiàn)更激進的壓縮,從而顯著減小 KV 緩存的大小。

DeepSeek-V4 的架構(gòu)創(chuàng)新標志著從基本聊天系統(tǒng)向多回合、長上下文推理和代理式系統(tǒng)的轉(zhuǎn)變。這種新范式強調(diào)了整個堆棧 (軟件、內(nèi)存、計算和網(wǎng)絡(luò)) 從根本上改變了推理經(jīng)濟學(xué)的動態(tài)。隨著開放模型達到智能的前沿,企業(yè)的工作重點從模型選擇轉(zhuǎn)向基礎(chǔ)設(shè)施策略。在這種情況下,最終的競爭優(yōu)勢是能夠以最低的詞元成本部署和擴展這些高性能模型。

開箱即用的 NVIDIA Blackwell 性能見解

無論是開發(fā)者部署用于高級推理的 1.6 T Pro 模型,還是用于實現(xiàn)高速效率的 284B Flash 模型,Blackwell 都能提供 100 萬長上下文推理和萬億參數(shù)智能新時代所需的規(guī)模和低延遲性能。

NVIDIA Blackwell 平臺專為此類工作負載而構(gòu)建。在基于 NVIDIA GB200 NVL72 的 DeepSeek-V4-Pro 上進行的開箱即用測試表明,詞元/ 秒/ 用戶數(shù)超過 150。除了這些初步測試之外,NVIDIA 團隊還利用 vLLM 的 Day 0 NVIDIA Blackwell B300 recipe 生成了開箱即用的性能快照 (圖 2) 。

e083ffbc-4e70-11f1-90a1-92fbcf53809c.jpg

圖 2. DeepSeek-V4-Pro 在 NVIDIA Blackwell B300 上的開箱即用性能。結(jié)果基于使用該模型的原生 MXFP4 格式的 1K/ 1K ISL/ OSL 配置。

隨著我們優(yōu)化整個極致協(xié)同設(shè)計堆棧 (包括 Dynamo、NVFP4、經(jīng)過優(yōu)化的 CUDA 內(nèi)核、高級并行技術(shù)等) ,這一性能有望進一步提升。

使用 NVIDIA GPU 加速端點進行構(gòu)建

作為 NVIDIA 開發(fā)者計劃的一部分,開發(fā)者可通過 nvidia.com 上由 NVIDIA GPU 加速的端點(https://build.nvidia.com/)(復(fù)制鏈接至瀏覽器打開,下同),開始使用 DeepSeek V4 進行開發(fā)。在轉(zhuǎn)向自托管部署之前,托管端點為使用最新模型進行原型設(shè)計提供了快速便捷的方式。

借助 NVIDIA NIM,DeepSeek V4 也可在首發(fā)日下載,因此可以部署它,使用熟悉的 API 模式構(gòu)建長上下文編碼、文檔分析和智能體工作流。

使用 SGLang 進行部署

SGLang 為基于 NVIDIA Blackwell 和 Hopper 架構(gòu)的 DeepSeek V4 提供三種主要服務(wù)方案,分別針對不同的延遲與吞吐量需求(低延遲、均衡性能和最大吞吐量)進行優(yōu)化,同時還提供專為長上下文工作負載以及預(yù)填充與解碼分解設(shè)計的定制化方案。

使用 vLLM 進行部署

vLLM 為 NVIDIA Blackwell 和 Hopper 提供 DeepSeekV4 的單節(jié)點與多節(jié)點服務(wù)方案,支持擴展至 100 多個 GPU 的多節(jié)點預(yù)填充與解碼分離架構(gòu),并具備工具調(diào)用、推理及預(yù)測解碼能力。

助力智能體工作流

DeepSeek V4 特別適合智能體,因為它在長上下文編排、推理和工具調(diào)用方面表現(xiàn)出色。首先,開發(fā)者可以將 DeepSeek V4 配置為 LLM:

NVIDIA NemoClaw:在安全的 OpenShell 環(huán)境中運行 OpenClaw,利用 DeepSeek V4 構(gòu)建可長期運行的個人助手,適用于代碼生成、個人事務(wù)處理、自主支持等任務(wù)。運行nemoclaw onboard,在第 3 步中輸入您的 DeepSeek V4 提供商 URL 及其 DeepSeek V4 模型名稱。

NVIDIA AI-Q blueprint:為您提供或您的代理一個強大的深度研究助手。該藍圖基于 LangChain 深度代理,具備良好的可擴展性,可輕松將 DeepSeek V4 集成到您的工作流程中,實現(xiàn)高效的編排與規(guī)劃.

NVIDIA Data Explorer 智能體:在 DABstep 基準測試中排名第一,擅長數(shù)據(jù)分析、數(shù)據(jù)科學(xué)和表格研究。該智能體基于 NeMo Agent Toolkit 構(gòu)建,可輕松切換至 DeepSeek V4。

使用開放智能體工具和開放模型的最佳方式是,您始終能夠嘗試新的模型來獲取前沿技術(shù)。

開始使用 DeepSeek

從 NVIDIA Blackwell 上的數(shù)據(jù)中心部署到托管 NIM 微服務(wù)和微調(diào)工作流,NVIDIA 提供了一系列選項,用于在不同的開發(fā)和部署階段集成 DeepSeek 和其他開放模型。NVIDIA 是開源生態(tài)系統(tǒng)的積極貢獻者,已根據(jù)開源許可證發(fā)布了數(shù)百個項目。NVIDIA 致力于優(yōu)化社區(qū)軟件和開放模型,讓用戶廣泛分享在 AI 安全性和彈性方面的工作。

如需開始使用,請前往 Hugging Face 查看 DeepSeek-V4(https://huggingface.co/collections/deepseek-ai/deepseek-v4),或在 build.nvidia.com(https://build.nvidia.com/deepseek-ai/deepseek-v4-pro)上體驗專業(yè)版。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5717

    瀏覽量

    110200
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5308

    瀏覽量

    136160
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3842

    瀏覽量

    5289
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    861

    瀏覽量

    3442

原文標題:使用 NVIDIA Blackwell 和 GPU 加速端點構(gòu)建 DeepSeek V4

文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek
    的頭像 發(fā)表于 07-02 19:31 ?3697次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>優(yōu)化<b class='flag-5'>DeepSeek</b>-R1性能 打破<b class='flag-5'>DeepSeek</b>-R1在最小延遲場景中的性能紀錄

    NVIDIA RTX PRO 2000 Blackwell GPU性能測試

    越來越多的應(yīng)用正在使用 AI 加速,而無論工作站的大小或形態(tài)如何,都有越來越多的用戶需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發(fā)表于 11-28 09:39 ?7234次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>性能測試

    國產(chǎn)AI算力:從DeepSeek V4與華為昇騰協(xié)同看全棧自主之路

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)2026年4月24日,DeepSeek V4 - Pro和DeepSeek V4 - Flash正式發(fā)布并開源
    的頭像 發(fā)表于 04-25 07:02 ?1.3w次閱讀

    進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    計算工作負載、釋放百億億次計算能力和萬億參數(shù)人工智能模型的全部潛力提供關(guān)鍵基礎(chǔ)。 NVLink釋放數(shù)萬億參數(shù)AI模型加速性能,顯著提升大型多GPU系統(tǒng)的可擴展性。每個英偉達
    發(fā)表于 05-13 17:16

    在Ubuntu上使用Nvidia GPU訓(xùn)練模型

    問題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時候,沒有問題,過一會再訓(xùn)練出現(xiàn)非常卡頓,使用nvidia-smi查看發(fā)現(xiàn),顯示GPU
    發(fā)表于 01-03 08:24

    介紹yolo v4版的安裝與測試

    nvidia公司出品的低成本jetson nano,利用CUDA實現(xiàn)GPU加速。文章目錄1. 準備工作2. 安裝YOLO3. 測試參考文獻1. 準備工作jetson nano 4G內(nèi)存
    發(fā)表于 02-17 07:06

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,
    的頭像 發(fā)表于 08-28 11:02 ?4538次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>測試分析

    NVIDIA RTX PRO 4000 Blackwell GPU性能測試

    Generation 的全面超越。那么,這款劃時代的專業(yè) GPU 在真實應(yīng)用場景中的表現(xiàn)究竟如何?今天,我們將通過深度實測,為您揭曉 NVIDIA RTX PRO 4000 Blackwell 相較于前代產(chǎn)品的性能躍遷。
    的頭像 發(fā)表于 12-29 15:30 ?2035次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>性能測試

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 5000 BlackwellNVIDIA RTX 5000 Ada Generation 的升級迭代產(chǎn)品,其各項核心指標均針對 GPU
    的頭像 發(fā)表于 01-06 09:51 ?4693次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>的深度評測

    海光信息DCU平臺完成對DeepSeek V4模型極速適配

      4月24日,深度求索正式發(fā)布并開源DeepSeek V4。海光DCU同步完成對DeepSeek V4的Day0適配,以“
    的頭像 發(fā)表于 04-24 17:32 ?1855次閱讀

    長江計算G940K V2超節(jié)點服務(wù)器完成對DeepSeek V4模型極速適配

      4月24日,備受行業(yè)關(guān)注的大模型產(chǎn)品DeepSeek V4正式發(fā)布。烽火通信旗下長江計算憑借深厚的技術(shù)積累與前瞻布局,以G940K V2
    的頭像 發(fā)表于 04-24 17:40 ?2002次閱讀

    壁仞科技壁礪166系列GPU產(chǎn)品率先支持DeepSeek-V4模型

    4月24日,深度求索團隊宣布全新系列模型 DeepSeek-V4 的預(yù)覽版本正式上線并同步開源。依托成熟的BIRENSUPA軟件棧與自研GPU全棧智能體“AIModelMaster”,
    的頭像 發(fā)表于 04-28 14:04 ?1400次閱讀
    壁仞科技壁礪166系列<b class='flag-5'>GPU</b>產(chǎn)品率先支持<b class='flag-5'>DeepSeek-V4</b><b class='flag-5'>模型</b>

    燧原科技L600 FP8原生適配DeepSeek-V4-Pro/Flash模型

    2026年4月24日,深度求索(DeepSeek)正式發(fā)布并開源新一代旗艦大模型DeepSeek?V4,同步推出1.6T
    的頭像 發(fā)表于 04-28 15:19 ?615次閱讀

    軟通華方超節(jié)點服務(wù)器產(chǎn)品全面適配DeepSeek V4模型

    4月24日,隨著DeepSeek V4模型的正式開源與發(fā)布,國產(chǎn)算力生態(tài)迎來關(guān)鍵拼圖。軟通動力旗下軟通華方迅速響應(yīng),依托“鯤鵬+昇騰”雙引擎架構(gòu),基于核心產(chǎn)品A800T A3/超強A
    的頭像 發(fā)表于 04-28 16:34 ?411次閱讀

    登臨科技GPU+架構(gòu)深度適配DeepSeek-V4模型

    DeepSeek-V4-Flash,全系標配百萬token長上下文能力,開啟大模型長文本普惠新時代。同日,開源社區(qū)已提交適配DeepSeek-V4的代碼。 作為國產(chǎn)高性能通用GPU
    的頭像 發(fā)表于 04-29 16:07 ?2036次閱讀
    巴楚县| 太和县| 河间市| 十堰市| 新郑市| 兴仁县| 米泉市| 调兵山市| 台中市| 宁强县| 杂多县| 旬阳县| 成都市| 雷山县| 舟曲县| 宜城市| 建湖县| 堆龙德庆县| 探索| 外汇| 江西省| 莲花县| 孟村| 宿迁市| 五寨县| 西充县| 夏津县| 营山县| 大荔县| 元朗区| 阳泉市| 马鞍山市| 鹤山市| 麟游县| 青田县| 东莞市| 南昌市| 平凉市| 万安县| 河东区| 宁夏|