日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Blackwell平臺(tái)助力企業(yè)實(shí)現(xiàn)token成本的大幅降低

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2026-03-02 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Baseten、DeepInfra、Fireworks AI 和 Together AI 正通過(guò)在 NVIDIA Blackwell 平臺(tái)上運(yùn)行優(yōu)化的推理堆棧,幫助各行業(yè)降低每 token 成本。

一次醫(yī)療領(lǐng)域的診斷洞察、一次互動(dòng)游戲中角色的對(duì)話(huà)、一次來(lái)自客服代理的自主解決方案——這些由 AI 驅(qū)動(dòng)的交互,皆基于同一智能單元:一個(gè)token。

要擴(kuò)展這些 AI 交互,企業(yè)需要考慮是否能夠承擔(dān)更多 token 成本。答案在于更優(yōu)的 Token 經(jīng)濟(jì)學(xué)(tokenomics)——其核心在于降低每個(gè) token 的成本。這種下降趨勢(shì)正在各行各業(yè)中顯現(xiàn)。

近期麻省理工學(xué)院研究發(fā)現(xiàn),基礎(chǔ)設(shè)施與算法效率的提升使前沿水平性能的推理成本正逐年降低至原來(lái)的 1/10。

要理解基礎(chǔ)設(shè)施效率如何提升 tokenomics,可以把它類(lèi)比為一臺(tái)高速印刷機(jī)。如果這臺(tái)印刷機(jī)只需在油墨、能源和設(shè)備本身上進(jìn)行小幅追加投資,就能實(shí)現(xiàn) 10 倍的產(chǎn)出,那么每頁(yè)印刷成本自然會(huì)下降。同理,對(duì) AI 基礎(chǔ)設(shè)施的投資如果能帶來(lái)遠(yuǎn)超預(yù)期的 token 產(chǎn)出,就會(huì)顯著降低每個(gè) token 的成本。

當(dāng) token 的產(chǎn)出增長(zhǎng)超過(guò)基礎(chǔ)設(shè)施成本增長(zhǎng)時(shí),每個(gè) token 的成本就會(huì)下降。

正因如此,包括 Baseten、DeepInfra、Fireworks AI 和 Together AI 在內(nèi)的領(lǐng)先推理服務(wù)提供商紛紛采用NVIDIA Blackwell 平臺(tái)。Blackwell 平臺(tái)幫助這些企業(yè)將每個(gè) token 的成本最多可降至 NVIDIA Hopper 平臺(tái)的 1/10。

這些提供商托管著先進(jìn)的開(kāi)源模型,其智能水平現(xiàn)已達(dá)前沿級(jí)別。通過(guò)融合開(kāi)源的前沿智能、NVIDIA Blackwell 極致的軟硬件協(xié)同設(shè)計(jì)以及自主優(yōu)化的推理堆棧,這些服務(wù)商正助力各行各業(yè)的企業(yè)實(shí)現(xiàn) token 成本的大幅降低。

醫(yī)療領(lǐng)域——Baseten 與 Sully.ai 將 AI 推理成本降低 9 成

在醫(yī)療領(lǐng)域,諸如醫(yī)療編碼、病歷記錄和保險(xiǎn)表格管理等繁瑣耗時(shí)的任務(wù),會(huì)占用醫(yī)生與患者交流的時(shí)間。

Sully.ai通過(guò)開(kāi)發(fā)能夠處理醫(yī)療編碼和記錄筆記等常規(guī)任務(wù)的”AI 員工”來(lái)解決這一問(wèn)題。隨著公司平臺(tái)規(guī)模擴(kuò)大,其自有的閉源模型面臨著三大瓶頸:實(shí)時(shí)臨床工作流程中的延遲不可預(yù)測(cè)、推理成本增長(zhǎng)速度比收入增長(zhǎng)更快,以及對(duì)模型質(zhì)量和更新的控制不足。

Sully.ai 打造 AI 員工,幫助醫(yī)生處理日常事務(wù)。

為突破這些瓶頸,Sully.ai 采用了 Baseten 的模型 API,該 API 可在 NVIDIA Blackwell GPU 上部署 gpt-oss-120b 等開(kāi)源模型。Baseten 采用低精度NVFP4數(shù)據(jù)格式、NVIDIA TensorRT-LLM 庫(kù)及NVIDIA Dynamo推理框架以實(shí)現(xiàn)優(yōu)化的推理。該公司選擇 NVIDIA Blackwell 運(yùn)行 Model API,因其每美元投入的吞吐量較 NVIDIA Hopper 平臺(tái)提升 2.5 倍。

結(jié)果顯示,Sully.ai的推理成本因此降低了 90%,成本降低至原來(lái)的閉源實(shí)現(xiàn)方案的 1/10。同時(shí)在病歷生成等關(guān)鍵工作流的響應(yīng)速度提升了 65%。該公司已為醫(yī)生節(jié)省了超過(guò) 3000 萬(wàn)分鐘的時(shí)間,這些時(shí)間原本耗費(fèi)在數(shù)據(jù)錄入及其他手動(dòng)操作上。

游戲領(lǐng)域——DeepInfra 與 Latitude 將每 token 成本降至原來(lái)的 1/4

Latitude正通過(guò)其 AI 冒險(xiǎn)故事游戲AI Dungeon及即將推出的 AI 驅(qū)動(dòng)角色扮演游戲平臺(tái) Voyage,打造 AI 原生游戲的未來(lái)。玩家可在這些平臺(tái)中自由創(chuàng)建或探索世界,選擇任何行動(dòng),書(shū)寫(xiě)專(zhuān)屬故事。

該公司的平臺(tái)采用大型語(yǔ)言模型響應(yīng)玩家操作——但這帶來(lái)了擴(kuò)展難題,因?yàn)槊看瓮婕也僮鞫紩?huì)觸發(fā)推理請(qǐng)求。成本隨玩家參與度增長(zhǎng)而攀升,而響應(yīng)速度必須保持足夠快才能確保游戲體驗(yàn)的流暢性。

Latitude 開(kāi)發(fā)了一款名為 AI Dungeon 的文字冒險(xiǎn)故事游戲,該游戲能在玩家探索動(dòng)態(tài)故事時(shí)實(shí)時(shí)生成敘事文本與圖像。

Latitude 運(yùn)行的大型開(kāi)源模型基于由 NVIDIA Blackwell GPU 和 TensorRT-LLM 驅(qū)動(dòng)的DeepInfra 推理平臺(tái)。對(duì)于大規(guī)?;旌蠈?zhuān)家模型(MoE),DeepInfra 將每百萬(wàn) token 的成本從 NVIDIA Hopper 平臺(tái)的 0.20 美元降至 Blackwell 平臺(tái)的 0.10 美元。通過(guò)遷移至 Blackwell 原生低精度 NVFP4 格式,其成本進(jìn)一步降至每百萬(wàn) token 0.05 美元——現(xiàn)每 token 成本降至之前的 1/4,同時(shí)保持了客戶(hù)期望的準(zhǔn)確性。

在 DeepInfra 基于 Blackwell 的平臺(tái)上運(yùn)行這些大型 MoE 模型,使 Latitude 能夠以經(jīng)濟(jì)高效的方式提供快速可靠的響應(yīng)。DeepInfra 的推理平臺(tái)在保證性能的同時(shí),還能穩(wěn)定應(yīng)對(duì)流量峰值,讓 Latitude 得以部署更強(qiáng)大的模型而不影響玩家體驗(yàn)。

智能體聊天代理——Fireworks AI 與 Sentient Foundation 合作,將 AI 成本降低高達(dá) 50%

Sentient Labs 致力于匯聚 AI 開(kāi)發(fā)者,共同構(gòu)建強(qiáng)大的開(kāi)源推理 AI 系統(tǒng)。其目標(biāo)是通過(guò)在安全自主性、智能體架構(gòu)和持續(xù)學(xué)習(xí)領(lǐng)域開(kāi)展研究,加速 AI 解決更復(fù)雜的推理難題。

Sentient Labs 的首款應(yīng)用 Sentient Chat 能夠編排復(fù)雜的多智能體工作流,并整合來(lái)自社區(qū)的十余個(gè)專(zhuān)業(yè) AI 智能體。正因如此,Sentient Chat 面臨著巨大的計(jì)算需求——單個(gè)用戶(hù)查詢(xún)可能觸發(fā)一系列自主交互,通常會(huì)導(dǎo)致高昂的基礎(chǔ)設(shè)施開(kāi)銷(xiāo)。

為應(yīng)對(duì)這種規(guī)模和復(fù)雜性任務(wù),Sentient 采用基于 NVIDIA Blackwell 運(yùn)行的 Fireworks AI 推理平臺(tái)。借助 Fireworks 針對(duì) Blackwell 優(yōu)化的推理堆棧,Sentient 的成本效率相比之前基于 Hopper 的部署方案提升了 25% 到 50%。

Sentient Chat 編排復(fù)雜的多智能體工作流,并整合來(lái)自社區(qū)的十余個(gè)專(zhuān)業(yè) AI 智能體。

更高的每 GPU 吞吐量使該公司能夠以相同成本服務(wù)更多并發(fā)用戶(hù)。該平臺(tái)的可擴(kuò)展性支持了病毒式傳播的用戶(hù)增長(zhǎng)——24 小時(shí)內(nèi)新增 180 萬(wàn)候補(bǔ)用戶(hù),單周處理 560 萬(wàn)次查詢(xún),同時(shí)保持了穩(wěn)定的低延遲表現(xiàn)。

客戶(hù)服務(wù)——Together AI 與 Decagon 實(shí)現(xiàn)成本降至原來(lái)的 1/6

使用語(yǔ)音 AI 的客服服務(wù)通話(huà)往往令人感到挫敗,因?yàn)槟呐率禽p微的延遲都可能導(dǎo)致用戶(hù)打斷語(yǔ)音助手、掛斷電話(huà)或失去信任。

Decagon 為企業(yè)客戶(hù)支持構(gòu)建 AI 智能體,其中 AI 驅(qū)動(dòng)的語(yǔ)音服務(wù)要求最為苛刻。Decagon 需要一套能夠在不可預(yù)測(cè)的流量負(fù)載下實(shí)現(xiàn)亞秒級(jí)響應(yīng)的基礎(chǔ)設(shè)施,并具備支持全天候語(yǔ)音部署的 tokenomics。

Decagon 為客戶(hù)支持構(gòu)建 AI 智能體,其中語(yǔ)音服務(wù)要求最為苛刻。

Together AI 在 NVIDIA Blackwell GPU 上為 Decagon 的多模型語(yǔ)音技術(shù)棧運(yùn)行生產(chǎn)級(jí)推理。兩家公司在多項(xiàng)關(guān)鍵優(yōu)化上展開(kāi)合作:采用推測(cè)解碼技術(shù),通過(guò)訓(xùn)練小型模型實(shí)現(xiàn)更快的響應(yīng)速度,同時(shí)在后臺(tái)由大模型驗(yàn)證準(zhǔn)確性;緩存重復(fù)對(duì)話(huà)元素以加速響應(yīng);構(gòu)建自動(dòng)擴(kuò)展機(jī)制,在應(yīng)對(duì)流量激增時(shí)保持性能穩(wěn)定。

Decagon 即使在每條查詢(xún)處理數(shù)千個(gè) token 的情況下,也能實(shí)現(xiàn)低于 400 毫秒的響應(yīng)時(shí)間。與使用閉源專(zhuān)有模型相比,每條查詢(xún)的成本(即完成一次語(yǔ)音交互的總成本)降低至原來(lái)的 1/6。這一成果得益于 Decagon 的多模型方案(部分采用開(kāi)源模型,部分在 NVIDIA GPU 上自主訓(xùn)練)、NVIDIA Blackwell 芯片的極致協(xié)同設(shè)計(jì)以及 Together 平臺(tái)的優(yōu)化推理堆棧的協(xié)同作用。

通過(guò)極致協(xié)同設(shè)計(jì)優(yōu)化 tokenomics

在醫(yī)療、游戲和客戶(hù)服務(wù)等領(lǐng)域取得的顯著成本節(jié)省,得益于 NVIDIA Blackwell 的高性能。NVIDIA Grace Blackwell 機(jī)架式解決方案進(jìn)一步擴(kuò)大了這一優(yōu)勢(shì),其推理 MoE 模型的每 token 成本降至 NVIDIA Hopper 的 1/10,實(shí)現(xiàn)了成本的突破性降低。

NVIDIA 涵蓋了計(jì)算、網(wǎng)絡(luò)和軟件等跨各個(gè)層級(jí)堆棧的極致協(xié)同設(shè)計(jì),以及其合作伙伴生態(tài)系統(tǒng),正在大幅度降低每 token 成本。

這一勢(shì)頭延續(xù)至NVIDIA Rubin 平臺(tái)上——通過(guò)將六款全新芯片集成于一臺(tái) AI 超級(jí)計(jì)算機(jī)中,其性能較 Blackwell 提升 10 倍,token 成本降至 Blackwell 的 1/10。

探索NVIDIA 的全棧推理平臺(tái),深入了解其如何為 AI 推理提供更優(yōu)的 tokenomics。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110139
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41315

    瀏覽量

    302690
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    4368

    瀏覽量

    46464

原文標(biāo)題:領(lǐng)先推理提供商借助基于 NVIDIA Blackwell 平臺(tái)的開(kāi)源模型,將 AI 成本削減至 1/10

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    能夠降低Token成本的因素有哪些

    傳統(tǒng)數(shù)據(jù)中心過(guò)去主要用于數(shù)據(jù)的存儲(chǔ)、檢索與處理。但在生成式 AI 與代理式 AI 時(shí)代,這些設(shè)施已演變?yōu)?AI Token 工廠(chǎng)。隨著 AI 推理成為其核心工作負(fù)載,它們的主要產(chǎn)出已轉(zhuǎn)變?yōu)橐?Token 形式制造的智能。
    的頭像 發(fā)表于 04-27 15:45 ?595次閱讀
    能夠<b class='flag-5'>降低</b>每<b class='flag-5'>Token</b><b class='flag-5'>成本</b>的因素有哪些

    告別高成本!新一代極簡(jiǎn)光端機(jī),性能對(duì)標(biāo),價(jià)格直降近50%

    拉滿(mǎn):助力降本增效 成本優(yōu)勢(shì)直觀突出,實(shí)現(xiàn)全鏈條優(yōu)化:硬件上,核心器件減少30%-40%,省去獨(dú)立串化器、解串器及外掛CPLD,大幅降低采購(gòu)
    發(fā)表于 04-23 10:09

    NVIDIA cuDF和cuVS獲全球領(lǐng)先數(shù)據(jù)平臺(tái)采用

    企業(yè)每年產(chǎn)生數(shù)百 ZB (Zettabyte) 的數(shù)據(jù),并在爭(zhēng)相將這些信息轉(zhuǎn)化為洞察。NVIDIA cuDF 和 cuVS 作為基于 NVIDIA CUDA-X 構(gòu)建的加速數(shù)據(jù)庫(kù),正在被各行業(yè)的數(shù)據(jù)
    的頭像 發(fā)表于 03-19 15:46 ?486次閱讀

    NVIDIA DRIVE AV軟件平臺(tái)與Halos架構(gòu)助力梅賽德斯奔馳CLA車(chē)型獲得最高安全評(píng)分

    NVIDIA DRIVE AV 軟件平臺(tái)NVIDIA Halos 架構(gòu)助力 CLA 車(chē)型獲得最高安全評(píng)分(top safety rating)。
    的頭像 發(fā)表于 02-02 09:28 ?2383次閱讀

    NVIDIA DGX SuperPOD為Rubin平臺(tái)橫向擴(kuò)展提供藍(lán)圖

    NVIDIA DGX Rubin 系統(tǒng)整合了 NVIDIA 在計(jì)算、網(wǎng)絡(luò)和軟件領(lǐng)域的最新突破,將推理 token 成本降至 NVIDIA
    的頭像 發(fā)表于 01-14 09:14 ?898次閱讀

    NVIDIA在CES 2026發(fā)布新一代Rubin AI平臺(tái)

    通過(guò)跨 NVIDIA Vera CPU、Rubin GPU、NVLink 6 交換機(jī)、ConnectX-9 SuperNIC、BlueField-4 DPU 和 Spectrum-6 以太網(wǎng)交換機(jī)的極致協(xié)同設(shè)計(jì),大幅縮短訓(xùn)練時(shí)間,降低
    的頭像 發(fā)表于 01-09 10:23 ?834次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)

    NVIDIA RTX PRO 5000 BlackwellNVIDIA RTX 5000 Ada Generation 的升級(jí)迭代產(chǎn)品,其各項(xiàng)核心指標(biāo)均針對(duì) GPU 加速工作流的高性能
    的頭像 發(fā)表于 01-06 09:51 ?4298次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 <b class='flag-5'>Blackwell</b> GPU的深度評(píng)測(cè)

    NVIDIA RTX PRO 4000 Blackwell GPU性能測(cè)試

    作為 NVIDIA 專(zhuān)業(yè)顯卡產(chǎn)品線(xiàn)中單槽性能的巔峰之作,NVIDIA RTX PRO 4000 Blackwell 在各項(xiàng)核心指標(biāo)上均實(shí)現(xiàn)對(duì)前代 N
    的頭像 發(fā)表于 12-29 15:30 ?1920次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 <b class='flag-5'>Blackwell</b> GPU性能測(cè)試

    NVIDIA RTX PRO 5000 72GB Blackwell GPU現(xiàn)已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 現(xiàn)已全面上市,將基于 NVIDIA Blackwell 架構(gòu)的強(qiáng)大代理式與生成式 AI 能力帶到更多桌面和
    的頭像 發(fā)表于 12-24 10:32 ?1128次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 72GB <b class='flag-5'>Blackwell</b> GPU現(xiàn)已全面上市

    NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試

    越來(lái)越多的應(yīng)用正在使用 AI 加速,而無(wú)論工作站的大小或形態(tài)如何,都有越來(lái)越多的用戶(hù)需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發(fā)表于 11-28 09:39 ?7120次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 <b class='flag-5'>Blackwell</b> GPU性能測(cè)試

    NVIDIA DGX Spark助力構(gòu)建自己的AI模型

    作為個(gè)人 AI 超級(jí)計(jì)算機(jī),為世界各地的 AI 研究人員、數(shù)據(jù)科學(xué)家和學(xué)生提供 NVIDIA Grace Blackwell 平臺(tái)的強(qiáng)大功能。
    的頭像 發(fā)表于 11-21 09:25 ?1586次閱讀
    <b class='flag-5'>NVIDIA</b> DGX Spark<b class='flag-5'>助力</b>構(gòu)建自己的AI模型

    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)
    的頭像 發(fā)表于 08-30 15:47 ?4730次閱讀
    DeepSeek R1 MTP在TensorRT-LLM中的<b class='flag-5'>實(shí)現(xiàn)</b>與優(yōu)化

    NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析

    今天我們帶來(lái)全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測(cè)試,對(duì)比上一代產(chǎn)品
    的頭像 發(fā)表于 08-28 11:02 ?4431次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 <b class='flag-5'>Blackwell</b> GPU測(cè)試分析

    OpenAI與NVIDIA共同開(kāi)發(fā)全新開(kāi)放模型

    NVIDIA 為 gpt-oss-120b 帶來(lái)業(yè)界領(lǐng)先性能,在單個(gè) NVIDIA Blackwell 系統(tǒng)上實(shí)現(xiàn)每秒 150 萬(wàn)個(gè) Token
    的頭像 發(fā)表于 08-12 15:11 ?1750次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個(gè) NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場(chǎng)景中的性能紀(jì)錄:在 GTC 2025
    的頭像 發(fā)表于 07-02 19:31 ?3621次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄
    恩施市| 桐柏县| 民勤县| 蒙阴县| 乌拉特中旗| 黔东| 大方县| 贵州省| 镇远县| 商河县| 特克斯县| 中方县| 汕尾市| 通州市| 汝城县| 宜兰市| 长兴县| 凯里市| 申扎县| 柞水县| 东光县| 铅山县| 鹤庆县| 台山市| 巨野县| 巴林右旗| 临猗县| 阳城县| 中西区| 泸西县| 会泽县| 延寿县| 安泽县| 开阳县| 惠水县| 邮箱| 丰宁| 巫溪县| 吉隆县| 鱼台县| 安泽县|