Baseten、DeepInfra、Fireworks AI 和 Together AI 正通過(guò)在 NVIDIA Blackwell 平臺(tái)上運(yùn)行優(yōu)化的推理堆棧,幫助各行業(yè)降低每 token 成本。
一次醫(yī)療領(lǐng)域的診斷洞察、一次互動(dòng)游戲中角色的對(duì)話(huà)、一次來(lái)自客服代理的自主解決方案——這些由 AI 驅(qū)動(dòng)的交互,皆基于同一智能單元:一個(gè)token。
要擴(kuò)展這些 AI 交互,企業(yè)需要考慮是否能夠承擔(dān)更多 token 成本。答案在于更優(yōu)的 Token 經(jīng)濟(jì)學(xué)(tokenomics)——其核心在于降低每個(gè) token 的成本。這種下降趨勢(shì)正在各行各業(yè)中顯現(xiàn)。
近期麻省理工學(xué)院研究發(fā)現(xiàn),基礎(chǔ)設(shè)施與算法效率的提升使前沿水平性能的推理成本正逐年降低至原來(lái)的 1/10。
要理解基礎(chǔ)設(shè)施效率如何提升 tokenomics,可以把它類(lèi)比為一臺(tái)高速印刷機(jī)。如果這臺(tái)印刷機(jī)只需在油墨、能源和設(shè)備本身上進(jìn)行小幅追加投資,就能實(shí)現(xiàn) 10 倍的產(chǎn)出,那么每頁(yè)印刷成本自然會(huì)下降。同理,對(duì) AI 基礎(chǔ)設(shè)施的投資如果能帶來(lái)遠(yuǎn)超預(yù)期的 token 產(chǎn)出,就會(huì)顯著降低每個(gè) token 的成本。
當(dāng) token 的產(chǎn)出增長(zhǎng)超過(guò)基礎(chǔ)設(shè)施成本增長(zhǎng)時(shí),每個(gè) token 的成本就會(huì)下降。
正因如此,包括 Baseten、DeepInfra、Fireworks AI 和 Together AI 在內(nèi)的領(lǐng)先推理服務(wù)提供商紛紛采用NVIDIA Blackwell 平臺(tái)。Blackwell 平臺(tái)幫助這些企業(yè)將每個(gè) token 的成本最多可降至 NVIDIA Hopper 平臺(tái)的 1/10。
這些提供商托管著先進(jìn)的開(kāi)源模型,其智能水平現(xiàn)已達(dá)前沿級(jí)別。通過(guò)融合開(kāi)源的前沿智能、NVIDIA Blackwell 極致的軟硬件協(xié)同設(shè)計(jì)以及自主優(yōu)化的推理堆棧,這些服務(wù)商正助力各行各業(yè)的企業(yè)實(shí)現(xiàn) token 成本的大幅降低。
醫(yī)療領(lǐng)域——Baseten 與 Sully.ai 將 AI 推理成本降低 9 成
在醫(yī)療領(lǐng)域,諸如醫(yī)療編碼、病歷記錄和保險(xiǎn)表格管理等繁瑣耗時(shí)的任務(wù),會(huì)占用醫(yī)生與患者交流的時(shí)間。
Sully.ai通過(guò)開(kāi)發(fā)能夠處理醫(yī)療編碼和記錄筆記等常規(guī)任務(wù)的”AI 員工”來(lái)解決這一問(wèn)題。隨著公司平臺(tái)規(guī)模擴(kuò)大,其自有的閉源模型面臨著三大瓶頸:實(shí)時(shí)臨床工作流程中的延遲不可預(yù)測(cè)、推理成本增長(zhǎng)速度比收入增長(zhǎng)更快,以及對(duì)模型質(zhì)量和更新的控制不足。
Sully.ai 打造 AI 員工,幫助醫(yī)生處理日常事務(wù)。
為突破這些瓶頸,Sully.ai 采用了 Baseten 的模型 API,該 API 可在 NVIDIA Blackwell GPU 上部署 gpt-oss-120b 等開(kāi)源模型。Baseten 采用低精度NVFP4數(shù)據(jù)格式、NVIDIA TensorRT-LLM 庫(kù)及NVIDIA Dynamo推理框架以實(shí)現(xiàn)優(yōu)化的推理。該公司選擇 NVIDIA Blackwell 運(yùn)行 Model API,因其每美元投入的吞吐量較 NVIDIA Hopper 平臺(tái)提升 2.5 倍。
結(jié)果顯示,Sully.ai的推理成本因此降低了 90%,成本降低至原來(lái)的閉源實(shí)現(xiàn)方案的 1/10。同時(shí)在病歷生成等關(guān)鍵工作流的響應(yīng)速度提升了 65%。該公司已為醫(yī)生節(jié)省了超過(guò) 3000 萬(wàn)分鐘的時(shí)間,這些時(shí)間原本耗費(fèi)在數(shù)據(jù)錄入及其他手動(dòng)操作上。
游戲領(lǐng)域——DeepInfra 與 Latitude 將每 token 成本降至原來(lái)的 1/4
Latitude正通過(guò)其 AI 冒險(xiǎn)故事游戲AI Dungeon及即將推出的 AI 驅(qū)動(dòng)角色扮演游戲平臺(tái) Voyage,打造 AI 原生游戲的未來(lái)。玩家可在這些平臺(tái)中自由創(chuàng)建或探索世界,選擇任何行動(dòng),書(shū)寫(xiě)專(zhuān)屬故事。
該公司的平臺(tái)采用大型語(yǔ)言模型響應(yīng)玩家操作——但這帶來(lái)了擴(kuò)展難題,因?yàn)槊看瓮婕也僮鞫紩?huì)觸發(fā)推理請(qǐng)求。成本隨玩家參與度增長(zhǎng)而攀升,而響應(yīng)速度必須保持足夠快才能確保游戲體驗(yàn)的流暢性。
Latitude 開(kāi)發(fā)了一款名為 AI Dungeon 的文字冒險(xiǎn)故事游戲,該游戲能在玩家探索動(dòng)態(tài)故事時(shí)實(shí)時(shí)生成敘事文本與圖像。
Latitude 運(yùn)行的大型開(kāi)源模型基于由 NVIDIA Blackwell GPU 和 TensorRT-LLM 驅(qū)動(dòng)的DeepInfra 推理平臺(tái)。對(duì)于大規(guī)?;旌蠈?zhuān)家模型(MoE),DeepInfra 將每百萬(wàn) token 的成本從 NVIDIA Hopper 平臺(tái)的 0.20 美元降至 Blackwell 平臺(tái)的 0.10 美元。通過(guò)遷移至 Blackwell 原生低精度 NVFP4 格式,其成本進(jìn)一步降至每百萬(wàn) token 0.05 美元——現(xiàn)每 token 成本降至之前的 1/4,同時(shí)保持了客戶(hù)期望的準(zhǔn)確性。
在 DeepInfra 基于 Blackwell 的平臺(tái)上運(yùn)行這些大型 MoE 模型,使 Latitude 能夠以經(jīng)濟(jì)高效的方式提供快速可靠的響應(yīng)。DeepInfra 的推理平臺(tái)在保證性能的同時(shí),還能穩(wěn)定應(yīng)對(duì)流量峰值,讓 Latitude 得以部署更強(qiáng)大的模型而不影響玩家體驗(yàn)。
智能體聊天代理——Fireworks AI 與 Sentient Foundation 合作,將 AI 成本降低高達(dá) 50%
Sentient Labs 致力于匯聚 AI 開(kāi)發(fā)者,共同構(gòu)建強(qiáng)大的開(kāi)源推理 AI 系統(tǒng)。其目標(biāo)是通過(guò)在安全自主性、智能體架構(gòu)和持續(xù)學(xué)習(xí)領(lǐng)域開(kāi)展研究,加速 AI 解決更復(fù)雜的推理難題。
Sentient Labs 的首款應(yīng)用 Sentient Chat 能夠編排復(fù)雜的多智能體工作流,并整合來(lái)自社區(qū)的十余個(gè)專(zhuān)業(yè) AI 智能體。正因如此,Sentient Chat 面臨著巨大的計(jì)算需求——單個(gè)用戶(hù)查詢(xún)可能觸發(fā)一系列自主交互,通常會(huì)導(dǎo)致高昂的基礎(chǔ)設(shè)施開(kāi)銷(xiāo)。
為應(yīng)對(duì)這種規(guī)模和復(fù)雜性任務(wù),Sentient 采用基于 NVIDIA Blackwell 運(yùn)行的 Fireworks AI 推理平臺(tái)。借助 Fireworks 針對(duì) Blackwell 優(yōu)化的推理堆棧,Sentient 的成本效率相比之前基于 Hopper 的部署方案提升了 25% 到 50%。
Sentient Chat 編排復(fù)雜的多智能體工作流,并整合來(lái)自社區(qū)的十余個(gè)專(zhuān)業(yè) AI 智能體。
更高的每 GPU 吞吐量使該公司能夠以相同成本服務(wù)更多并發(fā)用戶(hù)。該平臺(tái)的可擴(kuò)展性支持了病毒式傳播的用戶(hù)增長(zhǎng)——24 小時(shí)內(nèi)新增 180 萬(wàn)候補(bǔ)用戶(hù),單周處理 560 萬(wàn)次查詢(xún),同時(shí)保持了穩(wěn)定的低延遲表現(xiàn)。
客戶(hù)服務(wù)——Together AI 與 Decagon 實(shí)現(xiàn)成本降至原來(lái)的 1/6
使用語(yǔ)音 AI 的客服服務(wù)通話(huà)往往令人感到挫敗,因?yàn)槟呐率禽p微的延遲都可能導(dǎo)致用戶(hù)打斷語(yǔ)音助手、掛斷電話(huà)或失去信任。
Decagon 為企業(yè)客戶(hù)支持構(gòu)建 AI 智能體,其中 AI 驅(qū)動(dòng)的語(yǔ)音服務(wù)要求最為苛刻。Decagon 需要一套能夠在不可預(yù)測(cè)的流量負(fù)載下實(shí)現(xiàn)亞秒級(jí)響應(yīng)的基礎(chǔ)設(shè)施,并具備支持全天候語(yǔ)音部署的 tokenomics。
Decagon 為客戶(hù)支持構(gòu)建 AI 智能體,其中語(yǔ)音服務(wù)要求最為苛刻。
Together AI 在 NVIDIA Blackwell GPU 上為 Decagon 的多模型語(yǔ)音技術(shù)棧運(yùn)行生產(chǎn)級(jí)推理。兩家公司在多項(xiàng)關(guān)鍵優(yōu)化上展開(kāi)合作:采用推測(cè)解碼技術(shù),通過(guò)訓(xùn)練小型模型實(shí)現(xiàn)更快的響應(yīng)速度,同時(shí)在后臺(tái)由大模型驗(yàn)證準(zhǔn)確性;緩存重復(fù)對(duì)話(huà)元素以加速響應(yīng);構(gòu)建自動(dòng)擴(kuò)展機(jī)制,在應(yīng)對(duì)流量激增時(shí)保持性能穩(wěn)定。
Decagon 即使在每條查詢(xún)處理數(shù)千個(gè) token 的情況下,也能實(shí)現(xiàn)低于 400 毫秒的響應(yīng)時(shí)間。與使用閉源專(zhuān)有模型相比,每條查詢(xún)的成本(即完成一次語(yǔ)音交互的總成本)降低至原來(lái)的 1/6。這一成果得益于 Decagon 的多模型方案(部分采用開(kāi)源模型,部分在 NVIDIA GPU 上自主訓(xùn)練)、NVIDIA Blackwell 芯片的極致協(xié)同設(shè)計(jì)以及 Together 平臺(tái)的優(yōu)化推理堆棧的協(xié)同作用。
通過(guò)極致協(xié)同設(shè)計(jì)優(yōu)化 tokenomics
在醫(yī)療、游戲和客戶(hù)服務(wù)等領(lǐng)域取得的顯著成本節(jié)省,得益于 NVIDIA Blackwell 的高性能。NVIDIA Grace Blackwell 機(jī)架式解決方案進(jìn)一步擴(kuò)大了這一優(yōu)勢(shì),其推理 MoE 模型的每 token 成本降至 NVIDIA Hopper 的 1/10,實(shí)現(xiàn)了成本的突破性降低。
NVIDIA 涵蓋了計(jì)算、網(wǎng)絡(luò)和軟件等跨各個(gè)層級(jí)堆棧的極致協(xié)同設(shè)計(jì),以及其合作伙伴生態(tài)系統(tǒng),正在大幅度降低每 token 成本。
這一勢(shì)頭延續(xù)至NVIDIA Rubin 平臺(tái)上——通過(guò)將六款全新芯片集成于一臺(tái) AI 超級(jí)計(jì)算機(jī)中,其性能較 Blackwell 提升 10 倍,token 成本降至 Blackwell 的 1/10。
探索NVIDIA 的全棧推理平臺(tái),深入了解其如何為 AI 推理提供更優(yōu)的 tokenomics。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5696瀏覽量
110139 -
AI
+關(guān)注
關(guān)注
91文章
41315瀏覽量
302690 -
開(kāi)源
+關(guān)注
關(guān)注
3文章
4368瀏覽量
46464
原文標(biāo)題:領(lǐng)先推理提供商借助基于 NVIDIA Blackwell 平臺(tái)的開(kāi)源模型,將 AI 成本削減至 1/10
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
能夠降低每Token成本的因素有哪些
告別高成本!新一代極簡(jiǎn)光端機(jī),性能對(duì)標(biāo),價(jià)格直降近50%
NVIDIA cuDF和cuVS獲全球領(lǐng)先數(shù)據(jù)平臺(tái)采用
NVIDIA DRIVE AV軟件平臺(tái)與Halos架構(gòu)助力梅賽德斯奔馳CLA車(chē)型獲得最高安全評(píng)分
NVIDIA DGX SuperPOD為Rubin平臺(tái)橫向擴(kuò)展提供藍(lán)圖
NVIDIA在CES 2026發(fā)布新一代Rubin AI平臺(tái)
NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)
NVIDIA RTX PRO 4000 Blackwell GPU性能測(cè)試
NVIDIA RTX PRO 5000 72GB Blackwell GPU現(xiàn)已全面上市
NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試
NVIDIA DGX Spark助力構(gòu)建自己的AI模型
DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化
NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析
OpenAI與NVIDIA共同開(kāi)發(fā)全新開(kāi)放模型
NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄
NVIDIA Blackwell平臺(tái)助力企業(yè)實(shí)現(xiàn)token成本的大幅降低
評(píng)論