国产婷婷一区,久草综合视频网站上

Baseten、DeepInfra、Fireworks AI 和 Together AI 正通過(guò)在 NVIDIA Blackwell 平臺(tái)上運(yùn)行優(yōu)化的推理堆棧，幫助各行業(yè)降低每 token 成本。

一次醫(yī)療領(lǐng)域的診斷洞察、一次互動(dòng)游戲中角色的對(duì)話(huà)、一次來(lái)自客服代理的自主解決方案——這些由 AI 驅(qū)動(dòng)的交互，皆基于同一智能單元：一個(gè)token。

要擴(kuò)展這些 AI 交互，企業(yè)需要考慮是否能夠承擔(dān)更多 token 成本。答案在于更優(yōu)的 Token 經(jīng)濟(jì)學(xué)（tokenomics）——其核心在于降低每個(gè) token 的成本。這種下降趨勢(shì)正在各行各業(yè)中顯現(xiàn)。

近期麻省理工學(xué)院研究發(fā)現(xiàn)，基礎(chǔ)設(shè)施與算法效率的提升使前沿水平性能的推理成本正逐年降低至原來(lái)的 1/10。

要理解基礎(chǔ)設(shè)施效率如何提升 tokenomics，可以把它類(lèi)比為一臺(tái)高速印刷機(jī)。如果這臺(tái)印刷機(jī)只需在油墨、能源和設(shè)備本身上進(jìn)行小幅追加投資，就能實(shí)現(xiàn) 10 倍的產(chǎn)出，那么每頁(yè)印刷成本自然會(huì)下降。同理，對(duì) AI 基礎(chǔ)設(shè)施的投資如果能帶來(lái)遠(yuǎn)超預(yù)期的 token 產(chǎn)出，就會(huì)顯著降低每個(gè) token 的成本。

當(dāng) token 的產(chǎn)出增長(zhǎng)超過(guò)基礎(chǔ)設(shè)施成本增長(zhǎng)時(shí)，每個(gè) token 的成本就會(huì)下降。

正因如此，包括 Baseten、DeepInfra、Fireworks AI 和 Together AI 在內(nèi)的領(lǐng)先推理服務(wù)提供商紛紛采用NVIDIA Blackwell 平臺(tái)。Blackwell 平臺(tái)幫助這些企業(yè)將每個(gè) token 的成本最多可降至 NVIDIA Hopper 平臺(tái)的 1/10。

這些提供商托管著先進(jìn)的開(kāi)源模型，其智能水平現(xiàn)已達(dá)前沿級(jí)別。通過(guò)融合開(kāi)源的前沿智能、NVIDIA Blackwell 極致的軟硬件協(xié)同設(shè)計(jì)以及自主優(yōu)化的推理堆棧，這些服務(wù)商正助力各行各業(yè)的企業(yè)實(shí)現(xiàn) token 成本的大幅降低。

醫(yī)療領(lǐng)域——Baseten 與 Sully.ai 將 AI 推理成本降低 9 成

在醫(yī)療領(lǐng)域，諸如醫(yī)療編碼、病歷記錄和保險(xiǎn)表格管理等繁瑣耗時(shí)的任務(wù)，會(huì)占用醫(yī)生與患者交流的時(shí)間。

Sully.ai通過(guò)開(kāi)發(fā)能夠處理醫(yī)療編碼和記錄筆記等常規(guī)任務(wù)的”AI 員工”來(lái)解決這一問(wèn)題。隨著公司平臺(tái)規(guī)模擴(kuò)大，其自有的閉源模型面臨著三大瓶頸：實(shí)時(shí)臨床工作流程中的延遲不可預(yù)測(cè)、推理成本增長(zhǎng)速度比收入增長(zhǎng)更快，以及對(duì)模型質(zhì)量和更新的控制不足。

Sully.ai 打造 AI 員工，幫助醫(yī)生處理日常事務(wù)。

為突破這些瓶頸，Sully.ai 采用了 Baseten 的模型 API，該 API 可在 NVIDIA Blackwell GPU 上部署 gpt-oss-120b 等開(kāi)源模型。Baseten 采用低精度NVFP4數(shù)據(jù)格式、NVIDIA TensorRT-LLM 庫(kù)及NVIDIA Dynamo推理框架以實(shí)現(xiàn)優(yōu)化的推理。該公司選擇 NVIDIA Blackwell 運(yùn)行 Model API，因其每美元投入的吞吐量較 NVIDIA Hopper 平臺(tái)提升 2.5 倍。

結(jié)果顯示，Sully.ai的推理成本因此降低了 90%，成本降低至原來(lái)的閉源實(shí)現(xiàn)方案的 1/10。同時(shí)在病歷生成等關(guān)鍵工作流的響應(yīng)速度提升了 65%。該公司已為醫(yī)生節(jié)省了超過(guò) 3000 萬(wàn)分鐘的時(shí)間，這些時(shí)間原本耗費(fèi)在數(shù)據(jù)錄入及其他手動(dòng)操作上。

游戲領(lǐng)域——DeepInfra 與 Latitude 將每 token 成本降至原來(lái)的 1/4

Latitude正通過(guò)其 AI 冒險(xiǎn)故事游戲AI Dungeon及即將推出的 AI 驅(qū)動(dòng)角色扮演游戲平臺(tái) Voyage，打造 AI 原生游戲的未來(lái)。玩家可在這些平臺(tái)中自由創(chuàng)建或探索世界，選擇任何行動(dòng)，書(shū)寫(xiě)專(zhuān)屬故事。

該公司的平臺(tái)采用大型語(yǔ)言模型響應(yīng)玩家操作——但這帶來(lái)了擴(kuò)展難題，因?yàn)槊看瓮婕也僮鞫紩?huì)觸發(fā)推理請(qǐng)求。成本隨玩家參與度增長(zhǎng)而攀升，而響應(yīng)速度必須保持足夠快才能確保游戲體驗(yàn)的流暢性。

Latitude 開(kāi)發(fā)了一款名為 AI Dungeon 的文字冒險(xiǎn)故事游戲，該游戲能在玩家探索動(dòng)態(tài)故事時(shí)實(shí)時(shí)生成敘事文本與圖像。

Latitude 運(yùn)行的大型開(kāi)源模型基于由 NVIDIA Blackwell GPU 和 TensorRT-LLM 驅(qū)動(dòng)的DeepInfra 推理平臺(tái)。對(duì)于大規(guī)?；旌蠈?zhuān)家模型（MoE），DeepInfra 將每百萬(wàn) token 的成本從 NVIDIA Hopper 平臺(tái)的 0.20 美元降至 Blackwell 平臺(tái)的 0.10 美元。通過(guò)遷移至 Blackwell 原生低精度 NVFP4 格式，其成本進(jìn)一步降至每百萬(wàn) token 0.05 美元——現(xiàn)每 token 成本降至之前的 1/4，同時(shí)保持了客戶(hù)期望的準(zhǔn)確性。

在 DeepInfra 基于 Blackwell 的平臺(tái)上運(yùn)行這些大型 MoE 模型，使 Latitude 能夠以經(jīng)濟(jì)高效的方式提供快速可靠的響應(yīng)。DeepInfra 的推理平臺(tái)在保證性能的同時(shí)，還能穩(wěn)定應(yīng)對(duì)流量峰值，讓 Latitude 得以部署更強(qiáng)大的模型而不影響玩家體驗(yàn)。

智能體聊天代理——Fireworks AI 與 Sentient Foundation 合作，將 AI 成本降低高達(dá) 50%

Sentient Labs 致力于匯聚 AI 開(kāi)發(fā)者，共同構(gòu)建強(qiáng)大的開(kāi)源推理 AI 系統(tǒng)。其目標(biāo)是通過(guò)在安全自主性、智能體架構(gòu)和持續(xù)學(xué)習(xí)領(lǐng)域開(kāi)展研究，加速 AI 解決更復(fù)雜的推理難題。

Sentient Labs 的首款應(yīng)用 Sentient Chat 能夠編排復(fù)雜的多智能體工作流，并整合來(lái)自社區(qū)的十余個(gè)專(zhuān)業(yè) AI 智能體。正因如此，Sentient Chat 面臨著巨大的計(jì)算需求——單個(gè)用戶(hù)查詢(xún)可能觸發(fā)一系列自主交互，通常會(huì)導(dǎo)致高昂的基礎(chǔ)設(shè)施開(kāi)銷(xiāo)。

為應(yīng)對(duì)這種規(guī)模和復(fù)雜性任務(wù)，Sentient 采用基于 NVIDIA Blackwell 運(yùn)行的 Fireworks AI 推理平臺(tái)。借助 Fireworks 針對(duì) Blackwell 優(yōu)化的推理堆棧，Sentient 的成本效率相比之前基于 Hopper 的部署方案提升了 25% 到 50%。

Sentient Chat 編排復(fù)雜的多智能體工作流，并整合來(lái)自社區(qū)的十余個(gè)專(zhuān)業(yè) AI 智能體。

更高的每 GPU 吞吐量使該公司能夠以相同成本服務(wù)更多并發(fā)用戶(hù)。該平臺(tái)的可擴(kuò)展性支持了病毒式傳播的用戶(hù)增長(zhǎng)——24 小時(shí)內(nèi)新增 180 萬(wàn)候補(bǔ)用戶(hù)，單周處理 560 萬(wàn)次查詢(xún)，同時(shí)保持了穩(wěn)定的低延遲表現(xiàn)。

客戶(hù)服務(wù)——Together AI 與 Decagon 實(shí)現(xiàn)成本降至原來(lái)的 1/6

使用語(yǔ)音 AI 的客服服務(wù)通話(huà)往往令人感到挫敗，因?yàn)槟呐率禽p微的延遲都可能導(dǎo)致用戶(hù)打斷語(yǔ)音助手、掛斷電話(huà)或失去信任。

Decagon 為企業(yè)客戶(hù)支持構(gòu)建 AI 智能體，其中 AI 驅(qū)動(dòng)的語(yǔ)音服務(wù)要求最為苛刻。Decagon 需要一套能夠在不可預(yù)測(cè)的流量負(fù)載下實(shí)現(xiàn)亞秒級(jí)響應(yīng)的基礎(chǔ)設(shè)施，并具備支持全天候語(yǔ)音部署的 tokenomics。

Decagon 為客戶(hù)支持構(gòu)建 AI 智能體，其中語(yǔ)音服務(wù)要求最為苛刻。

Together AI 在 NVIDIA Blackwell GPU 上為 Decagon 的多模型語(yǔ)音技術(shù)棧運(yùn)行生產(chǎn)級(jí)推理。兩家公司在多項(xiàng)關(guān)鍵優(yōu)化上展開(kāi)合作：采用推測(cè)解碼技術(shù)，通過(guò)訓(xùn)練小型模型實(shí)現(xiàn)更快的響應(yīng)速度，同時(shí)在后臺(tái)由大模型驗(yàn)證準(zhǔn)確性；緩存重復(fù)對(duì)話(huà)元素以加速響應(yīng)；構(gòu)建自動(dòng)擴(kuò)展機(jī)制，在應(yīng)對(duì)流量激增時(shí)保持性能穩(wěn)定。

Decagon 即使在每條查詢(xún)處理數(shù)千個(gè) token 的情況下，也能實(shí)現(xiàn)低于 400 毫秒的響應(yīng)時(shí)間。與使用閉源專(zhuān)有模型相比，每條查詢(xún)的成本（即完成一次語(yǔ)音交互的總成本）降低至原來(lái)的 1/6。這一成果得益于 Decagon 的多模型方案（部分采用開(kāi)源模型，部分在 NVIDIA GPU 上自主訓(xùn)練）、NVIDIA Blackwell 芯片的極致協(xié)同設(shè)計(jì)以及 Together 平臺(tái)的優(yōu)化推理堆棧的協(xié)同作用。

通過(guò)極致協(xié)同設(shè)計(jì)優(yōu)化 tokenomics

在醫(yī)療、游戲和客戶(hù)服務(wù)等領(lǐng)域取得的顯著成本節(jié)省，得益于 NVIDIA Blackwell 的高性能。NVIDIA Grace Blackwell 機(jī)架式解決方案進(jìn)一步擴(kuò)大了這一優(yōu)勢(shì)，其推理 MoE 模型的每 token 成本降至 NVIDIA Hopper 的 1/10，實(shí)現(xiàn)了成本的突破性降低。

NVIDIA 涵蓋了計(jì)算、網(wǎng)絡(luò)和軟件等跨各個(gè)層級(jí)堆棧的極致協(xié)同設(shè)計(jì)，以及其合作伙伴生態(tài)系統(tǒng)，正在大幅度降低每 token 成本。

這一勢(shì)頭延續(xù)至NVIDIA Rubin 平臺(tái)上——通過(guò)將六款全新芯片集成于一臺(tái) AI 超級(jí)計(jì)算機(jī)中，其性能較 Blackwell 提升 10 倍，token 成本降至 Blackwell 的 1/10。

探索NVIDIA 的全棧推理平臺(tái)，深入了解其如何為 AI 推理提供更優(yōu)的 tokenomics。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴