99999国产,女人久久久视频

解析 AI 在生產(chǎn)環(huán)境中的部署成本，助力用戶實(shí)現(xiàn)性能優(yōu)化和盈利能力。

隨著AI模型的持續(xù)演進(jìn)與應(yīng)用普及，企業(yè)需要在價(jià)值最大化的目標(biāo)下進(jìn)行精心權(quán)衡。

這是因?yàn)橥评恚▽?shù)據(jù)輸入模型并獲取輸出的運(yùn)算過程）面臨與模型訓(xùn)練截然不同的計(jì)算挑戰(zhàn)。

預(yù)訓(xùn)練模型（數(shù)據(jù)導(dǎo)入、token化分解及模式識別的過程）本質(zhì)上是單次的成本投入。但在推理過程中，模型的每個(gè)提示詞 (prompt)都會生成token，而每個(gè)token都會產(chǎn)生成本。

這意味著，隨著AI模型性能提升和應(yīng)用規(guī)模擴(kuò)大，token的生成量及其相關(guān)計(jì)算成本也會增加。對于希望構(gòu)建AI能力的企業(yè)來說，關(guān)鍵在于控制計(jì)算成本的同時(shí)，以最快的速度、最高的準(zhǔn)確性和服務(wù)質(zhì)量生成盡可能多的token。

為此，AI生態(tài)系統(tǒng)持續(xù)推動推理效率優(yōu)化與成本壓縮。得益于模型優(yōu)化技術(shù)的重大突破，過去一年中推理成本持續(xù)呈下降趨勢，催生了日益先進(jìn)、高能效的加速計(jì)算基礎(chǔ)架構(gòu)和全棧解決方案。

根據(jù)斯坦福大學(xué)“以人為本人工智能研究所 (HAI)”發(fā)布的《2025年人工智能指數(shù)報(bào)告》，“2022年11月至2024年10月期間，達(dá)到GPT-3.5水平系統(tǒng)的推理成本降幅超280倍。硬件層面的成本年降幅30%，而能效年提升率達(dá)40%。開放權(quán)重模型也在縮小與閉源模型的差距，部分基準(zhǔn)測試中，性能差距在一年內(nèi)就從8%縮小到僅1.7%。多重趨勢共同作用下先進(jìn)AI的門檻正在迅速降低?！?/p>

隨著模型持續(xù)演進(jìn)引發(fā)需求及token量級增加，企業(yè)必須擴(kuò)展其加速計(jì)算資源，以提供下一代AI邏輯推理工具，否則將面臨成本和能耗增加的風(fēng)險(xiǎn)。

以下是推理經(jīng)濟(jì)學(xué)概念的入門指南，幫助企業(yè)可以建立戰(zhàn)略定位，實(shí)現(xiàn)高效、高性價(jià)比且可盈利的大規(guī)模AI解決方案。

AI 推理經(jīng)濟(jì)學(xué)的關(guān)鍵術(shù)語

了解推理經(jīng)濟(jì)學(xué)的關(guān)鍵術(shù)語是理解其重要性的基礎(chǔ)。

詞元 (Token)是AI模型中的基本數(shù)據(jù)單位，源自訓(xùn)練過程中的文本、圖像、音頻片段和視頻等數(shù)據(jù)。通過token化 (tokenization)過程，原始數(shù)據(jù)被解構(gòu)成最小語義單元。在訓(xùn)練過程中，模型會學(xué)習(xí)標(biāo)記token之間的關(guān)系，從而執(zhí)行推理并生成準(zhǔn)確、相關(guān)的輸出。

吞吐量 (Throughput)指的是模型在單位時(shí)間內(nèi)輸出的token量，其本身是運(yùn)行模型基礎(chǔ)架構(gòu)的一個(gè)函數(shù)。吞吐量通常以token/每秒為單位，吞吐量越高，意味著基礎(chǔ)架構(gòu)的回報(bào)越高。

延遲(Latency)是指從輸入提示到模型開始響應(yīng)所需的時(shí)間。較低的延遲意味著更快的響應(yīng)。衡量延遲的兩種主要方法包括：

首 token 時(shí)延 (Time to First Token, TTFT)：用戶輸入提示后，模型生成第一個(gè)輸出 token 所需的時(shí)間。

首 token 后，每個(gè)輸出 token 的時(shí)延 (Time per Output Token, TPOT)：連續(xù) token 之間的平均輸出時(shí)間，也可以理解為，模型為每個(gè)用戶的查詢請求生成一個(gè)完整輸出 token 所需要的時(shí)間。它也被稱為“token 間延遲”或“token 到 token 延遲”。

TTFT和TPOT固然是重要的基準(zhǔn)參數(shù)，但它們只是眾多計(jì)算公式中的兩個(gè)部分，只關(guān)注這兩項(xiàng)指標(biāo)仍可能導(dǎo)致性能衰減或成本超支。

為了考慮其他相互依賴的因素，IT領(lǐng)導(dǎo)者開始衡量“有效吞吐量(goodput)”，即在維持目標(biāo)TTFT和TPOT水平的前提下，系統(tǒng)實(shí)際達(dá)成的有效吞吐量。這一指標(biāo)使企業(yè)能夠以更全面的方式評估性能，保持吞吐量、延遲和成本的最優(yōu)配置，確保運(yùn)營效率和優(yōu)秀的用戶體驗(yàn)。

能效是衡量 AI 系統(tǒng)將電能轉(zhuǎn)化為計(jì)算輸出效率的指標(biāo)，以每瓦特性能來表示。通過使用加速計(jì)算平臺，組織可以在降低能耗的同時(shí)，最大化每瓦特的 token 處理量。

擴(kuò)展定律 (Scaling Law) 如何應(yīng)用于推理成本

理解推理經(jīng)濟(jì)學(xué)的核心在于掌握 AI 的三大擴(kuò)展定律：

-預(yù)訓(xùn)練擴(kuò)展 (Pretraining scaling)：最初的擴(kuò)展定律表明，通過提升訓(xùn)練數(shù)據(jù)集規(guī)模、模型參數(shù)數(shù)量以及增加計(jì)算資源，能夠?qū)崿F(xiàn)模型智能水平和準(zhǔn)確率的可預(yù)測性提升。

-后訓(xùn)練 (Post-training)：對模型的準(zhǔn)確性和領(lǐng)域?qū)I(yè)性進(jìn)行微調(diào)，以便將其用于應(yīng)用開發(fā)。可以使用檢索增強(qiáng)生成 (RAG) 等技術(shù)從企業(yè)數(shù)據(jù)庫返回更相關(guān)的答案。

-測試時(shí)擴(kuò)展 (Test-time scaling，又稱“長思考”或“邏輯推理”)：在推理過程中，模型會分配額外的計(jì)算資源，以評估多種可能的結(jié)果，然后得出最佳答案。

雖然AI在不斷發(fā)展，后訓(xùn)練和測試時(shí)擴(kuò)展技術(shù)也在持續(xù)迭代，但這并不意味著預(yù)訓(xùn)練即將消失，它仍然是擴(kuò)展模型的重要方法。要支持后訓(xùn)練和測試時(shí)擴(kuò)展，仍需要進(jìn)行預(yù)訓(xùn)練。

可盈利的 AI 需要全棧方案

相較于只經(jīng)過預(yù)訓(xùn)練和后訓(xùn)練的模型推理，采用測試時(shí)擴(kuò)展的模型會生成多個(gè)token來解決復(fù)雜問題。這雖然可以顯著提升準(zhǔn)確性和模型輸出的相關(guān)性，但計(jì)算成本也會更高。

更智能的 AI 意味著生成更多 token 來解決問題，而優(yōu)質(zhì)的用戶體驗(yàn)意味著盡可能快地生成這些 token。AI 模型越智能、越快速，對公司和客戶的實(shí)用性就越大。

企業(yè)需要擴(kuò)展其加速計(jì)算資源，構(gòu)建能支持復(fù)雜問題求解、代碼生成和多步驟規(guī)劃的下一代 AI 邏輯推理工具，同時(shí)避免成本激增。

這需要先進(jìn)的硬件和全面優(yōu)化的軟件棧。NVIDIA AI 工廠產(chǎn)品路線圖旨在滿足計(jì)算需求，幫助解決復(fù)雜的推理問題，同時(shí)實(shí)現(xiàn)更高的效率。

AI 工廠集成了高性能 AI 基礎(chǔ)設(shè)施、高速網(wǎng)絡(luò)和經(jīng)優(yōu)化的軟件，可大規(guī)模生產(chǎn)智能。這些組件設(shè)計(jì)靈活、可編程，使企業(yè)能夠優(yōu)先關(guān)注對其模型或推理需求更關(guān)鍵的領(lǐng)域。

為了進(jìn)一步簡化在部署大規(guī)模 AI 邏輯推理模型時(shí)的操作，AI 工廠在高性能、低延遲的推理管理系統(tǒng)上運(yùn)行，確保以盡可能低的成本滿足 AI 邏輯推理所需的速度和吞吐量，從而最大化提升 token 收入。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5696

瀏覽量
110141
AI

AI

+關(guān)注

關(guān)注
91

文章
41315

瀏覽量
302694
模型

模型

+關(guān)注

關(guān)注
1

文章
3831

瀏覽量
52287

原文標(biāo)題：推理經(jīng)濟(jì)學(xué)如何驅(qū)動 AI 價(jià)值最大化

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

AI推理經(jīng)濟(jì)學(xué)的關(guān)鍵術(shù)語

評論