日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI推理經(jīng)濟(jì)學(xué)的關(guān)鍵術(shù)語

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-05-07 09:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

解析 AI 在生產(chǎn)環(huán)境中的部署成本,助力用戶實(shí)現(xiàn)性能優(yōu)化和盈利能力。

隨著AI模型的持續(xù)演進(jìn)與應(yīng)用普及,企業(yè)需要在價(jià)值最大化的目標(biāo)下進(jìn)行精心權(quán)衡。

這是因?yàn)橥评恚▽?shù)據(jù)輸入模型并獲取輸出的運(yùn)算過程)面臨與模型訓(xùn)練截然不同的計(jì)算挑戰(zhàn)。

預(yù)訓(xùn)練模型(數(shù)據(jù)導(dǎo)入、token化分解及模式識別的過程)本質(zhì)上是單次的成本投入。但在推理過程中,模型的每個(gè)提示詞 (prompt)都會生成token,而每個(gè)token都會產(chǎn)生成本。

這意味著,隨著AI模型性能提升和應(yīng)用規(guī)模擴(kuò)大,token的生成量及其相關(guān)計(jì)算成本也會增加。對于希望構(gòu)建AI能力的企業(yè)來說,關(guān)鍵在于控制計(jì)算成本的同時(shí),以最快的速度、最高的準(zhǔn)確性和服務(wù)質(zhì)量生成盡可能多的token。

為此,AI生態(tài)系統(tǒng)持續(xù)推動推理效率優(yōu)化與成本壓縮。得益于模型優(yōu)化技術(shù)的重大突破,過去一年中推理成本持續(xù)呈下降趨勢,催生了日益先進(jìn)、高能效的加速計(jì)算基礎(chǔ)架構(gòu)和全棧解決方案。

根據(jù)斯坦福大學(xué)“以人為本人工智能研究所 (HAI)”發(fā)布的《2025年人工智能指數(shù)報(bào)告》,“2022年11月至2024年10月期間,達(dá)到GPT-3.5水平系統(tǒng)的推理成本降幅超280倍。硬件層面的成本年降幅30%,而能效年提升率達(dá)40%。開放權(quán)重模型也在縮小與閉源模型的差距,部分基準(zhǔn)測試中,性能差距在一年內(nèi)就從8%縮小到僅1.7%。多重趨勢共同作用下先進(jìn)AI的門檻正在迅速降低?!?/p>

隨著模型持續(xù)演進(jìn)引發(fā)需求及token量級增加,企業(yè)必須擴(kuò)展其加速計(jì)算資源,以提供下一代AI邏輯推理工具,否則將面臨成本和能耗增加的風(fēng)險(xiǎn)。

以下是推理經(jīng)濟(jì)學(xué)概念的入門指南,幫助企業(yè)可以建立戰(zhàn)略定位,實(shí)現(xiàn)高效、高性價(jià)比且可盈利的大規(guī)模AI解決方案。

AI 推理經(jīng)濟(jì)學(xué)的關(guān)鍵術(shù)語

了解推理經(jīng)濟(jì)學(xué)的關(guān)鍵術(shù)語是理解其重要性的基礎(chǔ)。

詞元 (Token)是AI模型中的基本數(shù)據(jù)單位,源自訓(xùn)練過程中的文本、圖像、音頻片段和視頻等數(shù)據(jù)。通過token化 (tokenization)過程,原始數(shù)據(jù)被解構(gòu)成最小語義單元。在訓(xùn)練過程中,模型會學(xué)習(xí)標(biāo)記token之間的關(guān)系,從而執(zhí)行推理并生成準(zhǔn)確、相關(guān)的輸出。

吞吐量 (Throughput)指的是模型在單位時(shí)間內(nèi)輸出的token量,其本身是運(yùn)行模型基礎(chǔ)架構(gòu)的一個(gè)函數(shù)。吞吐量通常以token/每秒為單位,吞吐量越高,意味著基礎(chǔ)架構(gòu)的回報(bào)越高。

延遲(Latency)是指從輸入提示到模型開始響應(yīng)所需的時(shí)間。較低的延遲意味著更快的響應(yīng)。衡量延遲的兩種主要方法包括:

首 token 時(shí)延 (Time to First Token, TTFT):用戶輸入提示后,模型生成第一個(gè)輸出 token 所需的時(shí)間。

首 token 后,每個(gè)輸出 token 的時(shí)延 (Time per Output Token, TPOT):連續(xù) token 之間的平均輸出時(shí)間,也可以理解為,模型為每個(gè)用戶的查詢請求生成一個(gè)完整輸出 token 所需要的時(shí)間。它也被稱為“token 間延遲”或“token 到 token 延遲”。

TTFT和TPOT固然是重要的基準(zhǔn)參數(shù),但它們只是眾多計(jì)算公式中的兩個(gè)部分,只關(guān)注這兩項(xiàng)指標(biāo)仍可能導(dǎo)致性能衰減或成本超支。

為了考慮其他相互依賴的因素,IT領(lǐng)導(dǎo)者開始衡量“有效吞吐量(goodput)”,即在維持目標(biāo)TTFT和TPOT水平的前提下,系統(tǒng)實(shí)際達(dá)成的有效吞吐量。這一指標(biāo)使企業(yè)能夠以更全面的方式評估性能,保持吞吐量、延遲和成本的最優(yōu)配置,確保運(yùn)營效率和優(yōu)秀的用戶體驗(yàn)。

能效是衡量 AI 系統(tǒng)將電能轉(zhuǎn)化為計(jì)算輸出效率的指標(biāo),以每瓦特性能來表示。通過使用加速計(jì)算平臺,組織可以在降低能耗的同時(shí),最大化每瓦特的 token 處理量。

擴(kuò)展定律 (Scaling Law) 如何應(yīng)用于推理成本

理解推理經(jīng)濟(jì)學(xué)的核心在于掌握 AI 的三大擴(kuò)展定律:

-預(yù)訓(xùn)練擴(kuò)展 (Pretraining scaling):最初的擴(kuò)展定律表明,通過提升訓(xùn)練數(shù)據(jù)集規(guī)模、模型參數(shù)數(shù)量以及增加計(jì)算資源,能夠?qū)崿F(xiàn)模型智能水平和準(zhǔn)確率的可預(yù)測性提升。

-后訓(xùn)練 (Post-training):對模型的準(zhǔn)確性和領(lǐng)域?qū)I(yè)性進(jìn)行微調(diào),以便將其用于應(yīng)用開發(fā)。可以使用檢索增強(qiáng)生成 (RAG) 等技術(shù)從企業(yè)數(shù)據(jù)庫返回更相關(guān)的答案。

-測試時(shí)擴(kuò)展 (Test-time scaling,又稱“長思考”或“邏輯推理”):在推理過程中,模型會分配額外的計(jì)算資源,以評估多種可能的結(jié)果,然后得出最佳答案。

雖然AI在不斷發(fā)展,后訓(xùn)練和測試時(shí)擴(kuò)展技術(shù)也在持續(xù)迭代,但這并不意味著預(yù)訓(xùn)練即將消失,它仍然是擴(kuò)展模型的重要方法。要支持后訓(xùn)練和測試時(shí)擴(kuò)展,仍需要進(jìn)行預(yù)訓(xùn)練。

可盈利的 AI 需要全棧方案

相較于只經(jīng)過預(yù)訓(xùn)練和后訓(xùn)練的模型推理,采用測試時(shí)擴(kuò)展的模型會生成多個(gè)token來解決復(fù)雜問題。這雖然可以顯著提升準(zhǔn)確性和模型輸出的相關(guān)性,但計(jì)算成本也會更高。

更智能的 AI 意味著生成更多 token 來解決問題,而優(yōu)質(zhì)的用戶體驗(yàn)意味著盡可能快地生成這些 token。AI 模型越智能、越快速,對公司和客戶的實(shí)用性就越大。

企業(yè)需要擴(kuò)展其加速計(jì)算資源,構(gòu)建能支持復(fù)雜問題求解、代碼生成和多步驟規(guī)劃的下一代 AI 邏輯推理工具,同時(shí)避免成本激增。

這需要先進(jìn)的硬件和全面優(yōu)化的軟件棧。NVIDIA AI 工廠產(chǎn)品路線圖旨在滿足計(jì)算需求,幫助解決復(fù)雜的推理問題,同時(shí)實(shí)現(xiàn)更高的效率。

AI 工廠集成了高性能 AI 基礎(chǔ)設(shè)施、高速網(wǎng)絡(luò)和經(jīng)優(yōu)化的軟件,可大規(guī)模生產(chǎn)智能。這些組件設(shè)計(jì)靈活、可編程,使企業(yè)能夠優(yōu)先關(guān)注對其模型或推理需求更關(guān)鍵的領(lǐng)域。

為了進(jìn)一步簡化在部署大規(guī)模 AI 邏輯推理模型時(shí)的操作,AI 工廠在高性能、低延遲的推理管理系統(tǒng)上運(yùn)行,確保以盡可能低的成本滿足 AI 邏輯推理所需的速度和吞吐量,從而最大化提升 token 收入。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110141
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41315

    瀏覽量

    302694
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52287

原文標(biāo)題:推理經(jīng)濟(jì)學(xué)如何驅(qū)動 AI 價(jià)值最大化

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    黑馬-Java+AI新版V16零基礎(chǔ)就業(yè)班百度云網(wǎng)盤下載+Java+AI全棧開發(fā)工程師

    傳統(tǒng)開發(fā)升級,Java+AI 融合開發(fā)精講——構(gòu)建下一代企業(yè)級智能應(yīng)用的技術(shù)棧重塑 在人工智能加速滲透至各行各業(yè)的當(dāng)下,Java 開發(fā)者正面臨一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn):要么被動旁觀 AI 能力的邊緣化集成
    發(fā)表于 05-01 11:29

    [完結(jié)15章]Java轉(zhuǎn) AI高薪領(lǐng)域必備-從0到1打通生產(chǎn)級AI Agent開發(fā)

    AI瞬間完成時(shí),僅憑對Spring Boot框架的熟練度已無法構(gòu)建職業(yè)護(hù)城河。Java工程師若想拒絕原地踏步,絕不是簡單地學(xué)一學(xué)Python或調(diào)用幾個(gè)API,而是必須將自身深厚的工程化底座與大模型的認(rèn)知
    發(fā)表于 04-30 13:46

    Java轉(zhuǎn) AI高薪領(lǐng)域必備 從0到1打通生產(chǎn)級AI Agent開發(fā) 教程資料

    告別CRUD內(nèi)卷的經(jīng)濟(jì)學(xué):Java程序員轉(zhuǎn)型AI Agent的商業(yè)重構(gòu) 在當(dāng)前的IT職場生態(tài)中,一個(gè)令人不寒而栗的現(xiàn)象正在上演:傳統(tǒng)Java CRUD(增刪改查)開發(fā)者的薪資溢價(jià)正在被系統(tǒng)性抹平
    發(fā)表于 04-29 17:08

    是德科技推出全新AI推理仿真平臺

    是德科技(NYSE: KEYS)近日推出KAI推理構(gòu)建器(Keysight AI Inference Builder),這款仿真與分析平臺旨在大規(guī)模驗(yàn)證針對推理進(jìn)行優(yōu)化的AI基礎(chǔ)設(shè)施。
    的頭像 發(fā)表于 03-20 17:27 ?832次閱讀
    是德科技推出全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>仿真平臺

    從英偉達(dá)電話會看Agentic AI推理與FPGA價(jià)值

    2026年2月,英偉達(dá)發(fā)布2026財(cái)年Q4財(cái)報(bào):營收681億美元,同比增長73%,數(shù)據(jù)中心業(yè)務(wù)增長75%——預(yù)期中的超預(yù)期。更值得關(guān)注的,是電話會中反復(fù)出現(xiàn)的幾個(gè)關(guān)鍵詞:Agentic AI、推理
    的頭像 發(fā)表于 03-04 17:07 ?1321次閱讀
    從英偉達(dá)電話會看Agentic <b class='flag-5'>AI</b><b class='flag-5'>推理</b>與FPGA價(jià)值

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    電子發(fā)燒友網(wǎng)綜合報(bào)道,在人工智能迅猛發(fā)展的當(dāng)下,AI推理芯片需求正呈爆發(fā)式增長。 ? AI推理,即支撐如ChatGPT這類AI模型響應(yīng)用戶問
    的頭像 發(fā)表于 02-03 17:15 ?3302次閱讀

    使用NORDIC AI的好處

    原始傳感器數(shù)據(jù),可顯著降低功耗、延長電池壽命。[Edge AI 概述; Nordic Edge AI 技術(shù)頁] 降低云依賴與時(shí)延 直接在設(shè)備上做推理,很多決策可以“本地實(shí)時(shí)”完成,不必等云端響應(yīng)
    發(fā)表于 01-31 23:16

    算力積木+3D堆疊!GPNPU架構(gòu)創(chuàng)新,應(yīng)對AI推理需求

    落地的關(guān)鍵瓶頸。在此背景下,云天勵(lì)飛推出其第五代芯片架構(gòu)——GPNPU(General-Purpose Neural Processing Unit,通用神經(jīng)網(wǎng)絡(luò)處理單元),以一場底層架構(gòu)的革命,試圖重塑AI算力格局,推動大模型推理
    的頭像 發(fā)表于 12-11 08:57 ?8132次閱讀

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1515次閱讀

    一文看懂AI訓(xùn)練、推理與訓(xùn)推一體的底層關(guān)系

    我們正在參加全球電子成就獎(jiǎng)的評選,歡迎大家?guī)臀覀兺镀薄x謝支持很多人聽過“大模型”,但沒搞懂兩件事。我們總說AI有多強(qiáng),但真正決定AI能否落地的,是它的兩個(gè)階段:訓(xùn)練(Training)和推理
    的頭像 發(fā)表于 09-19 11:58 ?2904次閱讀
    一文看懂<b class='flag-5'>AI</b>訓(xùn)練、<b class='flag-5'>推理</b>與訓(xùn)推一體的底層關(guān)系

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    主要步驟: ①溯因②假說③實(shí)驗(yàn) 1、科學(xué)推理的類型 ①演繹②歸納 2、自動化科學(xué)發(fā)現(xiàn)框架 AI-笛卡兒-----自動化科學(xué)發(fā)現(xiàn)框架,利用數(shù)據(jù)和知識來生成和評估候選的科學(xué)假說。 4項(xiàng)規(guī)則:三、直覺
    發(fā)表于 09-17 11:45

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    近日,2025金融AI推理應(yīng)用落地與發(fā)展論壇在上海舉行。中國銀聯(lián)執(zhí)行副總裁涂曉軍、華為數(shù)字金融軍團(tuán)CEO曹沖出席本次論壇并發(fā)表致辭。論壇上,華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰博士發(fā)布AI
    的頭像 發(fā)表于 08-15 09:45 ?1409次閱讀

    今日看點(diǎn)丨華為發(fā)布AI推理創(chuàng)新技術(shù)UCM;比亞迪汽車出口暴增130%

    緩存加速算法工具,分級管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),可擴(kuò)大推理上下文窗口,實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn),降低每Token推理成本。 ? 尤為
    發(fā)表于 08-13 09:45 ?5743次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    模態(tài)的技術(shù)特性,DeepSeek正加速推動AI在金融、政務(wù)、科研及網(wǎng)絡(luò)智能化等關(guān)鍵領(lǐng)域的深度應(yīng)用。 信而泰:AI推理引擎賦能網(wǎng)絡(luò)智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發(fā)表于 07-16 15:29

    成本控制視角下MCX插頭大小的制造經(jīng)濟(jì)學(xué)

    在MCX插頭的制造經(jīng)濟(jì)學(xué)中,尺寸選擇從來不是簡單的“越小越好”,而是性能、成本、工藝的系統(tǒng)平衡。德索精密工業(yè)以17年技術(shù)積淀,為客戶提供從0.8mm超薄型到5mm高功率型的全尺寸矩陣,用數(shù)據(jù)驅(qū)動的成本控制方案,讓每一款MCX插頭都成為性價(jià)比最優(yōu)解。
    的頭像 發(fā)表于 06-19 08:45 ?676次閱讀
    成本控制視角下MCX插頭大小的制造<b class='flag-5'>經(jīng)濟(jì)學(xué)</b>
    新晃| 新田县| 汕头市| 遂川县| 泾川县| 高青县| 神农架林区| 资中县| 文成县| 宁武县| 齐齐哈尔市| 铁岭县| 兴国县| 仙桃市| 四平市| 德令哈市| 峨眉山市| 虹口区| 甘南县| 咸阳市| 武平县| 静乐县| 桐庐县| 吴忠市| 辛集市| 阳信县| 利辛县| 云霄县| 北流市| 新营市| 乾安县| 嵊州市| 博兴县| 常熟市| 永泰县| 耿马| 科技| 廉江市| 吴江市| 古蔺县| 辰溪县|