本文作者 王朝暉
是德科技網(wǎng)絡(luò)與解決方案部門資深AI 網(wǎng)絡(luò)架構(gòu)師
不管你是不是技術(shù)相關(guān)從業(yè)者,都已經(jīng)被AI熱潮席卷。你的手機app一定會被推送各種AI文章和相關(guān)熱詞,“大語言模型”,“ChatGPT/DeepSeek/千問/豆包…”,“推理模型”,“token”,“AI agent”,“Openclaw(小龍蝦)”…
如今AI已經(jīng)開始大規(guī)模落地,正在改變各行各業(yè),甚至將重塑整個世界。它并非只是一款巧妙的應(yīng)用程序,也不是某個單一的模型,而是如同電力和互聯(lián)網(wǎng)一樣,成為必不可少的基礎(chǔ)設(shè)施。AI 依托真實的能源、硬件和基礎(chǔ)架構(gòu),正在大規(guī)模地生產(chǎn)智能,給各行各業(yè)賦予AI能力。毫不夸張地說,每家公司都正在應(yīng)用 AI, 每個國家或地區(qū)都正在發(fā)展 AI。
人工智能的3個發(fā)展階段
在英偉達GTC 2026上,黃仁勛對當(dāng)前AI的發(fā)展做了3個階段的精辟總結(jié):
第一階段(2023年)
ChatGPT,開啟生成式AI大模型時代。
大量生成式大語言模型涌現(xiàn),ChatGPT,Grok,Gemini,Claud,以及國內(nèi)的DeepSeek,Kimi,千問…它雖然是基本的“對話機器人”形態(tài),但可以理解人類自然語言,甚至語音,視頻等非結(jié)構(gòu)化數(shù)據(jù),給出真人對話般的合理答案。AI科學(xué)家們相信scaling law,給與大模型更多的數(shù)據(jù)以及算力,讓它使用更多的參數(shù),就能訓(xùn)練出更大更好的模型版本。
第二階段(2024年)
ChatGPT o1以及DeepSeek R1模型,開啟了AI推理時代。
當(dāng)“訓(xùn)練”大模型的scaling law開始遇到瓶頸,AI科學(xué)家們看到大模型“推理”能力的潛力。推理能力使AI能夠自我反思、規(guī)劃、分解問題。將AI無法直接理解的問題拆解為可處理的步驟。為此,輸入上下文的token量和用于思考的輸出token量大幅增加,計算量也隨之顯著提升。
第三階段(2025年)
Claud Code以及OpenClaw,開啟AI Agent時代。
AI agent 不再是一個問答機器人,它已經(jīng)可以替人類完成各種任務(wù)。用戶不再只能詢問AI“是什么、在哪里、怎么做”,而是可以讓它“創(chuàng)建、執(zhí)行、構(gòu)建”,讓它主動使用工具、讀取文件、分解問題、付諸行動。AI Agent為了給用戶提供周到、主動的服務(wù),它記錄了大量用戶歷史信息并放入上下文,再提交給大語言模型進行處理,這會消耗大量token。
據(jù)估算,AI從感知,到生成,到推理,再到如今真正能夠完成工作,推理所需的計算量增長了約10,000倍,token使用量增長了約100倍。
傳統(tǒng)的數(shù)據(jù)中心,它存儲了大量文件和數(shù)據(jù),并利用CPU算力對數(shù)據(jù)進行處理,然后提供各種客戶應(yīng)用服務(wù)。而目前各國大力發(fā)展的“智算中心”或者“AI工廠”,則是主要使用GPU算力,使用各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),對大模型進行訓(xùn)練和推理,最終生產(chǎn)token,來支持各類AI應(yīng)用和智能體。
關(guān)鍵問題:如何評估 AI推理基礎(chǔ)設(shè)施的性能?
根據(jù)規(guī)模最大的AII模型聚合網(wǎng)管平臺OpenRouter統(tǒng)計報告,當(dāng)前2026年,相對與2023年,單次LLM請求的token長度變長3-4倍,而調(diào)用次數(shù)則增長為10倍。(來源:https://openrouter.ai/state-of-ai)。預(yù)計未來智能算力(通常用token來衡量),將會成為像水電煤氣一樣不可缺少的基礎(chǔ)設(shè)施。
同時,即使是最智能的AI應(yīng)用和Agent,如果它響應(yīng)緩慢,或者不能在高訪問壓力下穩(wěn)定提供服務(wù),也將無法被作為基礎(chǔ)設(shè)施來使用。所以下一個關(guān)鍵問題是,如何評估這些AI工廠,準(zhǔn)確說是AI推理引擎的性能、效率以及可靠性?
它能否在不斷增長的各種數(shù)據(jù)類型輸入,大量用戶并發(fā),長時間、多輪次任務(wù)中,依然保證性能不下降?這里有一些指標(biāo)需要關(guān)注:
針對用戶側(cè)的使用體驗:
?提示詞的處理速率(prompt rate)
?首token時間、尾token時間(time to firstlast token)
?Token的產(chǎn)生速率(token rate)
?用戶并發(fā)數(shù)量
針對推理引擎本身的統(tǒng)計指標(biāo):
?GPU使用率
?高速內(nèi)存使用率
?KV-cache的使用情況
?Prefill和decode的時間
Keysight推出Keysight AI Inference Builder (KAI 推理構(gòu)建器) 來解決以上問題,并把這些重要的指標(biāo)實時統(tǒng)計并采集,最終展示在同一個統(tǒng)計面板中,為AI云服務(wù)提供商、硬件供應(yīng)商和應(yīng)用開發(fā)人員提供了一個可擴展的測試解決方案,用于測量、驗證和優(yōu)化實際環(huán)境中的推理性能。
AI推理的軟件棧和技術(shù)難點
人工智能推理的硬件和軟件技術(shù)棧,包括加速計算層(例如,GPU、TPU、ASIC)、高速內(nèi)存和存儲、網(wǎng)絡(luò)連接以及與之配套的整個軟件棧 從LLM、推理引擎、服務(wù)和編排層等等。

從宏觀角度來看,人工智能在生成回答之前,會經(jīng)歷以下主要的推理階段:
?分詞(tokenization):將人類語言用戶提示分解成離散的詞匯索引,并將其轉(zhuǎn)換為 LLM 可以進一步處理的固定寬度整數(shù)張量(tensor)。此步驟由分詞器(例如 BPE 或 WordPiece)執(zhí)行。
?預(yù)填充(prefill):模型通過一次大規(guī)模的架構(gòu)迭代來處理整個上下文,計算初始鍵值緩存,并以此為基礎(chǔ)理解用戶的請求意圖。由于并行處理,此階段表現(xiàn)為計算密集行為。
?解碼(decode):每個輸出token標(biāo)記以自回歸的方式逐個生成,模型會反復(fù)從內(nèi)存中獲取并更新鍵值緩存,以保持上下文。由于GPU和內(nèi)存之間需要傳輸大量數(shù)據(jù),因此該階段主要表現(xiàn)為內(nèi)存密集行為。
?逆分詞(Detokenization):將輸出token標(biāo)記轉(zhuǎn)換回字符序列,使用相同的標(biāo)記器,詞匯表將最高概率的輸出索引翻譯成人類語言。
?最終輸出:后處理過濾器或安全防護措施處理生成的字符串,比如禁止內(nèi)容(PII、毒性或幻覺觸發(fā)因素),并將響應(yīng)流式傳輸給客戶端。
正因為人工智能推理流程的復(fù)雜性,而且涉及的環(huán)節(jié)眾多,下面舉例一些典型的性能瓶頸:
GPU計算瓶頸
雖然GPU計算瓶頸在AI訓(xùn)練中非常常見,但在推理過程中也存在,因此業(yè)界針對推理階段,甚至定制開發(fā)了的TPU,LPU。特別是預(yù)填充階段,需要針對提示信息詞的并行處理,因此計算量巨大。特別是長上下文提示詞、長文件導(dǎo)入以及RAG的場景,都會導(dǎo)致GPU高負(fù)載運行。
在這種情況下,從客戶端角度來看,最明顯的影響是首token響應(yīng)時間(Time to First Token,簡稱TTFT)顯著延長。而在推理服務(wù)器端統(tǒng)計數(shù)據(jù),例如tensor core張量核心和流式多處理器(SM)核心的利用率偏高,則是此類瓶頸的主要指標(biāo)。
內(nèi)存帶寬限制
AI推理面臨的最突出挑戰(zhàn)之一就是內(nèi)存帶寬,也稱為內(nèi)存墻。這一限制在解碼階段(decode)尤為突出,因為在解碼階段,token詞元以自回歸的方式順序生成,這涉及到內(nèi)存和GPU之間的大量數(shù)據(jù)傳輸,例如模型權(quán)重和提示詞上下文。高帶寬內(nèi)存(HBM)的瓶頸在長時間或復(fù)雜的應(yīng)答生成任務(wù),以及高并發(fā)期間尤為突出。
用戶體驗到的結(jié)果是整體響應(yīng)速度緩慢,因為token的生成速度變慢。在服務(wù)器端,會注意到每個輸出詞元的生成時間(TPOT)較高,同時GPU利用率不足,從而導(dǎo)致資源利用率低下。
內(nèi)存容量
在高并發(fā)、長時間長上下文會話或多輪對話期間,內(nèi)存使用會不斷增加,以致成為瓶頸。AI客戶端會注意到響應(yīng)時間過長、請求失敗,甚至由于內(nèi)存泄漏或崩潰導(dǎo)致系統(tǒng)無響應(yīng)。在AI服務(wù)器端,緩存利用率將接近100%,隊列長度將顯著增加,而GPU則再次處于低使用率狀態(tài)。
Keysight AI Inference Builder (KAI 推理構(gòu)建器)如何解決問題?

首先,Keysight AI Inference Builder (KAI 推理構(gòu)建器)會部署 test agent來模擬大量用戶,他們將按照用戶配置,發(fā)送特定種類的提示詞進行問題輸入,并等待AI推理引擎進行回復(fù),從而來統(tǒng)計用戶側(cè)的體驗類指標(biāo)。
同時,Keysight AI Inference Builder (KAI 推理構(gòu)建器)可以集成AI推理引擎本身的遙測統(tǒng)計數(shù)據(jù),接入這些統(tǒng)計數(shù)據(jù)并實時放入同的統(tǒng)計面板,進行展示。用戶可以從中分析得出性能瓶頸的原因。
Keysight AI Inference Builder (KAI 推理構(gòu)建器) 通過將提示詞進行如下預(yù)分類以及子分類,并可以配置分類提示詞的比重,來模擬各種真實使用場景:
Law Firms 律師事務(wù)所
?Contract review (long-context, high prefill, memory growth)
合同審查(長上下文,高預(yù)填充,內(nèi)存增長)
?Historical case research (retrieval latency + decode)
歷史案例研究(檢索延遲+解碼)
Quantitative Finance 量化金融
?Multi-document financial modeling (High prefill+High decode)
多文檔金融建模(高預(yù)填充+高解碼)
?Real-time strategy simulation (latency-sensitive, concurrency-heavy)
實時策略模擬(對延遲敏感,高度并發(fā))
Healthcare 醫(yī)療保健
?Patient record summarization (context-heavy)
患者記錄摘要(上下文密集型)
?Clinical reasoning chains (multi-hop, memory-persistent)
臨床推理鏈(多跳,記憶持久)
Academia 學(xué)術(shù)界
?Literature synthesis (High decode)
文獻綜述(高解碼)
?Iterative reasoning and citation expansion (Multi-hop, KV-Cache heavy)
迭代推理和引用擴展(多跳,KV 緩存密集型)
KAI IB的研究不僅限于行業(yè)垂直建模,它還構(gòu)建了針對特定功能的提示詞組合,旨在探測推理引擎的特定組件。這些包括:
?GPU + HBM stress profiles
GPU + HBM 壓力配置文件
?Model architecture sensitivity profiles
模型架構(gòu)敏感性配置文件
?Memory and KV-cache targeted prompts
針對內(nèi)存和 KV 緩存的提示詞
?Networking and fabric stress prompts
針對網(wǎng)絡(luò)壓力的提示詞
Keysight AI Inference Builder (KAI 推理構(gòu)建器) 提供了一個統(tǒng)一的統(tǒng)計界面,將提示詞回復(fù)生成的指標(biāo)與實時AI推理引擎的遙測數(shù)據(jù)關(guān)聯(lián)起來。一方面,它跟蹤工作負(fù)載特性、提示類型、并發(fā)性、突發(fā)模式、TTFT、TPOT 和令牌生成速率。另一方面,它接入AI推理引擎自身的統(tǒng)計數(shù)據(jù),例如 GPU 利用率、內(nèi)存消耗、緩存增長、隊列延遲、網(wǎng)絡(luò)壓力和token速率。

因為這些數(shù)據(jù)集是時間對齊的,團隊可以直接將特定的提示類型映射到其精確的基礎(chǔ)設(shè)施影響上。Prefill峰值可以與 GPU 使用率相關(guān)聯(lián);Decode可變性可以追溯到內(nèi)存帶寬;尾部延遲可以與隊列深度或并發(fā)量相關(guān)聯(lián)。
Keysight AI Inference Builder(KAI 推理構(gòu)建器)打破了傳統(tǒng)的基準(zhǔn)測試模式,通過貼近真實的性能測試,成為基礎(chǔ)設(shè)施顧問。NVIDIA DSX AIR的AI仿真工廠方案,也推薦使用Keysight AI Inference Builder(KAI 推理構(gòu)建器)進行建模和測試。
NVIDIA DSX AIR提供了一個AI工廠的數(shù)字孿生,團隊可以在物理部署之前設(shè)計、建模和驗證其 AI 基礎(chǔ)設(shè)施。Keysight AI Inference Builder (KAI 推理構(gòu)建器) 則通過引入逼真的工作負(fù)載模擬和分析功能來完善這一環(huán)境,使模擬的基礎(chǔ)設(shè)施能夠在類似生產(chǎn)的流量條件下得到驗證。
AI已經(jīng)進入“推理性能”時代
AI 已經(jīng)從簡單的生成階段,進化到了深度思考與執(zhí)行任務(wù)的“推理性能”時代。通過 Keysight AI Inference Builder (KAI 推理構(gòu)建器),企業(yè)不僅能夠看清復(fù)雜的軟硬件堆棧瓶頸,更能在數(shù)字孿生世界中提前驗證真實業(yè)務(wù)負(fù)載。當(dāng)智算中心成為新時代的基礎(chǔ)設(shè)施,精準(zhǔn)的性能評估便是通往高效智能的加速器!
關(guān)于是德科技
是德科技(NYSE:KEYS)啟迪并賦能創(chuàng)新者,助力他們將改變世界的技術(shù)帶入生活。作為一家標(biāo)準(zhǔn)普爾 500 指數(shù)公司,我們提供先進的設(shè)計、仿真和測試解決方案,旨在幫助工程師在整個產(chǎn)品生命周期中更快地完成開發(fā)和部署,同時控制好風(fēng)險。我們的客戶遍及全球通信、工業(yè)自動化、航空航天與國防、汽車、半導(dǎo)體和通用電子等市場。我們與客戶攜手,加速創(chuàng)新,創(chuàng)造一個安全互聯(lián)的世界。
-
AI
+關(guān)注
關(guān)注
91文章
41479瀏覽量
302803 -
人工智能
+關(guān)注
關(guān)注
1821文章
50396瀏覽量
267212 -
ChatGPT
+關(guān)注
關(guān)注
31文章
1604瀏覽量
10404
原文標(biāo)題:當(dāng)Token使用量暴漲,LLM推理性能如何評估?
文章出處:【微信號:是德科技KEYSIGHT,微信公眾號:是德科技KEYSIGHT】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
[完結(jié)15章]Java轉(zhuǎn) AI高薪領(lǐng)域必備-從0到1打通生產(chǎn)級AI Agent開發(fā)
是德科技推出全新AI推理仿真平臺
云天勵飛中標(biāo)湛江市AI滲透支撐新質(zhì)生產(chǎn)力基礎(chǔ)設(shè)施建設(shè)項目
國內(nèi)首個國產(chǎn)AI推理千卡集群落地,采用云天勵飛全自研AI推理芯片
為何CPU是AI基礎(chǔ)設(shè)施的核心
從英偉達電話會看Agentic AI推理與FPGA價值
是德科技如何評估AI推理基礎(chǔ)設(shè)施的性能
評論