婷婷四月天亚洲天堂,啪啪91视频免费看

本文作者王朝暉

是德科技網(wǎng)絡(luò)與解決方案部門資深AI 網(wǎng)絡(luò)架構(gòu)師

不管你是不是技術(shù)相關(guān)從業(yè)者，都已經(jīng)被AI熱潮席卷。你的手機app一定會被推送各種AI文章和相關(guān)熱詞，“大語言模型”，“ChatGPT/DeepSeek/千問/豆包…”，“推理模型”，“token”，“AI agent”，“Openclaw（小龍蝦）”…

如今AI已經(jīng)開始大規(guī)模落地，正在改變各行各業(yè)，甚至將重塑整個世界。它并非只是一款巧妙的應(yīng)用程序，也不是某個單一的模型，而是如同電力和互聯(lián)網(wǎng)一樣，成為必不可少的基礎(chǔ)設(shè)施。AI 依托真實的能源、硬件和基礎(chǔ)架構(gòu)，正在大規(guī)模地生產(chǎn)智能，給各行各業(yè)賦予AI能力。毫不夸張地說，每家公司都正在應(yīng)用 AI，每個國家或地區(qū)都正在發(fā)展 AI。

人工智能的3個發(fā)展階段

在英偉達GTC 2026上，黃仁勛對當(dāng)前AI的發(fā)展做了3個階段的精辟總結(jié)：

第一階段（2023年）

ChatGPT，開啟生成式AI大模型時代。

大量生成式大語言模型涌現(xiàn)，ChatGPT，Grok，Gemini，Claud，以及國內(nèi)的DeepSeek，Kimi，千問…它雖然是基本的“對話機器人”形態(tài)，但可以理解人類自然語言，甚至語音，視頻等非結(jié)構(gòu)化數(shù)據(jù)，給出真人對話般的合理答案。AI科學(xué)家們相信scaling law，給與大模型更多的數(shù)據(jù)以及算力，讓它使用更多的參數(shù)，就能訓(xùn)練出更大更好的模型版本。

第二階段（2024年）

ChatGPT o1以及DeepSeek R1模型，開啟了AI推理時代。

當(dāng)“訓(xùn)練”大模型的scaling law開始遇到瓶頸，AI科學(xué)家們看到大模型“推理”能力的潛力。推理能力使AI能夠自我反思、規(guī)劃、分解問題。將AI無法直接理解的問題拆解為可處理的步驟。為此，輸入上下文的token量和用于思考的輸出token量大幅增加，計算量也隨之顯著提升。

第三階段（2025年）

Claud Code以及OpenClaw，開啟AI Agent時代。

AI agent 不再是一個問答機器人，它已經(jīng)可以替人類完成各種任務(wù)。用戶不再只能詢問AI“是什么、在哪里、怎么做”，而是可以讓它“創(chuàng)建、執(zhí)行、構(gòu)建”，讓它主動使用工具、讀取文件、分解問題、付諸行動。AI Agent為了給用戶提供周到、主動的服務(wù)，它記錄了大量用戶歷史信息并放入上下文，再提交給大語言模型進行處理，這會消耗大量token。

據(jù)估算，AI從感知，到生成，到推理，再到如今真正能夠完成工作，推理所需的計算量增長了約10,000倍，token使用量增長了約100倍。

傳統(tǒng)的數(shù)據(jù)中心，它存儲了大量文件和數(shù)據(jù)，并利用CPU算力對數(shù)據(jù)進行處理，然后提供各種客戶應(yīng)用服務(wù)。而目前各國大力發(fā)展的“智算中心”或者“AI工廠”，則是主要使用GPU算力，使用各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，對大模型進行訓(xùn)練和推理，最終生產(chǎn)token，來支持各類AI應(yīng)用和智能體。

關(guān)鍵問題：如何評估 AI推理基礎(chǔ)設(shè)施的性能？

根據(jù)規(guī)模最大的AII模型聚合網(wǎng)管平臺OpenRouter統(tǒng)計報告，當(dāng)前2026年，相對與2023年，單次LLM請求的token長度變長3-4倍，而調(diào)用次數(shù)則增長為10倍。（來源：https://openrouter.ai/state-of-ai）。預(yù)計未來智能算力（通常用token來衡量），將會成為像水電煤氣一樣不可缺少的基礎(chǔ)設(shè)施。

同時，即使是最智能的AI應(yīng)用和Agent，如果它響應(yīng)緩慢，或者不能在高訪問壓力下穩(wěn)定提供服務(wù)，也將無法被作為基礎(chǔ)設(shè)施來使用。所以下一個關(guān)鍵問題是，如何評估這些AI工廠，準(zhǔn)確說是AI推理引擎的性能、效率以及可靠性？

它能否在不斷增長的各種數(shù)據(jù)類型輸入，大量用戶并發(fā)，長時間、多輪次任務(wù)中，依然保證性能不下降？這里有一些指標(biāo)需要關(guān)注：

針對用戶側(cè)的使用體驗：

?提示詞的處理速率（prompt rate）

?首token時間、尾token時間（time to firstlast token）

?Token的產(chǎn)生速率（token rate）

?用戶并發(fā)數(shù)量

針對推理引擎本身的統(tǒng)計指標(biāo)：

?GPU使用率

?高速內(nèi)存使用率

?KV-cache的使用情況

?Prefill和decode的時間

Keysight推出Keysight AI Inference Builder (KAI 推理構(gòu)建器) 來解決以上問題，并把這些重要的指標(biāo)實時統(tǒng)計并采集，最終展示在同一個統(tǒng)計面板中，為AI云服務(wù)提供商、硬件供應(yīng)商和應(yīng)用開發(fā)人員提供了一個可擴展的測試解決方案，用于測量、驗證和優(yōu)化實際環(huán)境中的推理性能。

AI推理的軟件棧和技術(shù)難點

人工智能推理的硬件和軟件技術(shù)棧，包括加速計算層（例如，GPU、TPU、ASIC）、高速內(nèi)存和存儲、網(wǎng)絡(luò)連接以及與之配套的整個軟件棧從LLM、推理引擎、服務(wù)和編排層等等。

從宏觀角度來看，人工智能在生成回答之前，會經(jīng)歷以下主要的推理階段：

?分詞（tokenization）：將人類語言用戶提示分解成離散的詞匯索引，并將其轉(zhuǎn)換為 LLM 可以進一步處理的固定寬度整數(shù)張量（tensor）。此步驟由分詞器（例如 BPE 或 WordPiece）執(zhí)行。

?預(yù)填充（prefill）：模型通過一次大規(guī)模的架構(gòu)迭代來處理整個上下文，計算初始鍵值緩存，并以此為基礎(chǔ)理解用戶的請求意圖。由于并行處理，此階段表現(xiàn)為計算密集行為。

?解碼（decode）：每個輸出token標(biāo)記以自回歸的方式逐個生成，模型會反復(fù)從內(nèi)存中獲取并更新鍵值緩存，以保持上下文。由于GPU和內(nèi)存之間需要傳輸大量數(shù)據(jù)，因此該階段主要表現(xiàn)為內(nèi)存密集行為。

?逆分詞（Detokenization）：將輸出token標(biāo)記轉(zhuǎn)換回字符序列，使用相同的標(biāo)記器，詞匯表將最高概率的輸出索引翻譯成人類語言。

?最終輸出：后處理過濾器或安全防護措施處理生成的字符串，比如禁止內(nèi)容（PII、毒性或幻覺觸發(fā)因素），并將響應(yīng)流式傳輸給客戶端。

正因為人工智能推理流程的復(fù)雜性，而且涉及的環(huán)節(jié)眾多，下面舉例一些典型的性能瓶頸：

GPU計算瓶頸

雖然GPU計算瓶頸在AI訓(xùn)練中非常常見，但在推理過程中也存在，因此業(yè)界針對推理階段，甚至定制開發(fā)了的TPU，LPU。特別是預(yù)填充階段，需要針對提示信息詞的并行處理，因此計算量巨大。特別是長上下文提示詞、長文件導(dǎo)入以及RAG的場景，都會導(dǎo)致GPU高負(fù)載運行。

在這種情況下，從客戶端角度來看，最明顯的影響是首token響應(yīng)時間（Time to First Token，簡稱TTFT）顯著延長。而在推理服務(wù)器端統(tǒng)計數(shù)據(jù)，例如tensor core張量核心和流式多處理器（SM）核心的利用率偏高，則是此類瓶頸的主要指標(biāo)。

內(nèi)存帶寬限制

AI推理面臨的最突出挑戰(zhàn)之一就是內(nèi)存帶寬，也稱為內(nèi)存墻。這一限制在解碼階段（decode）尤為突出，因為在解碼階段，token詞元以自回歸的方式順序生成，這涉及到內(nèi)存和GPU之間的大量數(shù)據(jù)傳輸，例如模型權(quán)重和提示詞上下文。高帶寬內(nèi)存（HBM）的瓶頸在長時間或復(fù)雜的應(yīng)答生成任務(wù)，以及高并發(fā)期間尤為突出。

用戶體驗到的結(jié)果是整體響應(yīng)速度緩慢，因為token的生成速度變慢。在服務(wù)器端，會注意到每個輸出詞元的生成時間（TPOT）較高，同時GPU利用率不足，從而導(dǎo)致資源利用率低下。

內(nèi)存容量

在高并發(fā)、長時間長上下文會話或多輪對話期間，內(nèi)存使用會不斷增加，以致成為瓶頸。AI客戶端會注意到響應(yīng)時間過長、請求失敗，甚至由于內(nèi)存泄漏或崩潰導(dǎo)致系統(tǒng)無響應(yīng)。在AI服務(wù)器端，緩存利用率將接近100%，隊列長度將顯著增加，而GPU則再次處于低使用率狀態(tài)。

Keysight AI Inference Builder (KAI 推理構(gòu)建器)如何解決問題？

首先，Keysight AI Inference Builder (KAI 推理構(gòu)建器)會部署 test agent來模擬大量用戶，他們將按照用戶配置，發(fā)送特定種類的提示詞進行問題輸入，并等待AI推理引擎進行回復(fù)，從而來統(tǒng)計用戶側(cè)的體驗類指標(biāo)。

同時，Keysight AI Inference Builder (KAI 推理構(gòu)建器)可以集成AI推理引擎本身的遙測統(tǒng)計數(shù)據(jù)，接入這些統(tǒng)計數(shù)據(jù)并實時放入同的統(tǒng)計面板，進行展示。用戶可以從中分析得出性能瓶頸的原因。

Keysight AI Inference Builder (KAI 推理構(gòu)建器) 通過將提示詞進行如下預(yù)分類以及子分類，并可以配置分類提示詞的比重，來模擬各種真實使用場景：

Law Firms 律師事務(wù)所

?Contract review (long-context, high prefill, memory growth)

合同審查（長上下文，高預(yù)填充，內(nèi)存增長）

?Historical case research (retrieval latency + decode)

歷史案例研究（檢索延遲+解碼）

Quantitative Finance 量化金融

?Multi-document financial modeling (High prefill+High decode)

多文檔金融建模（高預(yù)填充+高解碼）

?Real-time strategy simulation (latency-sensitive, concurrency-heavy)

實時策略模擬（對延遲敏感，高度并發(fā)）

Healthcare 醫(yī)療保健

?Patient record summarization (context-heavy)

患者記錄摘要（上下文密集型）

?Clinical reasoning chains (multi-hop, memory-persistent)

臨床推理鏈（多跳，記憶持久）

Academia 學(xué)術(shù)界

?Literature synthesis (High decode)

文獻綜述（高解碼）

?Iterative reasoning and citation expansion (Multi-hop, KV-Cache heavy)

迭代推理和引用擴展（多跳，KV 緩存密集型）

KAI IB的研究不僅限于行業(yè)垂直建模，它還構(gòu)建了針對特定功能的提示詞組合，旨在探測推理引擎的特定組件。這些包括：

?GPU + HBM stress profiles

GPU + HBM 壓力配置文件

?Model architecture sensitivity profiles

模型架構(gòu)敏感性配置文件

?Memory and KV-cache targeted prompts

針對內(nèi)存和 KV 緩存的提示詞

?Networking and fabric stress prompts

針對網(wǎng)絡(luò)壓力的提示詞

Keysight AI Inference Builder (KAI 推理構(gòu)建器) 提供了一個統(tǒng)一的統(tǒng)計界面，將提示詞回復(fù)生成的指標(biāo)與實時AI推理引擎的遙測數(shù)據(jù)關(guān)聯(lián)起來。一方面，它跟蹤工作負(fù)載特性、提示類型、并發(fā)性、突發(fā)模式、TTFT、TPOT 和令牌生成速率。另一方面，它接入AI推理引擎自身的統(tǒng)計數(shù)據(jù)，例如 GPU 利用率、內(nèi)存消耗、緩存增長、隊列延遲、網(wǎng)絡(luò)壓力和token速率。

因為這些數(shù)據(jù)集是時間對齊的，團隊可以直接將特定的提示類型映射到其精確的基礎(chǔ)設(shè)施影響上。Prefill峰值可以與 GPU 使用率相關(guān)聯(lián)；Decode可變性可以追溯到內(nèi)存帶寬；尾部延遲可以與隊列深度或并發(fā)量相關(guān)聯(lián)。

Keysight AI Inference Builder(KAI 推理構(gòu)建器)打破了傳統(tǒng)的基準(zhǔn)測試模式，通過貼近真實的性能測試，成為基礎(chǔ)設(shè)施顧問。NVIDIA DSX AIR的AI仿真工廠方案，也推薦使用Keysight AI Inference Builder(KAI 推理構(gòu)建器)進行建模和測試。

NVIDIA DSX AIR提供了一個AI工廠的數(shù)字孿生，團隊可以在物理部署之前設(shè)計、建模和驗證其 AI 基礎(chǔ)設(shè)施。Keysight AI Inference Builder (KAI 推理構(gòu)建器) 則通過引入逼真的工作負(fù)載模擬和分析功能來完善這一環(huán)境，使模擬的基礎(chǔ)設(shè)施能夠在類似生產(chǎn)的流量條件下得到驗證。

AI已經(jīng)進入“推理性能”時代

AI 已經(jīng)從簡單的生成階段，進化到了深度思考與執(zhí)行任務(wù)的“推理性能”時代。通過 Keysight AI Inference Builder (KAI 推理構(gòu)建器)，企業(yè)不僅能夠看清復(fù)雜的軟硬件堆棧瓶頸，更能在數(shù)字孿生世界中提前驗證真實業(yè)務(wù)負(fù)載。當(dāng)智算中心成為新時代的基礎(chǔ)設(shè)施，精準(zhǔn)的性能評估便是通往高效智能的加速器！

關(guān)于是德科技

是德科技（NYSE：KEYS）啟迪并賦能創(chuàng)新者，助力他們將改變世界的技術(shù)帶入生活。作為一家標(biāo)準(zhǔn)普爾 500 指數(shù)公司，我們提供先進的設(shè)計、仿真和測試解決方案，旨在幫助工程師在整個產(chǎn)品生命周期中更快地完成開發(fā)和部署，同時控制好風(fēng)險。我們的客戶遍及全球通信、工業(yè)自動化、航空航天與國防、汽車、半導(dǎo)體和通用電子等市場。我們與客戶攜手，加速創(chuàng)新，創(chuàng)造一個安全互聯(lián)的世界。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
41479

瀏覽量
302803
人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50396

瀏覽量
267212
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
31

文章
1604

瀏覽量
10404

原文標(biāo)題：當(dāng)Token使用量暴漲，LLM推理性能如何評估？

文章出處：【微信號：是德科技KEYSIGHT，微信公眾號：是德科技KEYSIGHT】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

是德科技如何評估AI推理基礎(chǔ)設(shè)施的性能

評論