92中文字幕不卡片,极品少妇日韩一区三区

擴展定律描述了 AI 系統(tǒng)性能如何隨訓練數(shù)據(jù)、模型參數(shù)或計算資源規(guī)模的增加而提高。

如同許多眾所周知的自然經(jīng)驗法則（例如，凡事有起必有落，或每一個作用力都有一個大小相等、方向相反的反作用力）一樣，在 AI 領域，大家一直認為，計算、訓練數(shù)據(jù)和參數(shù)越多，AI 模型就越好。

然而 AI 發(fā)展至今，已經(jīng)需要三條不同定律來描述不同計算資源配置如何影響模型性能。這三條 AI 擴展定律分別是預訓練擴展、后訓練擴展和測試時擴展（也稱為長思考），它們共同反映了這一領域隨著技術的發(fā)展而演變的過程，而這些技術能夠在各種日益復雜的 AI 用例中使用更多的計算資源。

特別是最近興起的測試時擴展技術（在推理階段應用更多計算資源以提高準確性），使 AI 推理模型成為了可能。這種新的大語言模型 (LLM) 能通過執(zhí)行多次推理來解決復雜問題，同時描述執(zhí)行任務所需的步驟。然而，測試時擴展需要大量計算資源來支持 AI 推理，這將進一步推動對加速計算的需求。

什么是預訓練擴展？

預訓練擴展是最初的 AI 發(fā)展定律。該定律表明：通過提升訓練數(shù)據(jù)集規(guī)模、模型參數(shù)數(shù)量，以及增加計算資源，開發(fā)者能夠?qū)崿F(xiàn)模型智能水平和準確率的可預測性提升。

數(shù)據(jù)、模型大小和計算這三個要素相互關聯(lián)。根據(jù)研究論文所述的預訓練擴展定律，大模型被輸入的數(shù)據(jù)越多，其整體性能越高。為此，開發(fā)者必須擴大計算規(guī)模，而這又進一步推動了對強大加速計算資源的需求，以運行這些大規(guī)模訓練的工作負載。

預訓練擴展定律帶來了具有突破性能力的大模型，同時也激發(fā)了模型架構方面的重大創(chuàng)新，包括十億和萬億參數(shù)級 transformer 模型、混合專家模型和新分布式訓練技術的興起，而這些都對計算資源提出了極高要求。

隨著人類不斷產(chǎn)生大量的多模態(tài)數(shù)據(jù)，包括文本、圖像、音頻、視頻和傳感器信息，這些豐富的數(shù)據(jù)將被用于訓練強大的未來 AI 模型，因此預訓練擴展定律適用性還將持續(xù)。

預訓練擴展是 AI 發(fā)展的基本原則，它建立了模型、數(shù)據(jù)集和計算

與 AI 收益之間的聯(lián)系?；旌蠈＜沂?AI 訓練中的一種常用模型架構。

什么是后訓練擴展？

預訓練大型基礎模型并非易事，它需要大量的投入、專業(yè)的技術專家以及數(shù)據(jù)集。然而，一旦一家公司預訓練并發(fā)布了一個模型，就進而降低了使用 AI 的門檻，讓其他人能夠使用他們預訓練的模型作為基礎，并根據(jù)自己的應用進行調(diào)整。

這種后訓練的過程進一步增加了企業(yè)和更廣泛開發(fā)者社區(qū)對加速計算的持續(xù)需求。流行的開源模型可以衍生出數(shù)百甚至數(shù)千個在眾多領域中訓練過的變體模型。

為各種用例開發(fā)這些衍生模型可能需要比預訓練原始基礎模型多出約 30 倍的計算資源。

后訓練技術可以進一步提高模型針對企業(yè)所需用例的專業(yè)性和相關性。預訓練就像是送 AI 模型去學校學習基礎技能，而后訓練則是教會模型適用于其預期工作的技能。例如，大語言模型在經(jīng)過后訓練后可以處理諸如觀點分析或翻譯等任務，或者理解醫(yī)療或法律等特定領域的術語。

后訓練擴展定律認為，可以使用微調(diào)、剪枝、量化、蒸餾、強化學習和合成數(shù)據(jù)增強等技術，進一步提高預訓練模型的性能，包括計算效率、準確性或領域?qū)I(yè)性。

微調(diào)是使用額外的訓練數(shù)據(jù)為特定領域和應用定制 AI 模型?？梢允褂玫挠柧殧?shù)據(jù)包括企業(yè)內(nèi)部數(shù)據(jù)集，或成對的樣本模型輸入和輸出。

蒸餾需要一對 AI 模型，即一個大型、復雜的教師模型和一個輕量級的學生模型。在最常見的蒸餾技術（稱為離線蒸餾）中，學生模型會學習模仿預訓練教師模型的輸出。

強化學習 (RL)是一種機器學習技術，它通過獎勵模型來訓練一個智能體，使其做出與特定用例相符的決策。智能體的目標是在與環(huán)境交互的過程中，隨著時間推移最大化累積獎勵。例如，一個聊天機器人 LLM 可以通過用戶的“點贊”反應獲得正向強化。這種技術被稱為基于人類反饋的強化學習 (RLHF)。另一種更新的技術是基于 AI 反饋的強化學習 (RLAIF)。它使用 AI 模型的反饋來指導學習過程，從而簡化后訓練的優(yōu)化工作。

Best-of-n 采樣會從語言模型中生成多個輸出，并根據(jù)獎勵模型選擇其中獎勵分數(shù)最高的輸出。這種方法通常用于在不修改模型參數(shù)的情況下提升 AI 的輸出質(zhì)量，是強化學習微調(diào)的一種替代方案。

搜索方法會在選擇最終輸出之前探索一系列潛在的決策路徑。這種后訓練的技術可以通過迭代的方式逐步改進模型的響應。

為了支持后訓練，開發(fā)者可以使用合成數(shù)據(jù)增強或補充他們的微調(diào)數(shù)據(jù)集。使用由 AI 生成的數(shù)據(jù)去補充現(xiàn)實世界的數(shù)據(jù)集，可以使模型更善于處理原始訓練數(shù)據(jù)中罕見或缺失的邊緣案例。

后訓練擴展使用微調(diào)、剪枝和蒸餾等技術完善預訓練模型，以提高效率和任務相關性。

什么是測試時擴展？

LLM 可以對輸入的提示作出快速響應。雖然該過程非常適合回答簡單問題，但在面對用戶提出的復雜問題時可能就不那么奏效了。而回答復雜問題是代理式 AI 工作負載的一項基本能力，這項工作要求 LLM 在得出答案之前先對問題進行推理。

這與大多數(shù)人類的思維方式類似——當被問到像 2 加 2 這樣的問題時，我們可以立即給出答案，不需要涉及加法或整數(shù)的基本原理。但如果當場被要求制定一個能讓公司利潤增長 10% 的商業(yè)計劃，那么我們就需要對各種選項進行推理，并給出一個多步驟的答案。

測試時擴展也被稱為長思考，發(fā)生在推理過程中。傳統(tǒng)的 AI 模型會根據(jù)用戶提示快速生成一個一次性的答案，而使用測試時擴展技術的模型則會在推理過程中進行額外的計算，以便在得出最佳答案之前對多個備選答案進行推理。

在為開發(fā)者生成復雜、定制化的代碼等任務中，這種 AI 推理過程可能需要花費數(shù)分鐘甚至數(shù)小時——與傳統(tǒng) LLM 的單次推理相比，對于復雜的查詢，它可能需要超過 100 倍的計算資源，而傳統(tǒng) LLM 在第一次嘗試時幾乎不可能正確回答復雜問題。

這種測試時計算的能力使 AI 模型能夠探索問題的不同解決方案，并將復雜的請求分解為多個步驟。在許多情況下，它們在推理時會向用戶展示自己的工作。研究發(fā)現(xiàn)，在向 AI 模型提供需要多個推理和規(guī)劃步驟的開放式提示時，測試時擴展能夠提高回答的質(zhì)量。

測試時計算方法有很多，包括：

思維鏈提示：將復雜的問題分解為一系列較簡單的步驟。

多數(shù)表決抽樣：針對相同的提示生成多個回答，然后選擇出現(xiàn)頻率最高的答案作為最終輸出。

搜索：探索并評估響應的樹狀結構中存在的多條路徑。

像 Best-of-n 采樣這樣的后訓練方法也可以在推理階段用于“長思考”，以優(yōu)化響應，使其更符合人類偏好或其他目標。

測試時擴展通過進行額外的計算改進 AI 推理，從而增強模型的推理能力，使模型能夠有效解決復雜的多步驟問題。

測試時擴展如何實現(xiàn) AI 推理

測試時計算的興起使 AI 能夠?qū)碗s的開放式用戶查詢作出有理有據(jù)、實用且更加準確的回答。這種能力對于自主代理式 AI 和物理 AI 應用所期望的詳細、多步驟推理任務至關重要，為各個行業(yè)的用戶提供了能夠加快工作速度的超強助手，提高效率和生產(chǎn)力。

在醫(yī)療領域，模型可以使用測試時擴展技術分析海量數(shù)據(jù)，推斷疾病的發(fā)展情況，并根據(jù)藥物分子的化學結構預測新療法可能引發(fā)的潛在并發(fā)癥。它們還可以梳理臨床試驗數(shù)據(jù)庫，以便推薦符合個人疾病特征的治療方案，同時分享其對不同研究利弊的推理過程。

在零售和供應鏈物流領域，“長思考”可以助力解決短期運營挑戰(zhàn)和長期戰(zhàn)略目標所需的復雜決策。通過推理技術，企業(yè)能夠同時預測和評估多種場景，從而降低風險并應對可擴展性挑戰(zhàn)。這有助于實現(xiàn)更準確的需求預測、優(yōu)化供應鏈路線以及做出與組織可持續(xù)發(fā)展目標一致的采購決策。

全球各地的企業(yè)都可以使用該技術起草詳細的商業(yè)計劃，生成復雜的代碼來調(diào)試軟件，或優(yōu)化送貨卡車、倉庫機器人和自動駕駛出租車的行駛路線。

AI 推理模型正在迅速發(fā)展。過去幾周內(nèi)，OpenAI o1-mini 和 o3-mini、DeepSeek R1 以及谷歌 DeepMind 的 Gemini 2.0 Flash Thinking 相繼推出，預計很快還會有更多的新模型推出。

這些模型需要大量的計算資源進行推理以及正確回答復雜問題，這意味著企業(yè)需要擴展其加速計算資源來提供支持復雜問題解答、編碼和多步驟規(guī)劃的下一代 AI 推理工具。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5696

瀏覽量
110144
AI

AI

+關注

關注
91

文章
41370

瀏覽量
302740
模型

模型

+關注

關注
1

文章
3834

瀏覽量
52289

原文標題：如何通過擴展定律推動更智能、更強大的 AI

文章出處：【微信號：NVIDIA_China，微信公眾號：NVIDIA英偉達】歡迎添加關注！文章轉載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

測試時擴展技術如何實現(xiàn)AI推理

評論