日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LLM推理模型是如何推理的?

穎脈Imgtec ? 2026-01-19 15:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這篇文章《(How) Do Reasoning Models Reason?》對(duì)當(dāng)前大型推理模型(LRM)進(jìn)行了深刻的剖析,超越了表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細(xì)技術(shù)原理、關(guān)鍵過(guò)程與核心見(jiàn)解拆解。


一、核心論點(diǎn)與總覽

LRM(如 o1, R1)的“推理”能力提升,并非源于模型學(xué)會(huì)了人類式的邏輯推理,而是通過(guò)兩類主要技術(shù)手段,優(yōu)化了生成過(guò)程,使其在輸出最終答案前,模仿并生成看似合理的推導(dǎo)過(guò)程。其本質(zhì)是在“生成-測(cè)試”框架中,將外部驗(yàn)證信號(hào)逐步“編譯”進(jìn)生成模型參數(shù)中。


二、兩大技術(shù)路徑的詳細(xì)原理與過(guò)程

1. 測(cè)試時(shí)推理(Test-time Inference)

1ec78a80-f509-11f0-8ce9-92fbcf53809c.png

Figure 1:Test-time scaling approaches for teasing out reasoning

核心思想:在推理(回答用戶問(wèn)題)時(shí),讓模型做比“直接生成答案”更多的工作,相當(dāng)于在測(cè)試時(shí)進(jìn)行可擴(kuò)展的、問(wèn)題自適應(yīng)的計(jì)算。

關(guān)鍵過(guò)程:

(1)生成:使用LLM為同一個(gè)問(wèn)題生成多個(gè)候選答案或解軌跡。

(2)驗(yàn)證/選擇:通過(guò)某種機(jī)制篩選出最優(yōu)答案。

2.1)簡(jiǎn)單選擇:如“自我一致性”,選擇出現(xiàn)頻率最高的答案(假設(shè)模型誤差是隨機(jī)的)。

2.2)驗(yàn)證驅(qū)動(dòng):引入“驗(yàn)證器”對(duì)候選答案進(jìn)行檢驗(yàn)。這是性能提升的關(guān)鍵。

驗(yàn)證器類型:

(a)外部可靠驗(yàn)證器:使用傳統(tǒng)求解器或可證明正確的程序(如數(shù)學(xué)計(jì)算器、規(guī)劃器)。這是最可靠的方式,能提供正確性保證(如LLM-Modulo框架)。

(b)學(xué)習(xí)型驗(yàn)證器:訓(xùn)練另一個(gè)模型來(lái)判斷答案正確性(問(wèn)題:驗(yàn)證器也可能出錯(cuò))。

(c)LLM自我驗(yàn)證:讓LLM自我評(píng)估(已被證明存在問(wèn)題,容易產(chǎn)生過(guò)度自信)。

迭代改進(jìn):如果驗(yàn)證失敗,可以將錯(cuò)誤信息反饋給生成器,讓其重新生成,形成“生成-測(cè)試-修正”循環(huán)。

核心見(jiàn)解: 這本質(zhì)上是將搜索或規(guī)劃過(guò)程外包給了測(cè)試時(shí)的計(jì)算循環(huán),而非內(nèi)化于模型權(quán)重中。

根本問(wèn)題:成本爆炸。計(jì)算成本不再與輸出長(zhǎng)度成正比,而是與問(wèn)題的內(nèi)在計(jì)算復(fù)雜度成正比,顛覆了LLM按token計(jì)費(fèi)的傳統(tǒng)商業(yè)模式。

2. 訓(xùn)練后方法(基于推導(dǎo)軌跡,Post-Training on Derivational Traces)

1ef1fd2e-f509-11f0-8ce9-92fbcf53809c.png

Figure 2:Post-training Approaches for teasing out reasoning

核心思想:在標(biāo)準(zhǔn)預(yù)訓(xùn)練后,使用包含“解題步驟”(推導(dǎo)軌跡)的數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練,教會(huì)模型在輸出答案前,先輸出類似的中間步驟。

關(guān)鍵過(guò)程:

(1)軌跡數(shù)據(jù)獲取(最大難點(diǎn)):

1)人工標(biāo)注:高質(zhì)量但代價(jià)極高(如GSM8K數(shù)據(jù)集)。

2)合成生成:使用傳統(tǒng)求解器(如A*搜索)自動(dòng)生成問(wèn)題解及其完整的搜索軌跡(如SearchFormer)。軌跡準(zhǔn)確但領(lǐng)域受限。

3)LLM生成后過(guò)濾:讓LLM自己生成步驟(利用其預(yù)訓(xùn)練中已有的“步驟示范”數(shù)據(jù)),然后通過(guò)驗(yàn)證器過(guò)濾出最終答案正確的軌跡(無(wú)論中間步驟是否真正合理)。這是當(dāng)前主流方法。

模型訓(xùn)練:

(1)監(jiān)督微調(diào):直接在(問(wèn)題,推導(dǎo)軌跡,答案)數(shù)據(jù)上微調(diào)。

(2)強(qiáng)化學(xué)習(xí):更先進(jìn)的方法(如DeepSeek R1)。

2.1)過(guò)程:對(duì)于可驗(yàn)證的問(wèn)題,讓模型生成多條帶“痕跡”的答案。

2.2)獎(jiǎng)勵(lì):僅根據(jù)最終答案的正確與否給予獎(jiǎng)勵(lì)/懲罰。

2.3)效果:模型參數(shù)被調(diào)整,使得能導(dǎo)致正確答案的輸出模式(包括其前面的“痕跡”)概率增大。

2.4)知識(shí)蒸餾:將經(jīng)過(guò)RL訓(xùn)練的“教師模型”的輸出作為數(shù)據(jù),去訓(xùn)練一個(gè)更小的“學(xué)生模型”,可以免去昂貴的RL過(guò)程。

(3)核心見(jiàn)解:

痕跡的語(yǔ)義虛假性:訓(xùn)練目標(biāo)只關(guān)心最終答案正確。模型學(xué)會(huì)的是一種能“討好”獎(jiǎng)勵(lì)信號(hào)的輸出格式(先輸出一堆token,然后輸出答案),這些中間token不一定構(gòu)成邏輯推理,而可能是任何有助于提高最終答案正確率的模式。

本質(zhì)是編譯驗(yàn)證信號(hào):該過(guò)程可以理解為將外部驗(yàn)證器(在訓(xùn)練時(shí)使用)的“測(cè)試”能力,部分地編譯到了生成模型的“生成”傾向中。即“智能是將‘生成-測(cè)試’中的測(cè)試部分轉(zhuǎn)移到生成部分”(明斯基)。


三、對(duì)LRM的批判性見(jiàn)解(打破誤解)

1. 中間token不是“思考痕跡”

模型生成的“讓我們一步步思考…”等文本,是對(duì)預(yù)訓(xùn)練數(shù)據(jù)中人類解題風(fēng)格的模仿,而非內(nèi)部計(jì)算過(guò)程的反映。作者戲稱為“大型喃喃自語(yǔ)模型”。

證據(jù):即使在專門(mén)訓(xùn)練輸出求解器軌跡的模型(如SearchFormer)中,其輸出的“步驟”也常包含違反基本算法規(guī)則的操作(如從開(kāi)放列表中刪除不存在的節(jié)點(diǎn)),但這些錯(cuò)誤軌跡有時(shí)仍能“蒙對(duì)”最終答案。這說(shuō)明軌跡的正確性并非必要。

2. 性能提升的來(lái)源是“提示增強(qiáng)”,而非獲得推理能力:

1f137fda-f509-11f0-8ce9-92fbcf53809c.png

Figure 4: Augmenting a task prompt with additional tokens often seems to improve the accuracy of LLM completion even if the tokens don’t have human-parseable meaning.

給LLM一個(gè)更長(zhǎng)的、特定格式的提示詞(如包含“步驟”),即使這些附加token對(duì)人類毫無(wú)意義,也能提高其答案準(zhǔn)確性。

LRM的訓(xùn)練后方法,實(shí)質(zhì)上是將這種有效的“提示增強(qiáng)”動(dòng)態(tài)地、內(nèi)化地置于每次生成的開(kāi)頭。模型學(xué)會(huì)了自己為自己“鋪墊”一段有利于解題的上下文。

3. 泛化能力脆弱

在簡(jiǎn)單規(guī)劃任務(wù)(Blocksworld)上表現(xiàn)尚可,但一旦對(duì)對(duì)象和動(dòng)作進(jìn)行重命名(Mystery Blocksworld),性能就大幅下降。這表明模型嚴(yán)重依賴表面詞匯的匹配,而非抽象的邏輯結(jié)構(gòu)理解。

面對(duì)不可解問(wèn)題時(shí),LRM會(huì)自信地生成虛假計(jì)劃并配上看似合理的解釋,存在“ gas lighting ”(誤導(dǎo))用戶的風(fēng)險(xiǎn)。

4. 與LLMs沒(méi)有根本性架構(gòu)區(qū)別

僅經(jīng)過(guò)訓(xùn)練后的LRMs,在推理時(shí)仍然是接收提示,自回歸地生成token。其架構(gòu)與普通LLM完全相同。

唯一改變的是模型輸出token序列的概率分布:它現(xiàn)在更傾向于先生成一段“類推導(dǎo)痕跡”的token,再生成答案。沒(méi)有自適應(yīng)計(jì)算,生成長(zhǎng)度在訓(xùn)練時(shí)已大致確定。


四、核心流程圖解:LRMs的工作原理與本質(zhì)

以下圖表概括了上述所有關(guān)鍵過(guò)程和見(jiàn)解:

1f2e493c-f509-11f0-8ce9-92fbcf53809c.png


五、未來(lái)方向與建議

去擬人化:放棄讓中間token像人類“思考”,轉(zhuǎn)而探索高效、壓縮、符號(hào)化的中間表示,純粹以提升最終準(zhǔn)確性為目標(biāo)進(jìn)行優(yōu)化(類似AlphaZero學(xué)習(xí)價(jià)值函數(shù))。

混合系統(tǒng)定位:LRMs不應(yīng)被視為獨(dú)立的“推理者”,而應(yīng)作為增強(qiáng)型的提議生成器,集成在如LLM-Modulo的框架中,由外部驗(yàn)證器提供可靠性保證。

重新審視評(píng)估:需要超越最終答案準(zhǔn)確率的基準(zhǔn)測(cè)試,設(shè)計(jì)能測(cè)評(píng)推理過(guò)程穩(wěn)健性、泛化性和成本效率的評(píng)估體系。

總而言之,本文揭示了LRMs“推理”能力背后的工程本質(zhì),對(duì)其過(guò)度擬人化的解讀提出了有力批判,并為更穩(wěn)健、可靠的AI系統(tǒng)設(shè)計(jì)指明了方向。

本文轉(zhuǎn)自:小猴智能,由小猴翻譯校對(duì)

源文:(How) Do Reasoning Models Reason?2025.4.14

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 測(cè)試
    +關(guān)注

    關(guān)注

    9

    文章

    6429

    瀏覽量

    131700
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    350

    瀏覽量

    1397
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    商湯科技正式開(kāi)源多模態(tài)自主推理模型SenseNova-MARS

    今日,商湯正式開(kāi)源多模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在多模態(tài)搜索與推理的核心基準(zhǔn)測(cè)試中以 69.74 分超越Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分)。
    的頭像 發(fā)表于 01-30 10:13 ?809次閱讀
    商湯科技正式開(kāi)源多模態(tài)自主<b class='flag-5'>推理模型</b>SenseNova-MARS

    商湯開(kāi)源SenseNova-MARS:突破多模態(tài)搜索推理天花板

    今日,商湯正式開(kāi)源多模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在多模態(tài)搜索與推理的核心基準(zhǔn)測(cè)試中以 69.74 分超越Gemini-3-Pro(69.06 分
    的頭像 發(fā)表于 01-29 23:53 ?274次閱讀
    商湯開(kāi)源SenseNova-MARS:突破多模態(tài)搜索<b class='flag-5'>推理</b>天花板

    阿里巴巴發(fā)布通義千問(wèn)旗艦推理模型Qwen3-Max-Thinking

    今天,我們正式發(fā)布千問(wèn)旗艦推理模型Qwen3-Max-Thinking,創(chuàng)下數(shù)項(xiàng)權(quán)威評(píng)測(cè)全球新紀(jì)錄。
    的頭像 發(fā)表于 01-27 15:47 ?628次閱讀
    阿里巴巴發(fā)布通義千問(wèn)旗艦<b class='flag-5'>推理模型</b>Qwen3-Max-Thinking

    基于NVIDIA Alpamayo構(gòu)建具備推理能力的輔助駕駛汽車

    輔助駕駛研究領(lǐng)域正經(jīng)歷一場(chǎng)快速變革。視覺(jué)-語(yǔ)言-動(dòng)作推理模型(Reasoning VLA) 的出現(xiàn)正重塑該領(lǐng)域,這些模型為輔助駕駛決策賦予了類人的思維能力。這類模型可視為在語(yǔ)義空間中運(yùn)行的隱式世界
    的頭像 發(fā)表于 01-14 09:41 ?2353次閱讀
    基于NVIDIA Alpamayo構(gòu)建具備<b class='flag-5'>推理</b>能力的輔助駕駛汽車

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)
    的頭像 發(fā)表于 10-21 11:04 ?1459次閱讀

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1514次閱讀

    如果大模型是一片星空,誰(shuí)是北斗?

    文心X1.1,破解推理模型的發(fā)展瓶頸
    的頭像 發(fā)表于 09-10 18:02 ?3690次閱讀
    如果大<b class='flag-5'>模型</b>是一片星空,誰(shuí)是北斗?

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?2041次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    澎峰科技完成OpenAI最新開(kāi)源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開(kāi)源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機(jī)上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強(qiáng)悍”的新引擎,在本地享受企業(yè)級(jí) AI 生產(chǎn)力!
    的頭像 發(fā)表于 08-14 11:34 ?1583次閱讀

    利用NVIDIA推理模型構(gòu)建AI智能體

    開(kāi)放式推理模型能夠更快、更廣泛地進(jìn)行思考,為客戶服務(wù)、網(wǎng)絡(luò)安全、制造、物流和機(jī)器人等領(lǐng)域的 AI 智能體生成更明智的結(jié)果。
    的頭像 發(fā)表于 08-13 14:32 ?1788次閱讀
    利用NVIDIA<b class='flag-5'>推理模型</b>構(gòu)建AI智能體

    請(qǐng)問(wèn)如何在RK3588上使用npu,用onnx模型來(lái)推理

    請(qǐng)問(wèn)如何在瑞芯微 RK3588上使用npu,用onnx模型來(lái)推理。官網(wǎng)上介紹說(shuō)要把ONNX模型轉(zhuǎn)換成RKNN模型。但是我并不想這么干,請(qǐng)問(wèn)有什么辦法嗎?
    發(fā)表于 08-09 00:51

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開(kāi)發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大的推理引擎能力,融合了自然語(yǔ)言處理(NLP)、深度
    發(fā)表于 07-16 15:29

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2463次閱讀

    模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這一問(wèn)題,本文將探討大模型
    發(fā)表于 07-03 19:43

    邏輯推理AI智能體的實(shí)際應(yīng)用

    由大語(yǔ)言模型 (LLM) 驅(qū)動(dòng)的 AI 智能體,已經(jīng)從最初解答常見(jiàn)問(wèn)題的聊天機(jī)器人進(jìn)化為真正的數(shù)字伙伴,它們不僅能夠進(jìn)行規(guī)劃、邏輯推理并自主行動(dòng),還能在過(guò)程中持續(xù)接受糾錯(cuò)反饋。
    的頭像 發(fā)表于 05-20 16:28 ?1115次閱讀
    台北市| 渭源县| 九龙坡区| 澎湖县| 阿拉善左旗| 武平县| 江阴市| 高雄县| 广宗县| 扎囊县| 申扎县| 百色市| 襄城县| 大安市| 简阳市| 望江县| 定州市| 西宁市| 绥滨县| 灵川县| 房产| 宁明县| 屯门区| 吉安市| 贡嘎县| 黔南| 高淳县| 永清县| 孟连| 时尚| 绥阳县| 浠水县| 深圳市| 丹巴县| 乐陵市| 汶上县| 伊金霍洛旗| 达州市| 阿合奇县| 金坛市| 长沙市|