精品一=久区,内射综合网

這篇文章《(How) Do Reasoning Models Reason?》對(duì)當(dāng)前大型推理模型（LRM）進(jìn)行了深刻的剖析，超越了表面的性能宣傳，直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細(xì)技術(shù)原理、關(guān)鍵過(guò)程與核心見(jiàn)解拆解。

一、核心論點(diǎn)與總覽

LRM（如 o1, R1）的“推理”能力提升，并非源于模型學(xué)會(huì)了人類式的邏輯推理，而是通過(guò)兩類主要技術(shù)手段，優(yōu)化了生成過(guò)程，使其在輸出最終答案前，模仿并生成看似合理的推導(dǎo)過(guò)程。其本質(zhì)是在“生成-測(cè)試”框架中，將外部驗(yàn)證信號(hào)逐步“編譯”進(jìn)生成模型參數(shù)中。

二、兩大技術(shù)路徑的詳細(xì)原理與過(guò)程

1. 測(cè)試時(shí)推理（Test-time Inference）

Figure 1:Test-time scaling approaches for teasing out reasoning

核心思想：在推理（回答用戶問(wèn)題）時(shí)，讓模型做比“直接生成答案”更多的工作，相當(dāng)于在測(cè)試時(shí)進(jìn)行可擴(kuò)展的、問(wèn)題自適應(yīng)的計(jì)算。

關(guān)鍵過(guò)程：

（1）生成：使用LLM為同一個(gè)問(wèn)題生成多個(gè)候選答案或解軌跡。

（2）驗(yàn)證/選擇：通過(guò)某種機(jī)制篩選出最優(yōu)答案。

2.1）簡(jiǎn)單選擇：如“自我一致性”，選擇出現(xiàn)頻率最高的答案（假設(shè)模型誤差是隨機(jī)的）。

2.2）驗(yàn)證驅(qū)動(dòng)：引入“驗(yàn)證器”對(duì)候選答案進(jìn)行檢驗(yàn)。這是性能提升的關(guān)鍵。

驗(yàn)證器類型：

(a)外部可靠驗(yàn)證器：使用傳統(tǒng)求解器或可證明正確的程序（如數(shù)學(xué)計(jì)算器、規(guī)劃器）。這是最可靠的方式，能提供正確性保證（如LLM-Modulo框架）。

(b)學(xué)習(xí)型驗(yàn)證器：訓(xùn)練另一個(gè)模型來(lái)判斷答案正確性（問(wèn)題：驗(yàn)證器也可能出錯(cuò)）。

(c)LLM自我驗(yàn)證：讓LLM自我評(píng)估（已被證明存在問(wèn)題，容易產(chǎn)生過(guò)度自信）。

迭代改進(jìn)：如果驗(yàn)證失敗，可以將錯(cuò)誤信息反饋給生成器，讓其重新生成，形成“生成-測(cè)試-修正”循環(huán)。

核心見(jiàn)解：這本質(zhì)上是將搜索或規(guī)劃過(guò)程外包給了測(cè)試時(shí)的計(jì)算循環(huán)，而非內(nèi)化于模型權(quán)重中。

根本問(wèn)題：成本爆炸。計(jì)算成本不再與輸出長(zhǎng)度成正比，而是與問(wèn)題的內(nèi)在計(jì)算復(fù)雜度成正比，顛覆了LLM按token計(jì)費(fèi)的傳統(tǒng)商業(yè)模式。

2. 訓(xùn)練后方法（基于推導(dǎo)軌跡，Post-Training on Derivational Traces）

Figure 2:Post-training Approaches for teasing out reasoning

核心思想：在標(biāo)準(zhǔn)預(yù)訓(xùn)練后，使用包含“解題步驟”（推導(dǎo)軌跡）的數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練，教會(huì)模型在輸出答案前，先輸出類似的中間步驟。

關(guān)鍵過(guò)程：

(1)軌跡數(shù)據(jù)獲取（最大難點(diǎn)）：

1)人工標(biāo)注：高質(zhì)量但代價(jià)極高（如GSM8K數(shù)據(jù)集）。

2)合成生成：使用傳統(tǒng)求解器（如A*搜索）自動(dòng)生成問(wèn)題解及其完整的搜索軌跡（如SearchFormer）。軌跡準(zhǔn)確但領(lǐng)域受限。

3)LLM生成后過(guò)濾：讓LLM自己生成步驟（利用其預(yù)訓(xùn)練中已有的“步驟示范”數(shù)據(jù)），然后通過(guò)驗(yàn)證器過(guò)濾出最終答案正確的軌跡（無(wú)論中間步驟是否真正合理）。這是當(dāng)前主流方法。

模型訓(xùn)練：

(1)監(jiān)督微調(diào)：直接在（問(wèn)題，推導(dǎo)軌跡，答案）數(shù)據(jù)上微調(diào)。

(2)強(qiáng)化學(xué)習(xí)：更先進(jìn)的方法（如DeepSeek R1）。

2.1)過(guò)程：對(duì)于可驗(yàn)證的問(wèn)題，讓模型生成多條帶“痕跡”的答案。

2.2)獎(jiǎng)勵(lì)：僅根據(jù)最終答案的正確與否給予獎(jiǎng)勵(lì)/懲罰。

2.3)效果：模型參數(shù)被調(diào)整，使得能導(dǎo)致正確答案的輸出模式（包括其前面的“痕跡”）概率增大。

2.4)知識(shí)蒸餾：將經(jīng)過(guò)RL訓(xùn)練的“教師模型”的輸出作為數(shù)據(jù)，去訓(xùn)練一個(gè)更小的“學(xué)生模型”，可以免去昂貴的RL過(guò)程。

(3)核心見(jiàn)解：

痕跡的語(yǔ)義虛假性：訓(xùn)練目標(biāo)只關(guān)心最終答案正確。模型學(xué)會(huì)的是一種能“討好”獎(jiǎng)勵(lì)信號(hào)的輸出格式（先輸出一堆token，然后輸出答案），這些中間token不一定構(gòu)成邏輯推理，而可能是任何有助于提高最終答案正確率的模式。

本質(zhì)是編譯驗(yàn)證信號(hào)：該過(guò)程可以理解為將外部驗(yàn)證器（在訓(xùn)練時(shí)使用）的“測(cè)試”能力，部分地編譯到了生成模型的“生成”傾向中。即“智能是將‘生成-測(cè)試’中的測(cè)試部分轉(zhuǎn)移到生成部分”（明斯基）。

三、對(duì)LRM的批判性見(jiàn)解（打破誤解）

1. 中間token不是“思考痕跡”

模型生成的“讓我們一步步思考…”等文本，是對(duì)預(yù)訓(xùn)練數(shù)據(jù)中人類解題風(fēng)格的模仿，而非內(nèi)部計(jì)算過(guò)程的反映。作者戲稱為“大型喃喃自語(yǔ)模型”。

證據(jù)：即使在專門(mén)訓(xùn)練輸出求解器軌跡的模型（如SearchFormer）中，其輸出的“步驟”也常包含違反基本算法規(guī)則的操作（如從開(kāi)放列表中刪除不存在的節(jié)點(diǎn)），但這些錯(cuò)誤軌跡有時(shí)仍能“蒙對(duì)”最終答案。這說(shuō)明軌跡的正確性并非必要。

2. 性能提升的來(lái)源是“提示增強(qiáng)”，而非獲得推理能力：

Figure 4: Augmenting a task prompt with additional tokens often seems to improve the accuracy of LLM completion even if the tokens don’t have human-parseable meaning.

給LLM一個(gè)更長(zhǎng)的、特定格式的提示詞（如包含“步驟”），即使這些附加token對(duì)人類毫無(wú)意義，也能提高其答案準(zhǔn)確性。

LRM的訓(xùn)練后方法，實(shí)質(zhì)上是將這種有效的“提示增強(qiáng)”動(dòng)態(tài)地、內(nèi)化地置于每次生成的開(kāi)頭。模型學(xué)會(huì)了自己為自己“鋪墊”一段有利于解題的上下文。

3. 泛化能力脆弱

在簡(jiǎn)單規(guī)劃任務(wù)（Blocksworld）上表現(xiàn)尚可，但一旦對(duì)對(duì)象和動(dòng)作進(jìn)行重命名（Mystery Blocksworld），性能就大幅下降。這表明模型嚴(yán)重依賴表面詞匯的匹配，而非抽象的邏輯結(jié)構(gòu)理解。

面對(duì)不可解問(wèn)題時(shí)，LRM會(huì)自信地生成虛假計(jì)劃并配上看似合理的解釋，存在“ gas lighting ”（誤導(dǎo)）用戶的風(fēng)險(xiǎn)。

4. 與LLMs沒(méi)有根本性架構(gòu)區(qū)別

僅經(jīng)過(guò)訓(xùn)練后的LRMs，在推理時(shí)仍然是接收提示，自回歸地生成token。其架構(gòu)與普通LLM完全相同。

唯一改變的是模型輸出token序列的概率分布：它現(xiàn)在更傾向于先生成一段“類推導(dǎo)痕跡”的token，再生成答案。沒(méi)有自適應(yīng)計(jì)算，生成長(zhǎng)度在訓(xùn)練時(shí)已大致確定。

四、核心流程圖解：LRMs的工作原理與本質(zhì)

以下圖表概括了上述所有關(guān)鍵過(guò)程和見(jiàn)解：

五、未來(lái)方向與建議

去擬人化：放棄讓中間token像人類“思考”，轉(zhuǎn)而探索高效、壓縮、符號(hào)化的中間表示，純粹以提升最終準(zhǔn)確性為目標(biāo)進(jìn)行優(yōu)化（類似AlphaZero學(xué)習(xí)價(jià)值函數(shù)）。

混合系統(tǒng)定位：LRMs不應(yīng)被視為獨(dú)立的“推理者”，而應(yīng)作為增強(qiáng)型的提議生成器，集成在如LLM-Modulo的框架中，由外部驗(yàn)證器提供可靠性保證。

重新審視評(píng)估：需要超越最終答案準(zhǔn)確率的基準(zhǔn)測(cè)試，設(shè)計(jì)能測(cè)評(píng)推理過(guò)程穩(wěn)健性、泛化性和成本效率的評(píng)估體系。

總而言之，本文揭示了LRMs“推理”能力背后的工程本質(zhì)，對(duì)其過(guò)度擬人化的解讀提出了有力批判，并為更穩(wěn)健、可靠的AI系統(tǒng)設(shè)計(jì)指明了方向。

本文轉(zhuǎn)自：小猴智能，由小猴翻譯校對(duì)

源文：(How) Do Reasoning Models Reason?2025.4.14

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴