日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI要為GPT-4解決數(shù)學問題了:獎勵模型指錯,解題水平達到新高度

智能感知與物聯(lián)網(wǎng)技術研究所 ? 來源:未知 ? 2023-06-06 11:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群


對于具有挑戰(zhàn)性的 step-by-step 數(shù)學推理問題,是在每一步給予獎勵還是在最后給予單個獎勵更有效呢?OpenAI 的最新研究給出了他們的答案。

現(xiàn)在,大語言模型迎來了「無所不能」的時代,其中在執(zhí)行復雜多步推理方面的能力也有了很大提高。不過,即使是最先進的大模型也會產生邏輯錯誤,通常稱為幻覺。因此,減輕幻覺是構建對齊 AGI 的關鍵一步。


為了訓練更可靠的模型,目前可以選擇兩種不同的方法來訓練獎勵模型,一種是結果監(jiān)督,另一種是過程監(jiān)督。結果監(jiān)督獎勵模型(ORMs)僅使用模型思維鏈的最終結果來訓練,而過程監(jiān)督獎勵模型(PRMs)則接受思維鏈中每個步驟的獎勵。


考慮到訓練可靠模型的重要性以及人工反饋的高成本,仔細比較結果監(jiān)督與過程監(jiān)督非常重要。雖然最近的工作已經開展了這種比較,但仍然存在很多問題。


在本文中,OpenAI 進行了調研,結果發(fā)現(xiàn)在訓練模型解決 MATH 數(shù)據(jù)集的問題時,過程監(jiān)督顯著優(yōu)于結果監(jiān)督。OpenAI 使用自己的 PRM 模型解決了 MATH 測試集中代表性子集的 78% 的問題。


此外為了支持相關研究,OpenAI 還開源了 PRM800K,它是一個包含 800K 個步級人類反饋標簽的完整數(shù)據(jù)集,用于訓練它們的最佳獎勵模型。



如下為一個真正(True positive)的問答示例。該問題以及 OpenAI 列舉的其他問題示例均來自 GPT-4。這個具有挑戰(zhàn)性的三角學問題需要并不明顯地連續(xù)應用多個恒等式。大多數(shù)解決方案嘗試都失敗了,因為很難知道哪些恒等式實際上有用。盡管 GPT-4 通常無法解決這個問題(正確率僅為 0.1% ),但本文的獎勵模型正確地識別出了這個解決方案是有效的。



再看一個假正(False positive)的問答示例。在第四步中,GPT-4 錯誤地聲稱該序列每 12 個項重復一次,而實際上是每 10 個項重復一次。這種計數(shù)錯誤偶爾會愚弄獎勵模型。



論文作者之一、OpenAI Alignment 團隊負責人 Jan Leike 表示,「使用 LLM 做數(shù)學題的真正有趣結果是:監(jiān)督每一步比只檢查答案更有效。」



英偉達 AI 科學家 Jim Fan 認為,「這篇論文的觀點很簡單:對于挑戰(zhàn)性的逐步問題,要在每一步給予獎勵,而不要在最后給予單個獎勵。從根本上來說,密集獎勵信號>稀疏?!?/span>



我們接下來細看 OpenAI 這篇論文的方法和結果。



論文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf

數(shù)據(jù)集地址:https://github.com/openai/prm800k


方法概覽


該研究按照與 Uesato et al. (2022) 類似的方法對結果監(jiān)督和過程監(jiān)督進行了比較。值得注意的是這項研究無需人工即可提供結果監(jiān)督,因為 MATH 數(shù)據(jù)集中的所有問題都有可自動檢查的答案。相比之下,沒有簡單的方法來自動化過程監(jiān)督。該研究依靠人類數(shù)據(jù)標記者來提供過程監(jiān)督,具體來說是需要人工標記模型生成的解決方案中每個步驟的正確性。該研究在大規(guī)模和小規(guī)模兩種情況下分別進行了實驗。


范圍


對于每種模型規(guī)模,該研究都使用一個固定模型來生成所有解決方案。這個模型被稱為生成器,OpenAI 表示不會通過強化學習 (RL) 來改進生成器。


基礎模型


所有大型模型均是基于 GPT-4 模型進行微調得來的。該研究還添加了一個額外的預訓練步驟 —— 在含有約 1.5B 數(shù)學相關 token 的數(shù)據(jù)集 MathMix 上微調所有模型。與 Lewkowycz et al. (2022) 類似,OpenAI 的研究團隊發(fā)現(xiàn)這種方法可以提高模型的數(shù)學推理能力。


生成器


為了更容易解析單個步驟,該研究訓練生成器在生成解決方案時,步驟之間用換行符分隔。具體來說,該研究對 MATH 訓練問題使用少樣本生成解決方案,過濾出得到最終正確答案的解決方案,并在該數(shù)據(jù)集上對基礎模型進行一個 epoch 的微調。


數(shù)據(jù)采集


為了收集過程監(jiān)督數(shù)據(jù),該研究向人類數(shù)據(jù)標記者展示了大規(guī)模生成器采樣的數(shù)學問題的逐步解決方案。人類數(shù)據(jù)標記者的任務是為解決方案中的每個步驟分配正面、負面或中性標簽,如下圖 1 所示。



該研究只標記大型生成器生成的解決方案,以最大限度地發(fā)揮有限的人工數(shù)據(jù)資源的價值。該研究將收集到的按步驟標記的整個數(shù)據(jù)集稱為 PRM800K。PRM800K 訓練集包含 800K 步驟標簽,涵蓋 12K 問題的 75K 解決方案。為了最大限度地減少過擬合,PRM800K 訓練集包含來自 MATH 的 4.5K 測試問題數(shù)據(jù),并僅在剩余的 500 個 MATH 測試問題上評估模型。


結果監(jiān)督獎勵模型 (ORM)


該研究按照與 Cobbe et al. (2021) 類似的方法訓練 ORM,并從生成器中為每個問題采樣固定數(shù)量的解決方案,然后訓練 ORM 來預測每個解決方案的正確與否。實踐中,自動檢查最終答案來確定正確性是一種常用的方法,但原則上由人工標記者來提供標簽。在測試時,該研究使用 ORM 在最終 token 處的預測作為每個解決方案的總分。


過程監(jiān)督獎勵模型(PRM)


PRM 用來預測每個步驟(step)中最后一個 token 之后的步驟的正確性。這種預測采用單個 token 形式,并且 OpenAI 在訓練過程中最大化這些目標 token 的對數(shù)似然。因此,PRM 可以在標準的語言模型 pipeline 中進行訓練,無需任何特殊的適應措施。


圖 2 為同一個問題的 2 種解決方案,左邊的答案是正確的,右邊的答案是錯誤的。綠色背景表示 PRM 得分高,紅色背景表示 PRM 得分低。PRM 可以正確識別錯誤解決方案中的錯誤。



在進行過程監(jiān)督時,OpenAI 有意選擇僅對第一個錯誤步驟進行監(jiān)督,從而使得結果監(jiān)督和過程監(jiān)督之間的比較更加直接。對于正確的解決方案,兩種方法提供的信息相同,因為每一步都是正確的解題方法。對于錯誤的解決方案,兩種方法都能揭示至少存在一個錯誤,并且過程監(jiān)督還揭示了該錯誤的確切位置。


大規(guī)模監(jiān)督


OpenAI 使用全流程監(jiān)督數(shù)據(jù)集 PRM800K 來訓練 PRM,為了使 ORM 基準更加強大,OpenAI 還為每個問題進行了 100 個樣本的訓練,這些樣本均來自生成器,由此 ORM 訓練集與 PRM800K 沒有重疊樣本。


下圖為結果監(jiān)督和過程監(jiān)督獎勵模型以及投票方案的比較,結果表明在搜索模型生成的解決方案時,PRM 比 ORM 和多數(shù)投票更有效。



小規(guī)模綜合監(jiān)督


為了更好的比較結果監(jiān)督和過程監(jiān)督,首先需要注意的是 ORM 和 PRM 的訓練集不具有直接可比性,PRM 訓練集是使用主動學習構建的,偏向于答案錯誤的解決方案,還比 ORM 訓練集少一個數(shù)量級。


過程監(jiān)督 VS 結果監(jiān)督


首先 OpenAI 從小規(guī)模生成器中為每個問題采樣 1 到 200 個解決方案。對于每個數(shù)據(jù)集,OpenAI 提供三種形式的監(jiān)督:來自 PRM_large 的過程監(jiān)督,來自 PRM_large 的結果監(jiān)督以及來自最終答案檢查的結果監(jiān)督。


圖 4a 表明,過程監(jiān)督明顯優(yōu)于其他兩種形式的結果監(jiān)督;圖 4b 表明,使用 PRM_large 進行結果監(jiān)督明顯比最終答案檢查的結果監(jiān)督更有效。



OOD 泛化


為了衡量模型在分布外(OOD)泛化的性能,OpenAI 對大規(guī)模 ORM 和 PRM 在一個由 224 個 STEM 問題組成的 held-out(留出法)上進行評估,這些問題來自最新的 AP 物理(美國大學先修課程簡稱 AP)、AP 微積分、AP 化學、AMC10(理解為數(shù)學競賽)和 AMC12 考試,模型沒有見過這些問題。表格 1 中報告了 ORM、PRM 和多數(shù)投票的前 100 個的最佳表現(xiàn)。表明,PRM 的性能優(yōu)于 ORM 和多數(shù)投票,同時意味著 PRM 在新的測試問題上性能仍然保持不變。



原文標題:OpenAI要為GPT-4解決數(shù)學問題了:獎勵模型指錯,解題水平達到新高度

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:OpenAI要為GPT-4解決數(shù)學問題了:獎勵模型指錯,解題水平達到新高度

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    GPT-5震撼發(fā)布:AI領域的重大飛躍

    躍升重新定義了人工智能的能力邊界。OpenAI首席執(zhí)行官山姆·奧特曼在發(fā)布會上直言:“這不僅是模型的升級,更是通往通用人工智能(AGI)的關鍵里程碑?!?? ? GPT-5:集成模型
    的頭像 發(fā)表于 08-09 07:44 ?1w次閱讀
    <b class='flag-5'>GPT</b>-5震撼發(fā)布:AI領域的重大飛躍

    探索Z86C90 CCP:單芯片架構的新高度

    探索Z86C90 CCP:單芯片架構的新高度 在電子工程師的世界里,不斷尋找性能卓越、功能強大且成本效益高的微控制器是永恒的追求。今天,我們就來深入了解一下Z86C90 CCP(Consumer
    的頭像 發(fā)表于 04-04 12:05 ?252次閱讀

    賦予AI設備靈動雙眸 | 匠芯創(chuàng)亮相“AI+教育硬件”沙龍 解鎖流暢交互新高度

    -高幀芯動力解鎖流暢新高度》的主題演講。直面行業(yè)痛點匠芯創(chuàng)給出“芯”答案當前,AI陪伴設備在兒童教育、智能玩具、家庭陪伴等場景中快速普及。然而,傳統(tǒng)AI硬件在顯示效
    的頭像 發(fā)表于 04-02 18:51 ?438次閱讀
    賦予AI設備靈動雙眸 | 匠芯創(chuàng)亮相“AI+教育硬件”沙龍 解鎖流暢交互<b class='flag-5'>新高度</b>

    思必馳攜手雅迪冠能系列推動兩輪智能出行邁向新高度

    近日,思必馳與雅迪深度攜手,為冠能星艦Ⅱ、冠能白鯊Ⅱ高配版兩款重磅車型量身打造7寸智能語音儀表,將全鏈路語音技術、AI大模型能力與兩輪車騎行場景融合,為用戶帶來更安全、更便捷、更豐富的騎行體驗,推動兩輪智能出行邁向新高度。
    的頭像 發(fā)表于 04-02 09:13 ?899次閱讀

    OpenAI與Anthropic對戰(zhàn),Claude Opus 4.6與GPT-5.3-Codex同日發(fā)布

    電子發(fā)燒友網(wǎng)報道 北京時間2月6日凌晨,Anthropic與OpenAI分別推出了新版本基礎大模型——Claude Opus 4.6和GPT-5.3-Codex。 ? ? Claude Opus
    的頭像 發(fā)表于 02-06 14:19 ?2109次閱讀
    <b class='flag-5'>OpenAI</b>與Anthropic對戰(zhàn),Claude Opus 4.6與<b class='flag-5'>GPT</b>-5.3-Codex同日發(fā)布

    GPT-5.1發(fā)布 OpenAI開始拼情商

    OpenAI正式上線了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實測發(fā)現(xiàn)OpenAI新發(fā)布的
    的頭像 發(fā)表于 11-13 15:49 ?850次閱讀

    華為助力埃塞俄比亞電信通信網(wǎng)絡技術邁向新高度

    近日,埃塞俄比亞領先運營商埃塞俄比亞電信與華為共同宣布,在北非區(qū)域率先完成GigaAAU FDD三頻Massive MIMO站點的商用部署。此次合作是雙方在提升網(wǎng)絡性能、改善用戶體驗方面的又一重大舉措,標志著埃塞俄比亞電信通信網(wǎng)絡技術邁向新高度,也為北非數(shù)字經濟發(fā)展注入強勁新動能。
    的頭像 發(fā)表于 08-20 13:53 ?1076次閱讀

    海格天乘推動低空經濟產業(yè)發(fā)展邁向新高度

    運營服務和操控員培訓“雙證”資質的機構,標志著海格天乘具備安全、合法、合規(guī)開展無人機商業(yè)運營服務及無人機操控員培訓的能力,推動低空經濟產業(yè)發(fā)展邁向新高度。
    的頭像 發(fā)表于 08-16 09:16 ?8142次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    ? 自 2016 年推出 NVIDIA DGX 以來,NVIDIA 與 OpenAI 便開始共同推動 AI 技術的邊界。此次 OpenAI gpt-oss-20b 和 gpt-oss-
    的頭像 發(fā)表于 08-15 20:34 ?2543次閱讀
    NVIDIA從云到邊緣加速<b class='flag-5'>OpenAI</b> <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,實現(xiàn)150萬TPS推理

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企
    的頭像 發(fā)表于 08-14 11:34 ?1592次閱讀

    訊飛星辰MaaS平臺率先上線OpenAI最新開源模型

    8月6日凌晨,OpenAI 時隔六年再次回歸開源,發(fā)布兩款全新的大語言模型gpt-oss-120b和gpt-oss-20b,性能與o4-m
    的頭像 發(fā)表于 08-13 16:43 ?1964次閱讀

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價向美國政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語言模型GPT-5或將發(fā)布。據(jù)外媒的報道,GPT-5很可能在周五凌晨發(fā)布。這是OpenAI在2023年的
    的頭像 發(fā)表于 08-07 14:13 ?1.6w次閱讀

    亞馬遜云科技現(xiàn)已上線OpenAI開放權重模型

    開放權重模型,向數(shù)百萬亞馬遜云科技客戶開放。 客戶可利用這些全新開放權重模型的先進推理能力,支持Agentic工作流、代碼生成、科學分析和數(shù)學問題求解等應用。 開放權重模型的推出擴展了
    的頭像 發(fā)表于 08-06 19:29 ?977次閱讀

    OpenAI發(fā)布2款開源模型

    OpenAI開源了兩款高性能權重語言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「
    的頭像 發(fā)表于 08-06 14:25 ?1171次閱讀

    麥格米特與鴻路鋼構合作邁入全新高度

    近日,深圳市麥格米特焊接技術有限公司(以下簡稱:麥格米特焊接技術)與安徽鴻路鋼結構(集團)股份有限公司(以下簡稱:鴻路鋼構)正式簽署1800臺機器人焊接電源采購協(xié)議。鴻路鋼構董事長商曉波、麥格米特董事長童永勝等雙方高層共同出席簽約儀式,標志著兩家企業(yè)在數(shù)字化智能焊接領域的合作邁入全新高度。
    的頭像 發(fā)表于 05-08 10:39 ?1117次閱讀
    德令哈市| 大埔区| 乳山市| 尖扎县| 克什克腾旗| 沾益县| 瓦房店市| 和硕县| 西平县| 宜良县| 铜鼓县| 上林县| 陕西省| 紫阳县| 天气| 西宁市| 江门市| 腾冲县| 庆城县| 普洱| 武安市| 合水县| 南部县| 揭阳市| 石林| 龙游县| 临潭县| 桃江县| 六安市| 孟连| 黄石市| 达拉特旗| 济阳县| 桃园县| 溆浦县| 新巴尔虎左旗| 慈利县| 卓尼县| 个旧市| 文化| 阜阳市|