日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

GPT-4拿下最難數(shù)學推理數(shù)據(jù)集新SOTA!新型Prompting讓大模型推理能力狂升!

CVer ? 來源:機器之心 ? 2023-05-15 15:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

模擬人類推理過程,華為諾亞提出 Progressive-Hint Prompting (PHP) 引導大模型漸近正確答案。

近期,華為聯(lián)和港中文發(fā)表論文《Progressive-Hint Prompting Improves Reasoning in Large Language Models》,提出 Progressive-Hint Prompting (PHP),用來模擬人類做題過程。在 PHP 框架下,Large Language Model (LLM) 能夠利用前幾次生成的推理答案作為之后推理的提示,逐步靠近最終的正確答案。要使用 PHP,只需要滿足兩個要求: 1) 問題能夠和推理答案進行合并,形成新的問題;2) 模型可以處理這個新的問題,給出新的推理答案。

f01d6272-f2cc-11ed-90ce-dac502259ad0.png

結果表明,GP-T-4+PHP 在多個數(shù)據(jù)集上取得了 SOTA 結果,包括 SVAMP (91.9%), AQuA (79.9%), GSM8K (95.5%) 以及 MATH (53.9%)。該方法大幅超過 GPT-4+CoT。比如,在現(xiàn)在最難的數(shù)學推理數(shù)據(jù)集 MATH 上,GPT-4+CoT 只有 42.5%,而 GPT-4+PHP 在 MATH 數(shù)據(jù)集的 Nember Theory (數(shù)論) 子集提升 6.1%, 將 MATH 整體提升到 53.9%,達到 SOTA。

f03d20da-f2cc-11ed-90ce-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2304.09797

代碼鏈接:https://github.com/chuanyang-Zheng/Progressive-Hint

介紹

隨著 LLM 的發(fā)展,涌現(xiàn)了關于 prompting 的一些工作,其中有兩個主流方向:

一個以 Chain-Of-Thought( CoT,思維鏈) 為代表,通過清楚得寫下推理過程,激發(fā)模型的推理能力;

另一個以 Self-Consistency (SC) 為代表,通過采樣多個答案,然后進行投票得到最終答案。

顯然,現(xiàn)存的兩種方法,沒有對問題進行任何的修改,相當于做了一遍題目之后就結束了,而沒有反過來帶著答案進行再次檢查。PHP 嘗試模擬更加類人推理過程:對上次的推理過程進行處理,然后合并到初始的問題當中,詢問 LLM 進行再次推理。當最近兩次推理答案一致時,得到的答案是準確的,將返回最終答案。具體的流程圖如下所示:

f05a770c-f2cc-11ed-90ce-dac502259ad0.png

在第一次與 LLM 交互的時候,應當使用 Base Prompting (基礎提示), 其中的 prompt(提示)可以是 Standard prompt,CoT prompt 或者其改進版本。通過 Base Prompting,可以進行第一次交互,然后得到初步的答案。在隨后的交互中,應當使用 PHP,直至最新的兩個答案一致。

PHP prompt 基于 Base Prompt 進行修改。給定一個 Base Prompt,可以通過制定的 PHP prompt design principles 來得到對應的 PHP prompt。具體如下圖所示:

f07a0d24-f2cc-11ed-90ce-dac502259ad0.png

作者希望 PHP prompt 能夠讓大模型學習到兩種映射模式:

1)如果給的 Hint 是正確答案,那么返回的答案依然要是正確答案 (具體如上圖所示的「Hint is the correct answer」);

2)如果給的 Hint 是錯誤答案,那么 LLM 要通過推理,跳出錯誤答案的 Hint,返回正確答案(具體如上圖所示的「Hint is the incorrect answer」)。

按照這種 PHP prompt 的設計規(guī)則,給定任意現(xiàn)存的 Base Prompt,作者都可以設定出對應的 PHP Prompt。

實驗

作者使用七個數(shù)據(jù)集,包括 AddSub、MultiArith、SingleEQ、SVAMP、GSM8K、 AQuA 和 MATH。同時,作者一共使用了四個模型來驗證作者的想法,包括 text-davinci-002、text-davinci-003、GPT-3.5-Turbo 和 GPT-4。

主要結果

f0a6858e-f2cc-11ed-90ce-dac502259ad0.png

當語言模型更強大、提示更有效時,PHP 的效果更好。相比于 Standard Prompt 和 CoT Prompt,Complex CoT prompt 表現(xiàn)出了顯著的性能提升。分析還顯示,使用強化學習進行微調(diào)的 text-davinci-003 語言模型比使用監(jiān)督指令微調(diào)的 text-davinci-002 模型表現(xiàn)更好,能夠提升文檔效果。text-davinci-003 的性能提高歸因于其增強的能力,使其更好地理解和應用給定的提示。同時,如果只是使用 Standard prompt,那么 PHP 所帶來的提升并不明顯。如果需要讓 PHP 起到效果,至少需要 CoT 來激發(fā)模型的推理能力。

f0c754ee-f2cc-11ed-90ce-dac502259ad0.png

同時,作者也探究了交互次數(shù)與模型、prompt 之間的關系。當語言模型更強大,提示更弱時,交互次數(shù)會減少。交互次數(shù)指代智能體與 LLMs 互動的次數(shù)。當收到第一個答案時,交互次數(shù)為 1;收到第二個答案時,交互次數(shù)增加到 2。在圖 2 中,作者展示了各種模型和提示的交互次數(shù)。作者的研究結果表明:

1)在給定相同提示的情況下,text-davinci-003 的交互次數(shù)通常低于 text-davinci-002。這主要是由于 text-davinci-003 的準確性更高,導致基礎答案和后續(xù)答案的正確率更高,因此需要更少的交互才能得到最終的正確答案;

2)當使用相同的模型時,隨著提示變得更強大,交互次數(shù)通常會增加。這是因為當提示變得更有效時,LLMs 的推理能力會得到更好的發(fā)揮,從而使它們能夠利用提示跳出錯誤答案,最終導致需要更高的交互次數(shù)才能達到最終答案,這使得交互次數(shù)增加。

Hint 質(zhì)量的影響

f0e53df6-f2cc-11ed-90ce-dac502259ad0.png

為了增強 PHP-Standard 的性能,將 Base Prompt Standard 替換為 Complex CoT 或 CoT 可以顯著提高最終性能。對 PHP-Standard 而言,作者觀察到在 Base Prompt Standard 下,GSM8K 的性能從 16.0% 提高到了在基礎提示 CoT 下的 50.2%,再提高到在基礎提示 Complex CoT 下的 60.3%。相反,如果將 Base Prompt Complex CoT 替換為 Standard,則最終性能會降低。例如,在將基礎提示 Complex CoT 替換為 Standard 后,PHP-Complex CoT 在 GSM8K 數(shù)據(jù)集上的性能從 71.6% 下降到了 65.5%。

如果 PHP 不是基于相應的 Base Prompt 進行設計,那么效果可能進一步提高。使用 Base Prompt Complex CoT 的 PHP-CoT 在六個數(shù)據(jù)集中的四個數(shù)據(jù)集表現(xiàn)優(yōu)于使用 CoT 的 PHP-CoT。同樣地,使用基礎提示 CoT 的 PHP-Complex CoT 在六個數(shù)據(jù)集中的四個數(shù)據(jù)集表現(xiàn)優(yōu)于使用 Base Prompt Complex CoT 的 PHP-Complex CoT。作者推推測這是因為兩方面的原因:1)在所有六個數(shù)據(jù)集上,CoT 和 Complex CoT 的性能相似;2)由于 Base Answer 是由 CoT(或 Complex CoT)提供的,而后續(xù)答案是基于 PHP-Complex CoT(或 PHP-CoT),這就相當于有兩個人合作解決問題。因此,在這種情況下,系統(tǒng)的性能可能進一步提高。

消融實驗

f117002a-f2cc-11ed-90ce-dac502259ad0.png

將句子 P1 和 P2 納入模型可以提高 CoT 在三個數(shù)據(jù)集上的表現(xiàn),但當使用 Complex CoT 方法時,這兩個句子的重要性尤為明顯。在加入 P1 和 P2 后,該方法在六個數(shù)據(jù)集中有五個數(shù)據(jù)集的表現(xiàn)得到了提升。例如,在 SVAMP 數(shù)據(jù)集上,Complex CoT 的表現(xiàn)從 78.0% 提高到了 80.0%,在 GSM8K 數(shù)據(jù)集上從 68.3% 提高到了 71.6%。這表明,尤其是在模型的邏輯能力更強時,句子 P1 和 P2 的效果更為顯著。

f12df8a2-f2cc-11ed-90ce-dac502259ad0.png

在設計提示時需要同時包含正確和錯誤的提示。當設計的提示同時包含正確和錯誤的提示時,使用 PHP 的效果優(yōu)于不使用 PHP。具體來說,提示中提供正確的提示會促進生成與給定提示相符的答案。相反,提示中提供錯誤的提示則會通過給定的提示鼓勵生成其他答案

PHP+Self-Consistency

f144ceb0-f2cc-11ed-90ce-dac502259ad0.png

f1aff58c-f2cc-11ed-90ce-dac502259ad0.png

使用 PHP 可以進一步提高性能。通過使用類似的提示和樣本路徑數(shù)量,作者發(fā)現(xiàn)在表 6 和圖 3 中,作者提出的 PHP-CoT 和 PHP-Complex CoT 總是比 CoT 和 Complex CoT 表現(xiàn)更好。例如,CoT+SC 的樣本路徑為 10、20 和 40 時,能夠在 MultiArith 數(shù)據(jù)集上達到 96.5% 的準確率。因此,可以得出結論,CoT+SC 的最佳性能為 96.5%,使用 text-davinci-003。然而,在實施 PHP 之后,性能升至 97.1%。同樣,作者還觀察到在 SVAMP 數(shù)據(jù)集上,CoT+SC 的最佳準確率為 83.3%,在實施 PHP 后進一步提高到 83.7%。這表明,PHP 可以打破性能瓶頸并進一步提高性能。

使用 PHP 可以降低 SC 的成本,眾所周知,SC 涉及更多的推理路徑,導致成本更高。表 6 說明,PHP 可以是降低成本的有效方法,同時仍保持性能增益。如圖 3 所示,使用 SC+Complex CoT,可以使用 40 個樣本路徑達到 78.1% 的準確率,而加入 PHP 將所需平均推理路徑降低到 10×2.1531=21.531 條路徑,并且結果更好,準確率達到了 78.2%。

GPT-3.5-Turbo 和 GPT-4

f1d1231a-f2cc-11ed-90ce-dac502259ad0.png

作者按照以前的工作設置,使用文本生成模型進行實驗。隨著 GPT-3.5-Turbo 和 GPT-4 的 API 發(fā)布,作者在相同的六個數(shù)據(jù)集上驗證了具有 PHP 的 Complex CoT 的性能。作者對這兩個模型都使用貪心解碼(即溫度 = 0)和 Complex CoT 作為提示。

如表 7 所示,提出的 PHP 增強了性能,在 GSM8K 上提高了 2.3%,在 AQuA 上提高了 3.2%。然而,與 text-davinci-003 相比,GPT-3.5-Turbo 表現(xiàn)出對提示的依附能力降低。作者提供了兩個例子來說明這一點:a)在提示缺失的情況下,GPT-3.5-Turbo 無法回答問題,并回復類似于 “由于答案提示缺失,我無法回答此問題。請?zhí)峁┐鸢柑崾疽岳^續(xù)” 的聲明。相比之下,text-davinci-003 在回答問題之前會自主生成并填充缺失的答案提示;b)當提供超過十個提示時,GPT-3.5-Turbo 可能會回復 “由于給出了多個答案提示,我無法確定正確的答案。請為問題提供一個答案提示?!?/p>

f1ec7ba6-f2cc-11ed-90ce-dac502259ad0.png

在部署 GPT-4 模型后,作者能夠在 SVAMP、GSM8K、AQuA 和 MATH 基準測試上實現(xiàn)新的 SOTA 性能。作者提出的 PHP 方法不斷改善了 GPT-4 的性能。此外,與 GPT-3.5-Turbo 模型相比,作者觀察到 GPT-4 所需的交互次數(shù)減少了,這與 “當模型更加強大時,交互次數(shù)會減少” 的發(fā)現(xiàn)相一致。

總結

本文介紹了 PHP 與 LLMs 交互的新方法,具有多個優(yōu)點:1)PHP 在數(shù)學推理任務上實現(xiàn)了顯著的性能提升,在多個推理基準測試上領先于最先進的結果;2)使用更強大的模型和提示,PHP 可以更好地使 LLMs 受益;3)PHP 可以與 CoT 和 SC 輕松結合,進一步提高性能。

為了更好地增強 PHP 方法,未來的研究可以集中在改進問題階段的手工提示和答案部分的提示句子的設計上。此外,除了將答案當作 hint,還可以確定和提取有助于 LLMs 重新考慮問題的新 hint。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3831

    瀏覽量

    52287
  • 數(shù)據(jù)集

    關注

    4

    文章

    1240

    瀏覽量

    26264
  • GPT
    GPT
    +關注

    關注

    0

    文章

    374

    瀏覽量

    16988

原文標題:GPT-4拿下最難數(shù)學推理數(shù)據(jù)集新SOTA!新型Prompting讓大模型推理能力狂升!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    OpenAI全新GPT-4o能力炸場!速度快/成本低,能讀懂人類情緒

    ”的意思。GPT-4o文本、推理、編碼能力達到GPT-4 Turbo水平,速度是上一代AI大模型GPT-
    的頭像 發(fā)表于 05-15 00:15 ?9465次閱讀

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    大語言模型(LLM)是人工智能領域的尖端技術,憑借龐大的參數(shù)量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習,利用神經(jīng)網(wǎng)絡框架來理解和生成自然語言文本。這些模型通過訓練海量的文本數(shù)據(jù)
    發(fā)表于 05-04 23:55

    全新科學問答數(shù)據(jù)ScienceQA深度學習模型推理有了思維鏈

    和艾倫人工智能研究院(AI2)提出了首個標注詳細解釋的多模態(tài)科學問答數(shù)據(jù) ScienceQA,用于測試模型的多模態(tài)推理能力。在 Scie
    的頭像 發(fā)表于 11-01 16:30 ?2524次閱讀

    ChatGPT升級 OpenAI史上最強大模型GPT-4發(fā)布

    ChatGPT升級 史上最強大模型GPT-4發(fā)布 OpenAI正式推出了ChatGPT升級版本,號稱史上最強大模型GPT-4發(fā)布。OpenAI期待G
    的頭像 發(fā)表于 03-15 18:15 ?3600次閱讀

    深度:構建GPT-4模型,如何商業(yè)落地?

    GPT-4引發(fā)海量算力需求,把握算力產(chǎn)業(yè)鏈機會。根據(jù)測算,我們認為,在中性假設下,ChatGPT一年產(chǎn)生的API調(diào)用費用約為6.2億美元,與此同時,ChatGPT將在訓練和推理層面對GPU產(chǎn)生巨大需求。
    的頭像 發(fā)表于 05-06 11:24 ?1842次閱讀
    深度:構建<b class='flag-5'>GPT-4</b><b class='flag-5'>模型</b>,如何商業(yè)落地?

    華為諾亞提出新型Prompting (PHP),GPT-4拿下最難數(shù)學推理數(shù)據(jù)SOTA

    結果表明,GP-T-4+PHP 在多個數(shù)據(jù)上取得了 SOTA 結果,包括 SVAMP (91.9%), AQuA (79.9%), GSM8K (95.5%) 以及 MATH (53
    的頭像 發(fā)表于 05-15 09:23 ?1936次閱讀
    華為諾亞提出<b class='flag-5'>新型</b><b class='flag-5'>Prompting</b> (PHP),<b class='flag-5'>GPT-4</b><b class='flag-5'>拿下</b><b class='flag-5'>最難</b><b class='flag-5'>數(shù)學</b><b class='flag-5'>推理</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>新<b class='flag-5'>SOTA</b>

    GPT-4模型結構和訓練方法

    GPT-4 的發(fā)布報道上,GPT-4 的多模態(tài)能力人印象深刻,它可以理解圖片內(nèi)容給出圖片描述,甚至能在圖片內(nèi)容的基礎上理解其中的隱喻或推斷下一時刻的發(fā)展。
    的頭像 發(fā)表于 05-22 15:21 ?3683次閱讀
    <b class='flag-5'>GPT-4</b> 的<b class='flag-5'>模型</b>結構和訓練方法

    基準數(shù)據(jù)(CORR2CAUSE)如何測試大語言模型(LLM)的純因果推理能力

    ? 因果推理是人類智力的標志之一。因果關系NLP領域近年來引起了人們的極大興趣,但其主要依賴于從常識知識中發(fā)現(xiàn)因果關系。本研究提出了一個基準數(shù)據(jù)(CORR2CAUSE)來測試大語言模型
    的頭像 發(fā)表于 06-20 15:39 ?3438次閱讀
    基準<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>(CORR2CAUSE)如何測試大語言<b class='flag-5'>模型</b>(LLM)的純因果<b class='flag-5'>推理</b><b class='flag-5'>能力</b>

    爆了!GPT-4模型架構、訓練成本、數(shù)據(jù)信息都被扒出來了

    文章稱,他們從許多來源收集了大量有關 GPT-4 的信息,包括模型架構、訓練基礎設施、推理基礎設施、參數(shù)量、訓練數(shù)據(jù)組成、token 量、
    的頭像 發(fā)表于 07-12 14:16 ?1636次閱讀
    爆了!<b class='flag-5'>GPT-4</b><b class='flag-5'>模型</b>架構、訓練成本、<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>信息都被扒出來了

    GPT-4沒有推理能力嗎?

    今年三月,OpenAI 重磅發(fā)布了 GPT-4模型,帶來了比 ChatGPT 背后 GPT-3.5 更強的推理、計算、邏輯能力,也引發(fā)了
    的頭像 發(fā)表于 08-11 14:20 ?1822次閱讀
    <b class='flag-5'>GPT-4</b>沒有<b class='flag-5'>推理</b><b class='flag-5'>能力</b>嗎?

    全球最強大模型易主,GPT-4被超越

    近日,AI領域的領軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型,其中包括最強版Claude 3 Opus。據(jù)該公司稱,Claude 3系列在推理數(shù)學、編碼、多語言理解和視覺方面全面超越了包括
    的頭像 發(fā)表于 03-05 09:58 ?1332次閱讀

    商湯科技發(fā)布5.0多模態(tài)大模型,綜合能力全面對標GPT-4 Turbo

    商湯科技發(fā)布5.0多模態(tài)大模型,綜合能力全面對標GPT-4 Turbo 4月23日,商湯科技董事長兼CEO徐立在2024商湯技術交流日上發(fā)布了行業(yè)首個云、端、邊全棧大
    的頭像 發(fā)表于 04-24 16:49 ?2084次閱讀

    商湯科技推出6000億參數(shù)大模型,全力對標GPT-4 Turbo?

    稍晚些時候,商湯科技發(fā)布公告稱,4月23日在上海臨港AIDC舉辦技術交流日活動,推出了6000億參數(shù)大模型(日日新5.0),其知識、數(shù)學、推理和代碼
    的頭像 發(fā)表于 04-25 10:11 ?937次閱讀

    OpenAI即將發(fā)布“草莓”推理模型

    科技界迎來新動態(tài),據(jù)可靠消息透露,OpenAI正緊鑼密鼓地籌備著一項重大發(fā)布——預計在兩周內(nèi),將正式推出名為“草莓”的新型AI推理模型,并將其無縫融入ChatGPT服務中。這款以卓越推理能力
    的頭像 發(fā)表于 09-11 16:53 ?1207次閱讀

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1517次閱讀
    双城市| 彰化市| 长顺县| 雷山县| 斗六市| 达尔| 那曲县| 当雄县| 彭泽县| 沈阳市| 宁明县| 万州区| 揭东县| 苍山县| 桐柏县| 茌平县| 侯马市| 两当县| 交口县| 河南省| 潍坊市| 丹巴县| 图木舒克市| 财经| 朔州市| 盘锦市| 酒泉市| 丽江市| 汨罗市| 义马市| 吴桥县| 金堂县| 宁国市| 紫阳县| 综艺| 济南市| 昆山市| 安远县| 焉耆| 陈巴尔虎旗| 晋江市|