日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

清華等開源「工具學習基準」ToolBench,微調模型ToolLLaMA性能超越ChatGPT

AI智勝未來 ? 來源:新智元 ? 2023-06-08 11:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】工具學習的開源時代來了!

人類具有創(chuàng)造和利用工具的能力,使得我們可以突破身體的限制,探索更廣闊的世界。

人工智能基礎模型也類似,如果僅靠訓練階段得到的權重,使用場景就會非常受限,而最近提出的工具學習(tool learning),將特定領域的專用工具與大規(guī)?;A模型相結合,可以實現(xiàn)更高的效率、性能。

不過目前工具學習的相關研究還不夠深入,也缺乏相關的開源數據和代碼。

最近,清華大學自然語言處理實驗室等支持的開源社區(qū)OpenBMB (Open Lab for Big Model Base)發(fā)布了ToolBench項目,可以幫助開發(fā)者構建開源、大規(guī)模、高質量的指令調優(yōu)數據,促進構建具有通用工具使用能力的大型語言模型。

d1432186-0580-11ee-8a94-dac502259ad0.png

倉庫鏈接:https://github.com/OpenBMB/ToolBench

ToolBench倉庫中提供了相關數據集、訓練和評估腳本,以及在ToolBench上微調的功能模型ToolLLaMA,具體特點為:

1. 支持單工具和多工具方案

其中單工具設置遵循LangChain提示風格,多工具設置遵循AutoGPT的提示風格。

2. 模型回復不僅包括最終答案,還包含模型的思維鏈過程、工具執(zhí)行和工具執(zhí)行結果

3. 支持真實世界級別的復雜性,支持多步工具調用

4. 豐富的API,可用于現(xiàn)實世界中的場景,如天氣信息、搜索、股票更新和PowerPoint自動化

5. 所有的數據都是由OpenAI API自動生成并由開發(fā)團隊進行過濾,數據的創(chuàng)建過程很容易擴展

不過需要注意的是,目前發(fā)布的數據還不是最終版本,研究人員仍然在對數據進行后處理來提高數據質量,并增加真實世界工具的覆蓋范圍。

ToolBench

ToolBench的總體思路是基于BMTools,在有監(jiān)督數據中訓練大型語言模型。

d168661c-0580-11ee-8a94-dac502259ad0.png

倉庫中包含31.2萬次真實API調用得到的9800條數據,涵蓋單工具場景和多工具場景,下面是單工具的統(tǒng)計信息。

d1731882-0580-11ee-8a94-dac502259ad0.png

其中每行數據都是一個json dict,包含數據創(chuàng)建的提示模板、工具使用的人工指令(查詢)、中間思維/工具執(zhí)行循環(huán)和最終答案。

模型實驗

機器評估:研究人員對每個工具隨機抽取100個鏈步(chain steps)來構建機器評估測試平臺,平均27個最終步驟和73個中間工具調用步驟,其中最終步驟的評估使用Rouge-L指標,中間步驟的評估使用ExactMatch指標進行評估。

d17da022-0580-11ee-8a94-dac502259ad0.png

人工評估:在天氣、地圖、股票、翻譯、化學和WolframAlpha工具中隨機抽取10個query,然后評估工具調用過程的通過率、最終答案以及和ChatGPT最終答案的比較。

ChatGPT評估:通過ChatGPT對LLaMA和ChatGPT的答案和工具使用鏈進行自動評估。

評估結果如下(分數越高越好),可以看到ToolLLaMA在不同場景下與ChatGPT的性能相同或更好。

d186b716-0580-11ee-8a94-dac502259ad0.png

工具學習

在清華大學、人民大學、北京郵電大學等個國內外知名高校和大學聯(lián)合發(fā)布的一篇論文中,對工具學習進行了系統(tǒng)的研究,介紹了工具學習的背景,包括認知起源、基礎模型的范式轉變,以及工具和模型的互補作用。

d1a93c64-0580-11ee-8a94-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2304.08354.pdf

文中還回顧了現(xiàn)有的工具學習研究,包括工具增強型和工具導向型學習,并制定了一個通用的工具學習框架:從理解用戶指令開始,模型應該學會把一個復雜的任務分解成幾個子任務,通過推理動態(tài)地調整計劃,并通過選擇合適的工具有效地征服每個子任務。

文中還討論了如何訓練模型以提高工具使用能力并促進工具學習的普及。

考慮到之前的工作中缺乏系統(tǒng)的工具學習評估,研究人員用17種有代表性的工具進行了實驗,并展示了當前基礎模型在熟練利用工具方面的潛力。

論文最后討論了幾個需要進一步研究的工具學習的開放性問題,例如確保安全和可信賴的工具使用、用基礎模型實現(xiàn)工具創(chuàng)建,以及解決個性化的難題。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1821

    文章

    50366

    瀏覽量

    267048
  • 模型
    +關注

    關注

    1

    文章

    3831

    瀏覽量

    52287
  • 自然語言處理

    關注

    1

    文章

    630

    瀏覽量

    14735

原文標題:清華等開源「工具學習基準」ToolBench,微調模型ToolLLaMA性能超越ChatGPT

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    “明牌”對局,自變量開源模型超越pi0

    “明牌”對局,自變量開源模型超越pi0
    的頭像 發(fā)表于 01-10 12:00 ?5772次閱讀
    “明牌”對局,自變量<b class='flag-5'>開源</b><b class='flag-5'>模型</b><b class='flag-5'>超越</b>pi0

    ChatGPT模型的發(fā)展,對GPGPU有怎樣的性能要求?

    電子發(fā)燒友網報道(文/李彎彎)最近,在ChatGPT火了之后,國內互聯(lián)網科技圈不時傳出計劃或者正在研究類ChatGPT模型的消息。 ? 然而在相關技術真正面世之前,近日,OpenAI又放
    的頭像 發(fā)表于 03-07 09:15 ?3104次閱讀

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調技術解讀

    重復項或使用編輯距離算法比較文本相似度。數據標注:高質量的數據標注直接影響模型性能。標注過程應遵循明確標注規(guī)則、選擇合適的標注工具、進行多輪審核和質量控制原則。數據增強:提高
    發(fā)表于 01-14 16:51

    AI大模型微調企業(yè)項目實戰(zhàn)課

    API,無異于將企業(yè)命脈交由他人掌控。一旦面臨網絡封鎖、服務停機或協(xié)議條款變更,企業(yè)的智能化進程將瞬間癱瘓。因此,將開源基礎大模型“請回自家機房”,通過微調技術注入企業(yè)獨有的“靈魂”,打造一個懂行
    發(fā)表于 04-16 18:48

    科技大廠競逐AIGC,中國的ChatGPT在哪?

    。亞馬遜成立了一個小型工作組,拓展ChatGPTAI工具對企業(yè)的工作職能…… ChatGPT火爆,搜索引擎巨頭百度率先坐不住了。 就在谷歌官宣Bard內測的當天下午,百度官宣了大
    發(fā)表于 03-03 14:28

    清華大學發(fā)布首個開源自動圖學工具

    如何應用自動機器學習 (AutoML) 加速圖機器學習任務的處理?清華大學發(fā)布全球首個開源自動圖學習工具
    的頭像 發(fā)表于 12-22 16:32 ?2365次閱讀

    ChatGPT開源項目匯總表格

    CarperAI 是EleutherAI研究小組的一個新實驗室,其任務是“通過強化學習提高大型語言模型 (LLM) 的性能和安全性?!?CarperAI 開源了 Transformer
    的頭像 發(fā)表于 03-22 14:11 ?2781次閱讀

    微軟開源“傻瓜式”類ChatGPT模型訓練工具

    DeepSpeed-RLHF 模塊:DeepSpeed-RLHF 復刻了 InstructGPT 論文中的訓練模式,并確保包括 a) 監(jiān)督微調(SFT),b) 獎勵模型微調和 c) 基于人類反饋
    的頭像 發(fā)表于 04-14 09:36 ?1762次閱讀

    支持 ChatGPT 的機器學習模型的概況

    本文介紹了支持 ChatGPT 的機器學習模型的概況,文章將從大型語言模型的介紹開始,深入探討用來訓練 GPT-3 的革命性自我注意機制,然后深入研究由人類反饋的強化
    的頭像 發(fā)表于 05-26 11:44 ?1741次閱讀
    支持 <b class='flag-5'>ChatGPT</b> 的機器<b class='flag-5'>學習</b><b class='flag-5'>模型</b>的概況

    iPhone都能微調模型了嘛

    自動測試分數達到 ChatGPT的99.3%,人類難以分辨 兩者的回答…… 這是開源模型最新成果,來自羊駝家族的又一重磅成員——華盛頓大學 原駝 ( Guanaco )。 ? 更關鍵的是,與原駝
    的頭像 發(fā)表于 06-02 15:26 ?1515次閱讀
    iPhone都能<b class='flag-5'>微調</b>大<b class='flag-5'>模型</b>了嘛

    ChatGPT:怎樣打造智能客服體驗的重要工具?

    ChatGPT作為智能對話生成模型,可以幫助打造智能客服體驗的重要工具。以下是一些方法和步驟:1.數據收集和準備:收集和整理與客服相關的數據,包括常見問題、回答示例、客戶對話記錄。這
    的頭像 發(fā)表于 11-01 11:12 ?808次閱讀
    <b class='flag-5'>ChatGPT</b>:怎樣打造智能客服體驗的重要<b class='flag-5'>工具</b>?

    OpenAI開放大模型微調功能 GPT-3.5可以打造專屬ChatGPT

    OpenAI開放大模型微調功能 GPT-3.5可以打造專屬ChatGPT OpenAI開放大模型微調功能,這意味著GPT-3.5 Turbo
    的頭像 發(fā)表于 08-23 19:34 ?3317次閱讀

    最佳開源模型刷新多項SOTA,首次超越Mixtral Instruct!「開源版GPT-4」家族迎來大爆發(fā)

    Mixtral 8x7B模型開源后,AI社區(qū)再次迎來一大波微調實踐。來自Nous Research應用研究小組團隊微調出新一代大模型Nous
    的頭像 發(fā)表于 01-30 15:29 ?2093次閱讀
    最佳<b class='flag-5'>開源</b><b class='flag-5'>模型</b>刷新多項SOTA,首次<b class='flag-5'>超越</b>Mixtral Instruct!「<b class='flag-5'>開源</b>版GPT-4」家族迎來大爆發(fā)

    llm模型chatGPT的區(qū)別

    LLM(Large Language Model)是指大型語言模型,它們是一類使用深度學習技術構建的自然語言處理(NLP)模型。LLM模型可以處理各種語言任務,如文本生成、文本分類、機
    的頭像 發(fā)表于 07-09 09:55 ?2765次閱讀

    模型為什么要微調?大模型微調的原理

    難以達到最佳性能。為了提升模型在特定任務上的表現(xiàn),微調(Fine-tuning)成為了一個關鍵步驟。本文將詳細探討大模型為什么要進行微調以及
    的頭像 發(fā)表于 07-10 10:43 ?8654次閱讀
    华池县| 巴中市| 兴隆县| 莎车县| 安平县| 绵竹市| 芦溪县| 正定县| 南宁市| 新疆| 工布江达县| 桓台县| 宝清县| 凤城市| 华容县| 涞水县| 湘潭市| 潼关县| 新竹县| 慈溪市| 赤水市| 永仁县| 平罗县| 宁强县| 新津县| 宝兴县| 宁南县| 巴东县| 三穗县| 务川| 灵武市| 衡阳县| 繁昌县| 天津市| 东莞市| 松溪县| 和硕县| 桦川县| 太和县| 东阿县| 湄潭县|