日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中科院針對NL2Code任務,調(diào)研了27個大模型,并指出5個重要挑戰(zhàn)

深度學習自然語言處理 ? 來源:AINLPer ? 2023-05-18 14:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

對于NL2Code任務相信大家都不陌生。它主要目的就是將自然語言轉(zhuǎn)換成可執(zhí)行代碼來提高開發(fā)人員的工作效率,終極目標就是干翻所有程序員,最近,隨著大模型的出現(xiàn),距離這一天又稍稍進了一步?;谠摫尘埃窒碇锌圃汉臀④泚喼扪芯吭涸?a target="_blank">ACL2023國際頂會上一篇文章:他們調(diào)研了NL2Code領(lǐng)域中的「27個大型語言模型以及相關(guān)評價指標」,分析了「LLMs的成功在于模型參數(shù)、數(shù)據(jù)質(zhì)量和專家調(diào)優(yōu)」,并指出了「NL2Code領(lǐng)域研究的5個機遇挑戰(zhàn)」,最后作者建立了一個分享網(wǎng)站來跟蹤LLMs在NL2Code任務上的最新進展。https://nl2code.github.io

1ffb74c8-f545-11ed-90ce-dac502259ad0.png

背景介紹

新手程序員,甚至是那些沒有任何編程經(jīng)驗的程序員,是否有可能僅僅通過用自然語言描述他們的需求來創(chuàng)建軟件?實現(xiàn)這一設想將對我們的生活、教育、經(jīng)濟和勞動力市場產(chǎn)生前所未有的影響。自然語言-代碼(NL2Code)因其廣闊的應用場景,是一項重要的研究任務,在學術(shù)界和工業(yè)界都引起了廣泛的興趣。

關(guān)于NL2Code的發(fā)展,其實和自然語言理解的發(fā)展類似,一開始,基本都是基于專家規(guī)則進行算法設計,但是此類方法需要對不同編程語言進行設計,泛化性差;隨著技術(shù)發(fā)展,人們逐步開始使用靜態(tài)語言模型,并使用向量空間來描述文字,此類方法在初期一般向量空間比較稀疏,不能建立長期的依賴關(guān)系;再后來,就用到了我們比較熟悉的神經(jīng)網(wǎng)絡,例如CNN、RNN、LSTM,此類方法通過標記數(shù)據(jù)進行訓練來構(gòu)建自然語言(NL)和代碼(Code)之間的關(guān)系,但實際效果對NL2Code任務的能力有限;現(xiàn)在,在ChatGPT風靡全球的背景下,越來越多的大型語言模型(LLMs)如雨后春筍一樣出現(xiàn),通過語言指令,它們可以在零樣本狀況下生成代碼,并在NL2Code任務上中取到了驚人的成績。具有標志性的一個LLM模型就是Codex,它擁有120億個參數(shù),在Python編程任務上測試,可解決72.31%的問題,并且該模型已經(jīng)商用可在實踐中提高開發(fā)人員的工作效率。

NL2Code任務與27個LLMs

對于NL2Code任務,其主要目的是基于給定自然語言問題描述生成所需要的代碼。以下是一個關(guān)于Python編程問題的示例。其中灰色塊部分表示問題描述,綠色塊部分表示模型生成代碼,黃色塊部分表示測試樣例。

202a89ca-f545-11ed-90ce-dac502259ad0.png

針對NL2Code任務對27個具有代表性的LLMs進行了全面調(diào)研,下表總結(jié)了每個模型的詳細信息,其中主要包括:模型架構(gòu)、模型大小、模型層數(shù)(L)、注意力頭數(shù)量(A)、隱藏維度(H)、模型參數(shù)是否開放(P)等五個方面。

204ee482-f545-11ed-90ce-dac502259ad0.png

為了更好地可視化,下圖按時間順序展示了這些模型,繪制了最大的模型大小。觀察到的一個趨勢是,隨著研究領(lǐng)域的發(fā)展,這些大型語言模型的規(guī)模也在不斷擴大。此外,只有解碼器的架構(gòu)更適合于規(guī)模較大的預訓練模型。

2082b53c-f545-11ed-90ce-dac502259ad0.png

27個LLMs評估

上面總結(jié)了NL2Code現(xiàn)有的大型語言模型(LLMs),但是這些模型在架構(gòu)、模型規(guī)模等方面各不相同,無法進行統(tǒng)一的評估。為此,作者在HumanEval基準上進行了Zero-shot統(tǒng)一評估,其中HumanEval基準由164個手寫的Python編程問題組成,對于每個編程問題都提供了測試用例,以評估生成代碼正確性。使用pass@k作為評估指標,即通過k次嘗試可以正確回答的問題的比例。下表顯示根據(jù)模型大小進行分組,在該測試集上的測試結(jié)果。

20b55230-f545-11ed-90ce-dac502259ad0.png

從上表可以看出,這些LLM在該數(shù)據(jù)集上的性能差異很大,盡管模型參數(shù)相似但效果差異也是很大??梢园l(fā)現(xiàn)Codex 在各種尺寸上都處于領(lǐng)先地位。為什么會存在這個問題呢?影響模型效果的關(guān)鍵因素是啥呢?作者經(jīng)過分析給出的結(jié)論有:模型大小、數(shù)據(jù)質(zhì)量、專家調(diào)優(yōu)。

模型大小

根據(jù)前面的整理用于NL2Code的LLMs時間發(fā)展圖可以發(fā)現(xiàn),只要模型參數(shù)越多性能就越好。為了進一步說明模型參數(shù)大小和模型效果之間的關(guān)系,作者整理了10個比較有代表性的模型,在HumanEval基準上的pass@1結(jié)果,如下圖所示:

20fcf0a4-f545-11ed-90ce-dac502259ad0.png

根據(jù)上圖,很明顯的可以「發(fā)現(xiàn)較大的模型通常會產(chǎn)生更好的結(jié)果」。此外,「當前模型無論大小,仍然可以通過進一步增加模型參數(shù)來實現(xiàn)性能的提升」。

數(shù)據(jù)質(zhì)量

隨著LLMs模型參數(shù)的增加,其訓練數(shù)據(jù)規(guī)模也在不斷的增加。這在數(shù)據(jù)選擇和預處理方面也有更高的要求。早期的模型,例如CodeSearchNet、CoST、XLCoST等都是基于人工標注數(shù)據(jù)對進行訓練(耗時耗力);GPT系列模型(GPT-3 、GPT-Neo、GPT-J )開始在大規(guī)模無監(jiān)督數(shù)據(jù)集上進行訓練,但是由于代碼數(shù)據(jù)限制,并沒有顯示出很強的代碼生成能力。由于LLMs模型的出現(xiàn),它們可以在更大規(guī)模的未標記代碼數(shù)據(jù)集上進行訓練,最終模型效果驚人。

在驚嘆于LLMs效果的同時,也要知道LLMs在訓練之前通常會對數(shù)據(jù)進行預處理。為此作者調(diào)研了Codex、AlphaCode、CodeGen、InCoder和PyCodeGPT等5個強大模型的數(shù)據(jù)預處理方法。發(fā)現(xiàn)它們具有幾個共同的特點:一是刪除可能自動生成或未完成的代碼文件,二是使用特定的規(guī)則來過濾不常見的代碼文件。「總之,這些預處理策略的目標是實現(xiàn)一個不重復的、完整的、正確的、干凈的和通用的代碼語料庫」。

專家調(diào)優(yōu)

訓練一個優(yōu)秀的模型需要認真考慮模型訓練階段的各個參數(shù)。通過對27個LLMs模型的研究發(fā)現(xiàn),它們都有一些共同的設置,比如都應用了Adam相關(guān)優(yōu)化器并在初始化階段相差不大。除此之外,還有需要調(diào)節(jié)的超參數(shù),如lr、batch、窗口大小、預熱、梯度累積和temperature。對于學習率來說,隨著模型的增大,學習率會逐步變小。如下圖所示:

212561ec-f545-11ed-90ce-dac502259ad0.png

對于temperature,這里對比了兩個模型在HumanEval任務上使用不同temperature后模型的性能。結(jié)果發(fā)現(xiàn),更高的temperature產(chǎn)生更低的pass@1和更高的pass@100,這表明更高的temperature使LLM產(chǎn)生更多樣化的預測,反之亦然。如下圖所示:

2145be74-f545-11ed-90ce-dac502259ad0.png

此外,有研究表明窗口大小也是一個關(guān)鍵因素,具有大窗口的小模型會有時優(yōu)于具有小窗口的大模型。此外,強大的LLMs通常主要使用兩種技術(shù)在代碼語料庫上訓練新的標記器:字節(jié)級字節(jié)對編碼和sentencepece 。新的標記器可以更有效和準確地將代碼內(nèi)容拆分為Tokens。這些經(jīng)過驗證的調(diào)優(yōu)技術(shù)將為培訓更強大的llm提供有價值的參考。

評估基準指標

「對NL2Code任務的評估,高質(zhì)量的基準和可靠的度量是基礎和必要的」。作者總結(jié)了17個NL2Code基準測試,每個基準測試在大小、語言、復雜性和場景方面都有自己的特點,如下表所示。

216d164a-f545-11ed-90ce-dac502259ad0.png

但大多數(shù)基準測試只包含有限數(shù)量的實例。例如,HumanEval和MBPP分別有164和974個實例。這是因為這些基準通常是手寫的以防數(shù)據(jù)泄露?!冈诖笮驼Z言模型時代,在創(chuàng)建新基準時避免數(shù)據(jù)泄漏至關(guān)重要」。此外,大多數(shù)當前的基準測試都有英文的問題描述和Python的代碼解決方案。最近,已經(jīng)提出了幾個多語言基準,例如涵蓋「多種編程語言的MBXP,HumanEvalX和MultiPL ,以及涵蓋多種自然語言的ODEX」。多語言基準測試的詳細信息如下表所示:

21cab7f0-f545-11ed-90ce-dac502259ad0.png

「手動評估生成的代碼是不切實際的,這就需要自動度量」。上述基準均提供了基于執(zhí)行的評估的測試用例,其中指標如 pass@k、n@k、測試用例平均值和執(zhí)行精度。但是,「這種方法對測試用例的質(zhì)量有嚴格的要求,并且只能評估可執(zhí)行代碼。對于不可執(zhí)行的代碼」,使用了 BLEU 、ROUGE 和 CodeBLEU等指標,無法準確評估代碼的正確性。到目前為止,「在設計指標來評估代碼的各個方面(例如漏洞、可維護性、清晰度、執(zhí)行復雜性和穩(wěn)定性)方面存在許多開放性挑戰(zhàn)」。

NL2Code挑戰(zhàn)與機遇

大預言模型在NL2Code的應用對學術(shù)界和工業(yè)界都有相當大的影響。雖然取得了驚人的進展,但仍然有很多挑戰(zhàn)需求解決,這也為研究人員提供了充足的機會。下面作者總結(jié)了 NL2Code任務的五個挑戰(zhàn)和機會。

「1、理解能力」:人類能夠理解不同抽象層次的各種描述, 相比之下,當前的 LLM 往往對給定的上下文敏感,這可能會導致性能下降。作者認為探索LLM的理解能力是一個重要的研究方向。

「2、判斷能力」:人類能夠判定一個編程問題是否被解決。當前模型不論輸入什么都會給出答案,而且該答案正確與否都不能確定,這在實際應用中會存在一定的問題。目前為了提高LLM的判斷能力,需要根據(jù)用戶反饋采用強化學習的方式進行調(diào)優(yōu)。作者認為探索LLM自我判斷能力,也是一個比較重要的研究方向。

「3、解釋能力」:人類開發(fā)人員能夠解釋他們編寫的代碼,這對教育的和軟件維護至關(guān)重要。最近的研究表明,LLM 具有自動生成代碼解釋的潛力。作者認為針對該能力也需要進一步的研究和探索,以充分發(fā)揮LLM在這方面的潛力。

「4、自適應能力」:當前的大型語言模型與人類之間的一個根本區(qū)別是它們適應新知識和更新知識的能力。人類開發(fā)人員能夠根據(jù)文檔資料實現(xiàn)API的快速開發(fā),而LLM需要大量的知識和訓練。作者認為如何提高LLM快速自學習能力也是一個比較大挑戰(zhàn)。

「5、多任務處理能力」:LLM在多任務處理方面與人類存在較大差異。人類可以在任務之間無縫切換,而LLM可能需要復雜的提示工程。為此作者任務提升LLM多任務能力同樣是一個重要的研究方向。


審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    575

    瀏覽量

    11345
  • python
    +關(guān)注

    關(guān)注

    58

    文章

    4889

    瀏覽量

    90330
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    14027

原文標題:ACL2023 | 中科院 針對NL2Code任務,調(diào)研了27個大模型,并指出5個重要挑戰(zhàn)

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    中科院發(fā)布“香山+如意”王炸組合,RISC-V迎來中國時刻

    作為一套全球免費開放的底層架構(gòu),為我國提供一條不依賴國外技術(shù)、可自主演進的路線,是發(fā)展可控算力的重要抓手。 ? 近日,中科院集中發(fā)布“香山”開源處理器和“如意”原生操作系統(tǒng)(openRuyi),
    的頭像 發(fā)表于 03-28 07:57 ?1.4w次閱讀

    深入解析 onsemi NL27WZU04 雙無緩沖反相器

    深入解析 onsemi NL27WZU04 雙無緩沖反相器 在電子設計領(lǐng)域,合適的元件選擇對于電路的性能和可靠性至關(guān)重要。今天,我們將深入探討 onsemi 的 NL27WZU04 雙無緩沖反相器
    的頭像 發(fā)表于 04-11 14:50 ?141次閱讀

    匯誠儀器與中科微電子蘇州研究合作,熱重分析儀助力科研創(chuàng)新

    雙方資源互補的體現(xiàn),也是匯誠儀器深耕科研領(lǐng)域的重要突破。中科微電子蘇州研究聚焦高端集成電路芯片、微系統(tǒng)開發(fā),深耕科研成果轉(zhuǎn)化與關(guān)鍵技術(shù)攻關(guān),在5G通訊、人工智能
    的頭像 發(fā)表于 02-05 16:20 ?1139次閱讀
    匯誠儀器與<b class='flag-5'>中科</b>微電子蘇州研究<b class='flag-5'>院</b>合作,熱重分析儀助力科研創(chuàng)新

    芯盾時代助力中科院蘇州納米所建立零信任安全架構(gòu)

    芯盾時代中標中國科學院蘇州納米技術(shù)與納米仿生研究所(簡稱:中科院蘇州納米所)!芯盾時代基于零信任安全理念,構(gòu)建以“身份”為核心的安全邊界,通過用戶身份與訪問管理平臺(IAM)幫助企業(yè)打破身份數(shù)據(jù)孤島
    的頭像 發(fā)表于 01-28 09:09 ?871次閱讀

    NL27WZ08雙路2輸入與門技術(shù)詳解與應用指南

    安森美 NL27WZ08雙路2輸入與邏輯門是高性能與邏輯門,工作電源電壓范圍為1.65V至5.5V,工作溫度范圍為-55°C至+125°C。這些器件具有幾乎為零的的靜態(tài)供電電流,大大降低了系統(tǒng)功率要求。安森美NL27WZ08在
    的頭像 發(fā)表于 11-25 14:35 ?1826次閱讀
    <b class='flag-5'>NL27</b>WZ08雙路<b class='flag-5'>2</b>輸入與門技術(shù)詳解與應用指南

    ?NL27WZ00:高性能低功耗雙路2輸入與非門深度解析

    安森美 NL27WZ00雙路2輸入NAND邏輯門是高性能邏輯門,工作電源電壓范圍為1.65V至5.5V,工作溫度范圍為-55°C至+125°C。各種數(shù)字電路應用在利用NL27WZ00在處理數(shù)字邏輯
    的頭像 發(fā)表于 11-25 14:27 ?861次閱讀
    ?<b class='flag-5'>NL27</b>WZ00:高性能低功耗雙路<b class='flag-5'>2</b>輸入與非門深度解析

    NL27WZ32雙路2輸入或邏輯門技術(shù)深度解析

    安森美 NL27WZ32雙路2輸入或門是高性能雙路2輸入或門,工作采用1.65V至5.5V的電源,工作在-55°C至+125°C的寬溫度范圍內(nèi)。這些器件具有幾乎為零的靜態(tài)供電電流,降低了系統(tǒng)的功率要求。安森美
    的頭像 發(fā)表于 11-25 11:15 ?788次閱讀
    <b class='flag-5'>NL27</b>WZ32雙路<b class='flag-5'>2</b>輸入或邏輯門技術(shù)深度解析

    谷歌與耶魯大學合作發(fā)布最新C2S-Scale 27B模型

    我們很榮幸發(fā)布與耶魯大學合作研究的 Cell2Sentence-Scale 27B (C2S-Scale),這是一新的 270 億參數(shù)基礎模型
    的頭像 發(fā)表于 11-06 10:35 ?1082次閱讀

    中科曙光推出科學大模型一站式開發(fā)平臺OneScience

    近日,在2025年中國計算機大會上,中科曙光發(fā)布國內(nèi)首個科學大模型一站式開發(fā)平臺OneScience。該平臺遵循AI計算開放架構(gòu)理念設計,依托曙光AI超集群國產(chǎn)算力,深度復現(xiàn)
    的頭像 發(fā)表于 10-28 17:29 ?1071次閱讀

    今日看點:中科院院士:未來人工智能助手將取代手機;合肥120億高端光罩項目開工

    中科院院士:未來人工智能助手將取代手機 近期,圖靈獎獲得者、中國科學院院士、清華大學人工智能學院院長姚期智公開表示,“無論我們喜歡與否,大約在未來三到五年內(nèi),每個人都會擁有一人工智能助手,甚至更大
    發(fā)表于 10-27 10:44 ?1521次閱讀

    中科院重慶研究在勢壘可光調(diào)諧的新型肖特基紅外探測器研究中獲進展

    傳統(tǒng)肖特基探測器和勢壘可光調(diào)諧的肖特基紅外探測器的對比 近日,中科院重慶綠色智能技術(shù)研究微納制造與系統(tǒng)集成研究中心在《創(chuàng)新》(The Innovation)上發(fā)表題為Schottky
    的頭像 發(fā)表于 10-21 09:26 ?513次閱讀
    <b class='flag-5'>中科院</b>重慶研究<b class='flag-5'>院</b>在勢壘可光調(diào)諧的新型肖特基紅外探測器研究中獲進展

    中科曙光助力首個地質(zhì)大模型“坤樞”上線

    近日,首個地質(zhì)領(lǐng)域?qū)S么笳Z言模型“坤樞”在河南鄭州正式上線,該大模型的部署將有助于夯實地質(zhì)產(chǎn)業(yè)數(shù)字化基礎,在保障國家能源資源信息安全前提下,完成多項地質(zhì)相關(guān)任務。而在該模型誕生過程中,
    的頭像 發(fā)表于 10-14 16:12 ?962次閱讀

    中科技大學與東風汽車首批6科研項目簽約

    8月30日,華中科技大學-東風汽車聯(lián)合研究管委會召開第一次會議,首批6科研項目簽約,標志著聯(lián)合研究在華中科技大學軍山校區(qū)正式落地校企合
    的頭像 發(fā)表于 09-01 10:12 ?1035次閱讀

    中科院寧波材料所:雙結(jié)構(gòu)石墨烯/PDMS復合傳感器,用于可穿戴設備應用

    在實際應用中,柔性傳感器需要在寬廣的測量范圍內(nèi)展現(xiàn)出足夠高的靈敏度;然而,這種需求總是伴隨著權(quán)衡取舍。本文通過對激光誘導石墨烯(LIG)導電路徑的幾何創(chuàng)新,解決上述挑戰(zhàn)。本文, 中科院寧波材料所趙
    的頭像 發(fā)表于 08-26 18:02 ?5913次閱讀
    <b class='flag-5'>中科院</b>寧波材料所:雙結(jié)構(gòu)石墨烯/PDMS復合傳感器,用于可穿戴設備應用

    中科曙光助力中科院高能物理研究所打造溪悟大模型

    近年來,以大規(guī)模預訓練模型為代表的人工智能技術(shù)迅猛發(fā)展,為科研創(chuàng)新提供全新范式。中科院高能物理研究所依托正負電子對撞機等大科學裝置,積累了海量高價值實驗數(shù)據(jù),如何高效利用數(shù)據(jù)、加速成果產(chǎn)出,成為研究所面臨的核心課題。
    的頭像 發(fā)表于 05-06 15:19 ?1019次閱讀
    鹤峰县| 宜州市| 炎陵县| 鄂尔多斯市| 淳化县| 洞口县| 抚顺县| 吉林市| 涿州市| 洛扎县| 天长市| 宜良县| 湖州市| 雅安市| 东辽县| 重庆市| 盘锦市| 繁昌县| 成都市| 福海县| 双城市| 巢湖市| 安远县| 历史| 黔西| 长治市| 水富县| 团风县| 容城县| 阿勒泰市| 夏河县| 潢川县| 黑水县| 如东县| 青田县| 宜黄县| 神池县| 太保市| 全椒县| 昌平区| 陆丰市|