日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP遷移學(xué)習(xí)面臨的問(wèn)題和解決

汽車玩家 ? 來(lái)源: AI公園 ? 作者:Muhammad Khalifa ? 2020-05-04 12:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀

NLP遷移學(xué)習(xí)中的一些問(wèn)題,感覺(jué)有點(diǎn)道理。

自然語(yǔ)言處理(NLP)最近取得了巨大的進(jìn)步,每隔幾天就會(huì)發(fā)布最新的結(jié)果。排行榜瘋狂是指最常見(jiàn)的NLP基準(zhǔn),如GLUE和SUPERGLUE,它們的得分越來(lái)越接近人類的水平。這些結(jié)果大多是通過(guò)超大(數(shù)十億個(gè)參數(shù))模型從大規(guī)模數(shù)據(jù)集中遷移學(xué)習(xí)得到的。本文的目的是指出遷移學(xué)習(xí)面臨的問(wèn)題和挑戰(zhàn),并提出一些可能的解決方法。

計(jì)算量

目前NLP中最成功的遷移學(xué)習(xí)形式是序列遷移學(xué)習(xí)(STL),通常采用語(yǔ)言預(yù)訓(xùn)練的形式(https://arxiv.org/abs/1801.06146)。最近幾乎所有的SOTA結(jié)果主要是由兩步方案驅(qū)動(dòng)的:

大型通用語(yǔ)料庫(kù)上進(jìn)行語(yǔ)言模型的建模(數(shù)據(jù)越多越好)。

Finetune目標(biāo)任務(wù)上的模型(或其子集)。

ELMO, BERT, GPT, GPT-2, XLNET and RoBERTa是都是用的同樣的技術(shù)。這些方法的一個(gè)主要問(wèn)題是巨大的資源需求。我所說(shuō)的資源是指數(shù)據(jù)和計(jì)算能力。例如,據(jù)估計(jì),在512個(gè)TPU v3芯片上訓(xùn)練XLNET大約需要25萬(wàn)美元,相比于在3/4的數(shù)據(jù)集中訓(xùn)練的BERT,只提升了1-2%。

這就引出了下一個(gè)問(wèn)題:

難以復(fù)現(xiàn)

可復(fù)現(xiàn)性已經(jīng)成為機(jī)器學(xué)習(xí)研究中的一個(gè)問(wèn)題。例如,Dacrema et al.)分析了18個(gè)不同的基于神經(jīng)的推薦系統(tǒng),發(fā)現(xiàn)其中只有7個(gè)經(jīng)過(guò)合理的努力是可復(fù)現(xiàn)的。一般來(lái)說(shuō),為了能夠使用或建立在一個(gè)特定的研究理念,這個(gè)理念必須易于復(fù)現(xiàn)。由于需要大量的計(jì)算資源來(lái)訓(xùn)練這些巨大的NLP模型并復(fù)現(xiàn)它們的結(jié)果,小型科技公司、初創(chuàng)公司、研究實(shí)驗(yàn)室和獨(dú)立研究人員將無(wú)法競(jìng)爭(zhēng)。

不再需要排行榜的任務(wù)

Anna Rogers在她的博客文章為什么“更多的數(shù)據(jù)和計(jì)算= SOTA”不是研究新聞。她認(rèn)為,排行榜的主要問(wèn)題在于,一個(gè)模型的排名完全取決于它的任務(wù)分?jǐn)?shù),而沒(méi)有考慮到達(dá)到這個(gè)分?jǐn)?shù)所需的數(shù)據(jù)量、計(jì)算量或訓(xùn)練時(shí)間。

Rohit Pgarg建議在任務(wù)精度和計(jì)算資源的二維尺度上比較模型的性能。請(qǐng)看下面的圖表。我建議我們添加另一個(gè)維度,它對(duì)應(yīng)于模型訓(xùn)練時(shí)候的數(shù)據(jù)量。但是,這種可視化并不能洞察哪種模型通常更好。還有Alexandr Savinov的一個(gè)非常有趣的評(píng)論,他建議使用算法能夠在一單位CPU時(shí)間內(nèi)將多少輸入信息“打包”到一單位輸出(模型參數(shù))表示中。

NLP遷移學(xué)習(xí)面臨的問(wèn)題和解決

在比較模型性能時(shí),使用計(jì)算資源作為任務(wù)準(zhǔn)確性的額外度量

這不像是我們學(xué)習(xí)的方式

孩子們通過(guò)嘈雜、模糊的輸入和極少的監(jiān)督來(lái)學(xué)習(xí)語(yǔ)言。一個(gè)孩子只要接觸一個(gè)單詞幾次,就能開(kāi)始理解它的意思。這與STL設(shè)置中使用的訓(xùn)練前步驟非常不同,在STL設(shè)置中,模型需要查看數(shù)百萬(wàn)個(gè)上下文,其中包括一個(gè)特定的單詞,以掌握該單詞的含義。一個(gè)非常重要的問(wèn)題是,是否可以只從原始文本中學(xué)習(xí)語(yǔ)義而不受任何外部監(jiān)督。如果你對(duì)關(guān)于這個(gè)話題的twitter辯論感興趣,請(qǐng)?jiān)L問(wèn)這個(gè)帖子:https://twitter.com/jacobandreas/status/1023246560082063366。如果答案是否定的,那就意味著在訓(xùn)練前,這些模型實(shí)際上并沒(méi)有給他們真正的語(yǔ)言理解能力。然而,我們?cè)谌粘I钪写_實(shí)使用了遷移學(xué)習(xí)。例如,如果我們知道如何駕駛一輛手動(dòng)汽車,我們就很容易利用所學(xué)的知識(shí)(如使用剎車和油門踏板)來(lái)駕駛一輛自動(dòng)汽車。但這是人類學(xué)習(xí)語(yǔ)言的必經(jīng)之路嗎?不太可能。然而,有人可能會(huì)說(shuō),只要一種方法能產(chǎn)生好的結(jié)果,它是否與人類的學(xué)習(xí)方式相似實(shí)際上并不重要。不幸的是,這些模型產(chǎn)生的一些好的結(jié)果是有問(wèn)題的,我們將在下一節(jié)看到。

從另一個(gè)角度來(lái)看,人類在語(yǔ)言學(xué)習(xí)上采取了一種持續(xù)終生的學(xué)習(xí)方式。每當(dāng)我們學(xué)習(xí)一個(gè)新任務(wù)時(shí),這種學(xué)習(xí)通常不會(huì)干擾之前學(xué)習(xí)過(guò)的任務(wù)。另一方面,當(dāng)新的訓(xùn)練數(shù)據(jù)的分布發(fā)生變化的時(shí)候,普通的只在一個(gè)任務(wù)上訓(xùn)練過(guò)的機(jī)器學(xué)習(xí)模型(包括遷移學(xué)習(xí)方法)通常不能利用過(guò)去學(xué)到知識(shí),這種現(xiàn)象稱為災(zāi)難性的遺忘。

膚淺的語(yǔ)言理解

語(yǔ)言建模任務(wù)的確是一個(gè)復(fù)雜的任務(wù)。例如這個(gè)句子:“The man in the red shirt is running fast. He must be…”,為了讓模型完成這句話,模型必須理解running fast通常意味著being in a hurry。那么這些預(yù)先訓(xùn)練過(guò)的模型到底能理解多少語(yǔ)言呢?不幸的是,事實(shí)并非如此。Niven et al., 2019分析了BERT在論證推理和理解任務(wù)(ARCT)上的表現(xiàn)。ARCT可以這樣描述:給定一個(gè)聲明和一個(gè)推理,任務(wù)是選擇正確的證據(jù),而不是另一個(gè)干擾項(xiàng)。正確的證明應(yīng)符合,而其他證明應(yīng)符合。參見(jiàn)下圖。

NLP遷移學(xué)習(xí)面臨的問(wèn)題和解決

論證和理解任務(wù)的范例

值得一提的是,BERT在這項(xiàng)任務(wù)中獲得了極具競(jìng)爭(zhēng)力的77%的準(zhǔn)確性,僅比人類基線低3分。首先,這說(shuō)明BERT有很強(qiáng)的推理能力。為了進(jìn)一步調(diào)查,Niven et al., 2019使用了所謂的“探針”。也就是說(shuō),他們?cè)谶@個(gè)任務(wù)上對(duì)BERT進(jìn)行了finetune,但是對(duì)BERT的輸入只是正確的和可選的證據(jù),而沒(méi)有暴露它的聲明或推理。假設(shè)是,如果BERT依賴證據(jù)中的一些統(tǒng)計(jì)線索,即使他只看到證據(jù)而沒(méi)有其他信息,他也應(yīng)該表現(xiàn)良好。有趣的是,他們的研究結(jié)果顯示,與使用推理和聲明相比,他們的準(zhǔn)確率僅下降了6%。這表明,BERT實(shí)際上并沒(méi)有進(jìn)行任何類型的推理,但證明本身有足夠的線索,使BERT能夠達(dá)到如此高的準(zhǔn)確性。值得注意的是,用一個(gè)沒(méi)有BERT所依賴的這些線索的對(duì)抗性的測(cè)試集代替了這個(gè)測(cè)試集,BERT只能達(dá)到53%的正確率,剛好高于隨機(jī)概率。

另一篇相關(guān)論文是“Can a Machine Really Finish your Sentence?”(Zellers et al., 2019)。他們考慮的是常識(shí)自然語(yǔ)言推理的任務(wù),即機(jī)器應(yīng)該選擇最可能的后續(xù)語(yǔ)句。例如,給定句子:“the team played so well”,系統(tǒng)應(yīng)該選擇“They won the game”作為后續(xù)。作者認(rèn)為,盡管BERT能夠達(dá)到86%的正確率(僅比人類基線低2點(diǎn)),如此高的正確率并不是由于BERT的高級(jí)推理形式,而是由于BERT學(xué)會(huì)了識(shí)別數(shù)據(jù)集特有的分布偏差。他們發(fā)現(xiàn),通過(guò)對(duì)抗性篩選(一種旨在為任何可能的訓(xùn)練、測(cè)試分割生成對(duì)抗性數(shù)據(jù)集的技術(shù))創(chuàng)建一個(gè)更困難的數(shù)據(jù)集(HellaSwag), BERT準(zhǔn)確率下降到53%。本文討論了數(shù)據(jù)集性能和任務(wù)性能之間的細(xì)微差別。對(duì)特定任務(wù)的數(shù)據(jù)集執(zhí)行得非常好并不意味著解決了底層任務(wù)。

NLP遷移學(xué)習(xí)面臨的問(wèn)題和解決

BERT在SWAG上的表現(xiàn)與HellaSwag相比

很明顯,這里發(fā)生了一些事情。是否可能BERT的好結(jié)果實(shí)際上是由它利用各種分布線索和偏差劫持目標(biāo)數(shù)據(jù)集的能力驅(qū)動(dòng)的?對(duì)BERT的研究結(jié)果進(jìn)行更多的調(diào)查能得出其他類似的發(fā)現(xiàn)和結(jié)論嗎?如果是這樣,我相信我們不僅需要建立更好的模型,還需要建立更好的數(shù)據(jù)集。我們需要的數(shù)據(jù)集能夠真實(shí)地反映底層任務(wù)的困難,而不是讓模型很容易達(dá)到欺騙的準(zhǔn)確性和排行榜分?jǐn)?shù)。

高碳不環(huán)保

信不信由你,但是訓(xùn)練這些壯觀的模型對(duì)環(huán)境有負(fù)面影響。Strubell等人比較了訓(xùn)練大型Transformer架構(gòu)產(chǎn)生的 排放與其他來(lái)源造成的排放。令人驚訝的是,使用神經(jīng)結(jié)構(gòu)搜索訓(xùn)練單個(gè)Transformer arhcitectue所釋放的 大約是一輛汽車一生所釋放的 的6.0倍。

NLP遷移學(xué)習(xí)面臨的問(wèn)題和解決

Schwartz等人介紹了他們所謂的“綠色人工智能”,這是一種實(shí)踐,使人工智能更加“高效”和“包容”。與我們上面討論的類似,他們強(qiáng)烈建議除了任務(wù)準(zhǔn)確性之外,還應(yīng)該增加效率。他們還認(rèn)為,研究論文有必要包括“價(jià)格標(biāo)簽”或模型訓(xùn)練的成本。這將鼓勵(lì)對(duì)更高效、更少資源需求的模型架構(gòu)的研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23346
  • 遷移學(xué)習(xí)
    +關(guān)注

    關(guān)注

    0

    文章

    74

    瀏覽量

    5856
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    縮短40%遷移周期:如何構(gòu)建具身智能高可靠驗(yàn)證底座?

    尊敬的研發(fā)工程師:在具身智能的研發(fā)進(jìn)程中,您是否也正面臨以下挑戰(zhàn)?物理樣機(jī)調(diào)試風(fēng)險(xiǎn)高:極端動(dòng)作測(cè)試易導(dǎo)致硬件損壞,每次“炸機(jī)”都意味著高昂的維修成本與研發(fā)進(jìn)度延誤。算法迭代周期長(zhǎng):強(qiáng)化學(xué)習(xí)訓(xùn)練依賴
    的頭像 發(fā)表于 04-28 17:32 ?929次閱讀
    縮短40%<b class='flag-5'>遷移</b>周期:如何構(gòu)建具身智能高可靠驗(yàn)證底座?

    Freescale半導(dǎo)體QFN封裝遷移及MC9S08QG8/4微控制器解析

    Freescale半導(dǎo)體QFN封裝遷移及MC9S08QG8/4微控制器解析 在電子設(shè)計(jì)領(lǐng)域,半導(dǎo)體器件的性能和封裝形式對(duì)產(chǎn)品的設(shè)計(jì)和性能有著至關(guān)重要的影響。今天我們就來(lái)探討Freescale半導(dǎo)體
    的頭像 發(fā)表于 04-09 16:15 ?221次閱讀

    Freescale半導(dǎo)體QFN封裝遷移及MC9S08GB60A芯片解析

    Freescale半導(dǎo)體QFN封裝遷移及MC9S08GB60A芯片解析 一、QFN封裝遷移 1.1 遷移背景 Freescale Semiconductor發(fā)布了新QFN封裝遷移附錄
    的頭像 發(fā)表于 04-09 14:20 ?172次閱讀

    自然語(yǔ)言處理NLP的概念和工作原理

    自然語(yǔ)言處理 (NLP) 是人工智能 (AI) 的一個(gè)分支,它會(huì)教計(jì)算機(jī)如何理解口頭和書(shū)面形式的人類語(yǔ)言。自然語(yǔ)言處理將計(jì)算語(yǔ)言學(xué)與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合來(lái)處理語(yǔ)音和文本數(shù)據(jù),這些數(shù)據(jù)也可以與其他類型的數(shù)據(jù)一起用于開(kāi)發(fā)智能工程
    的頭像 發(fā)表于 01-29 14:01 ?624次閱讀
    自然語(yǔ)言處理<b class='flag-5'>NLP</b>的概念和工作原理

    linux的壓縮和解壓操作

    對(duì)于重要的文件我們不會(huì)考慮這樣的方式。無(wú)損壓縮不會(huì)影響文件,所以對(duì)于壓縮我們最先考慮的是使用無(wú)損壓縮的方式。 2、 單個(gè)文件壓縮和解壓用 gzip / bzip2 對(duì)單個(gè)文件的壓縮和解壓我們可以
    發(fā)表于 12-23 06:56

    無(wú)質(zhì)量損失的數(shù)據(jù)遷移:Nikon SLM Solutions信賴3Dfindit企業(yè)版

    制造和航空航天,其中整個(gè)渦輪機(jī)部件都可以通過(guò)3D打印實(shí)現(xiàn)。 使用3Dfindit企業(yè)版進(jìn)行數(shù)據(jù)遷移在引入新的PLM和CAD軟件時(shí),Nikon SLM Solutions曾面臨著數(shù)據(jù)遷移的挑戰(zhàn)。雖然可以
    發(fā)表于 11-25 10:06

    新型超快速單脈沖技術(shù)解決傳統(tǒng)遷移率測(cè)量挑戰(zhàn)

    溝道有效遷移率 (μeff) 通過(guò)載流子速度和驅(qū)動(dòng)電流影響MOSFET性能。它是互補(bǔ)金屬氧化物半導(dǎo)體的關(guān)鍵參數(shù)之一 (CMOS) 技術(shù)。 隨著新型介電材料的出現(xiàn),傳統(tǒng)的遷移率評(píng)估測(cè)量技術(shù)遇到了下一節(jié)中描述的許多問(wèn)題,導(dǎo)致測(cè)量誤差較大,因此需要一種新的
    的頭像 發(fā)表于 11-17 13:58 ?3255次閱讀
    新型超快速單脈沖技術(shù)解決傳統(tǒng)<b class='flag-5'>遷移</b>率測(cè)量挑戰(zhàn)

    分鐘部署、秒級(jí)預(yù)警、一鍵遷移!三大廠商PLC新品加速迭代

    電子發(fā)燒友網(wǎng)報(bào)道(文/莫婷婷)隨著智能制造深入推進(jìn),冶金、汽車等傳統(tǒng)行業(yè)面臨大量老舊產(chǎn)線的升級(jí)改造需求。這些產(chǎn)線往往運(yùn)行多年,積累了大量核心工藝算法與工程數(shù)據(jù),企業(yè)亟需在不中斷生產(chǎn)、不丟失
    的頭像 發(fā)表于 10-11 09:24 ?8121次閱讀
    分鐘部署、秒級(jí)預(yù)警、一鍵<b class='flag-5'>遷移</b>!三大廠商PLC新品加速迭代

    軟通動(dòng)力攜手華為云推出iPaaS海外集成遷移聯(lián)合解決方案

    華為全聯(lián)接大會(huì)2025中,軟通動(dòng)力攜手華為云正式發(fā)布基于華為云ROMA Connect平臺(tái)的“iPaaS海外集成遷移聯(lián)合解決方案”。該方案旨在助力海外企業(yè)實(shí)現(xiàn)系統(tǒng)快速集成、業(yè)務(wù)平滑遷移,在多云混合環(huán)境下構(gòu)建高效、敏捷、低成本的數(shù)字化集成能力
    的頭像 發(fā)表于 09-28 17:44 ?1445次閱讀

    微電子所在芯粒集成電遷移EDA工具研究方向取得重要進(jìn)展

    優(yōu)勢(shì),獲得廣泛青睞。但芯粒集成中普遍存在供電電流大、散熱困難等問(wèn)題,導(dǎo)致其面臨嚴(yán)峻的電遷移可靠性挑戰(zhàn)。針對(duì)工藝層次高度復(fù)雜的芯粒集成系統(tǒng),如何實(shí)現(xiàn)電遷移問(wèn)題的精確高效仿真,并完成電遷移
    的頭像 發(fā)表于 09-01 17:40 ?912次閱讀
    微電子所在芯粒集成電<b class='flag-5'>遷移</b>EDA工具研究方向取得重要進(jìn)展

    中軟國(guó)際上云遷移服務(wù)充分釋放云計(jì)算價(jià)值

    在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)上云已成為提升業(yè)務(wù)敏捷性、降低成本、增強(qiáng)安全性的關(guān)鍵路徑。然而,上云遷移涉及復(fù)雜的業(yè)務(wù)系統(tǒng)、海量數(shù)據(jù)和高可用性要求,如何確保遷移過(guò)程高效、穩(wěn)定、安全,成為企業(yè)面臨的核心挑戰(zhàn)。作為
    的頭像 發(fā)表于 07-25 14:32 ?1110次閱讀
    中軟國(guó)際上云<b class='flag-5'>遷移</b>服務(wù)充分釋放云計(jì)算價(jià)值

    新思科技攜手是德科技推出AI驅(qū)動(dòng)的射頻設(shè)計(jì)遷移流程

    新思科技與是德科技宣布聯(lián)合推出人工智能(AI)驅(qū)動(dòng)的射頻設(shè)計(jì)遷移流程,旨在加速?gòu)呐_(tái)積公司N6RF+向N4P工藝的遷移,以滿足當(dāng)今要求嚴(yán)苛的無(wú)線集成電路應(yīng)用對(duì)性能的需求。全新的射頻設(shè)計(jì)遷移工作流程以臺(tái)
    的頭像 發(fā)表于 06-27 17:36 ?1741次閱讀

    載流子遷移率提高技術(shù)詳解

    在高k金屬柵之外,另一種等效擴(kuò)充的方法是增加通過(guò)器件溝道的電子或空穴的遷移率。表2.5列舉了一些提高器件載流子遷移率的手段及其對(duì) PMOS或者 NMOS的作用。
    的頭像 發(fā)表于 05-30 15:19 ?1690次閱讀
    載流子<b class='flag-5'>遷移</b>率提高技術(shù)詳解

    如何精準(zhǔn)提取MOSFET溝道遷移

    溝道有效遷移率(μeff)是CMOS器件性能的關(guān)鍵參數(shù)。傳統(tǒng)測(cè)量方法在高k介質(zhì)、漏電介質(zhì)與高速應(yīng)用中易出現(xiàn)誤差。本文介紹了UFSP(Ultra-Fast Single Pulse)技術(shù)如何準(zhǔn)確提取遷移率,克服這些挑戰(zhàn)。
    的頭像 發(fā)表于 05-19 14:28 ?2166次閱讀
    如何精準(zhǔn)提取MOSFET溝道<b class='flag-5'>遷移</b>率

    從Keil MDK到IAR EWARM:通過(guò)工程遷移實(shí)現(xiàn)項(xiàng)目資產(chǎn)的更好管理

    對(duì)于需要統(tǒng)一開(kāi)發(fā)環(huán)境或涉及多核架構(gòu)(如Cortex-A/R)的項(xiàng)目,越來(lái)越多的用戶選擇從Keil MDK遷移到IAR EWARM。這就會(huì)面臨著需要將之前的Keil MDK工程遷移到IAR EWARM的問(wèn)題。本文將介紹如何高效完成
    的頭像 發(fā)表于 05-08 09:03 ?1503次閱讀
    從Keil MDK到IAR EWARM:通過(guò)工程<b class='flag-5'>遷移</b>實(shí)現(xiàn)項(xiàng)目資產(chǎn)的更好管理
    定结县| 盘山县| 萨嘎县| 蕉岭县| 张家川| 湖州市| 筠连县| 旌德县| 青岛市| 黑河市| 巩义市| 陆丰市| 苍溪县| 伊宁市| 虞城县| 庄浪县| 广东省| 子洲县| 磐石市| 新宾| 申扎县| 河东区| 九龙坡区| 德昌县| 宣威市| 白银市| 桃园市| 巩义市| 常德市| 临武县| 临沭县| 合川市| 安泽县| 绵竹市| 韶关市| 江孜县| 正蓝旗| 鄱阳县| 平利县| 纳雍县| 昌乐县|