日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解讀一下DeBERTa在BERT上有哪些改造

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2021-04-15 14:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeBERTa刷新了GLUE的榜首,本文解讀一下DeBERTa在BERT上有哪些改造

DeBERTa對(duì)BERT的改造主要在三點(diǎn)

分散注意力機(jī)制

為了更充分利用相對(duì)位置信息,輸入的input embedding不再加入pos embedding, 而是input在經(jīng)過(guò)transformer編碼后,在encoder段與“decoder”端 通過(guò)相對(duì)位置計(jì)算分散注意力

增強(qiáng)解碼器(有點(diǎn)迷)

為了解決預(yù)訓(xùn)練和微調(diào)時(shí),因?yàn)槿蝿?wù)的不同而預(yù)訓(xùn)練和微調(diào)階段的gap,加入了一個(gè)增強(qiáng)decoder端,這個(gè)decoder并非transformer的decoder端(需要decoder端有輸入那種),只是直觀上起到了一個(gè)decoder作用

解碼器前接入了絕對(duì)位置embedding,避免只有相對(duì)位置而丟失了絕對(duì)位置embedding

其實(shí)本質(zhì)就是在原始BERT的倒數(shù)第二層transformer中間層插入了一個(gè)分散注意力計(jì)算

訓(xùn)練trick

訓(xùn)練時(shí)加入了一些數(shù)據(jù)擾動(dòng)

mask策略中不替換詞,變?yōu)樘鎿Q成詞的pos embedding

c5b1d7ee-9cd8-11eb-8b86-12bb97331649.jpg

分散注意力機(jī)制

motivation

BERT加入位置信息的方法是在輸入embedding中加入postion embedding, pos embedding與char embedding和segment embedding混在一起,這種早期就合并了位置信息在計(jì)算self-attention時(shí),表達(dá)能力受限,維護(hù)信息非常被弱化了

c5ed3c44-9cd8-11eb-8b86-12bb97331649.jpg

BERT embedding

本文的motivation就是將pos信息拆分出來(lái),單獨(dú)編碼后去content 和自己求attention,增加計(jì)算 “位置-內(nèi)容” 和 “內(nèi)容-位置” 注意力的分散Disentangled Attention

Disentangled Attention計(jì)算方法

分散注意力機(jī)制首先在input中分離相對(duì)位置embedding,在原始char embedding+segment embedding經(jīng)過(guò)編碼成后,與相對(duì)位置計(jì)算attention,

即是內(nèi)容編碼,是相對(duì)的位置編碼, attention的計(jì)算中,融合了位置-位置,內(nèi)容-內(nèi)容,位置-內(nèi)容,內(nèi)容-位置

相對(duì)位置的計(jì)算

限制了相對(duì)距離,相距大于一個(gè)閾值時(shí)距離就無(wú)效了,此時(shí)距離設(shè)定為一個(gè)常數(shù),距離在有效范圍內(nèi)時(shí),用參數(shù)用控制

c6002ffc-9cd8-11eb-8b86-12bb97331649.jpg

增強(qiáng)型解碼器

強(qiáng)行叫做解碼器

用 EMD( enhanced mask decoder) 來(lái)代替原 BERT 的 SoftMax 層預(yù)測(cè)遮蓋的 Token。因?yàn)槲覀冊(cè)诰{(diào)時(shí)一般會(huì)在 BERT 的輸出后接一個(gè)特定任務(wù)的 Decoder,但是在預(yù)訓(xùn)練時(shí)卻并沒(méi)有這個(gè) Decoder;所以本文在預(yù)訓(xùn)練時(shí)用一個(gè)兩層的 Transformer decoder 和一個(gè) SoftMax 作為 Decoder。其實(shí)就是給后層的Transformer encoder換了個(gè)名字,千萬(wàn)別以為是用到了Transformer 的 Decoder端

絕對(duì)位置embedding

在decoder前有一個(gè)騷操作是在這里加入了一層絕對(duì)位置embedding來(lái)彌補(bǔ)一下只有相對(duì)位置的損失,比如“超市旁新開(kāi)了一個(gè)商場(chǎng)”,當(dāng)mask的詞是“超市”,“商場(chǎng)”,時(shí),只有相對(duì)位置時(shí)沒(méi)法區(qū)分這兩個(gè)詞的信息,因此decoder中加入一層

一些訓(xùn)練tricks

將BERT的訓(xùn)練策略中,mask有10%的情況是不做任何替換,這種情況attention偏向自己會(huì)非常明顯,DeBeta將不做替換改成了換位該位置詞絕對(duì)位置的pos embedding, 實(shí)驗(yàn)中明顯能看到這種情況下的attention對(duì)自身依賴減弱

c617b1d6-9cd8-11eb-8b86-12bb97331649.jpg

在訓(xùn)練下游任務(wù)時(shí),給訓(xùn)練集做了一點(diǎn)擾動(dòng)來(lái)增強(qiáng)模型的魯棒性

效果

DeBERTa large目前是GLUE的榜首,在大部分任務(wù)上整體效果相比還是有一丟丟提升

c63aa8c6-9cd8-11eb-8b86-12bb97331649.jpg

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7349

    瀏覽量

    95058
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    1041

    瀏覽量

    57156
  • Decoder
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    11118

原文標(biāo)題:SOTA來(lái)啦!BERT又又又又又又魔改了!DeBERTa登頂GLUE~

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    我這個(gè)是微信小票機(jī),請(qǐng)問(wèn)里面可以添加什么芯片的?我想把它給改造一下,添加藍(lán)牙或者WIFI或者藍(lán)牙WIFI 2合

    我這個(gè)是微信小票機(jī),請(qǐng)問(wèn)里面可以添加什么芯片的?他送了兩年流量過(guò)后,我不想充流量了,我想把它給改造一下,添加藍(lán)牙或者WIFI或者藍(lán)牙WIFI 2合
    發(fā)表于 04-21 02:20

    Atmel產(chǎn)品膠帶和卷軸標(biāo)簽工藝變更通知解讀

    Atmel產(chǎn)品膠帶和卷軸標(biāo)簽工藝變更通知解讀 作為電子工程師,我們經(jīng)常會(huì)遇到產(chǎn)品的各種變更通知,這些通知對(duì)于我們的設(shè)計(jì)和生產(chǎn)工作有著重要的影響。今天就來(lái)詳細(xì)解讀一下Atmel的這份產(chǎn)品變更通知
    的頭像 發(fā)表于 04-05 14:55 ?683次閱讀

    船舶岸電改造,CSD 船用變壓器如何降低改造成本?

    、船東岸電改造的成本痛點(diǎn):投入大、周期長(zhǎng)、風(fēng)險(xiǎn)高交通運(yùn)輸部數(shù)據(jù)顯示,船舶岸電改造1MW容量需投入約80萬(wàn)元,其中變壓器占比超30%。船東普遍擔(dān)心:改造后變壓器適配性差,需反復(fù)調(diào)試;海
    的頭像 發(fā)表于 03-29 00:00 ?190次閱讀
    船舶岸電<b class='flag-5'>改造</b>,CSD 船用變壓器如何降低<b class='flag-5'>改造</b>成本?

    微芯科技Micrel產(chǎn)品制造基地變更通知解讀

    的通知(PCN - CYER - 31JLEX869),下面我們來(lái)詳細(xì)解讀一下這份通知。 文件下載: MIC5310-MGYMT-TR.pdf 、變更概述 此次變更主要是對(duì)部分Micrel產(chǎn)品的制造
    的頭像 發(fā)表于 03-17 14:45 ?214次閱讀

    想把部電話座機(jī)改造成子母機(jī),請(qǐng)各位大佬幫忙

    有時(shí)忙其他事情的時(shí)候需要接電話,使用座機(jī)電話就比較不方便,所以想把電話座機(jī)改造成子母話機(jī),座機(jī)作為發(fā)射端,子機(jī)作為接收端,但是需要做到子機(jī)接電話時(shí)座機(jī)不再繼續(xù)響鈴,且座機(jī)仍可繼續(xù)接聽(tīng),各位大佬有啥好的改造方案嗎,需要各位大佬幫
    發(fā)表于 02-03 14:14

    能否詳細(xì)介紹一下MOSFET電機(jī)控制中的作用是什么?

    能否詳細(xì)介紹一下MOSFET電機(jī)控制中的作用?
    發(fā)表于 12-22 13:11

    【雷達(dá)模組】久坐提醒設(shè)備,“起來(lái)走動(dòng)一下

    。之前申請(qǐng)的Rd-03 _ V2剛好滿足,所以就通過(guò)Rd-03 _ V2實(shí)現(xiàn)感知人體存在。 由于主要考慮PC提醒所以這次上位機(jī)沒(méi)有使用單片機(jī),而是使用 USB轉(zhuǎn)串口連接Rd-03 _ V2,使用上報(bào)模式來(lái)實(shí)現(xiàn)較為細(xì)致的行為檢測(cè)。 之前做的都是方方正正的,這次想著美化一下。弄了個(gè)機(jī)械鍵
    的頭像 發(fā)表于 12-16 09:20 ?546次閱讀
    【雷達(dá)模組】久坐提醒設(shè)備,“起來(lái)走動(dòng)<b class='flag-5'>一下</b>”

    請(qǐng)問(wèn)一下,CW32L083VCT6的DeepSleep模式,功耗多少?

    請(qǐng)問(wèn)一下,CW32L083VCT6的DeepSleep模式,功耗多少?
    發(fā)表于 12-03 06:14

    支付寶“碰一下”的革新背后:國(guó)民技術(shù)MCU的隱形力量

    該類別中唯的中國(guó)企業(yè)。短短兩個(gè)月內(nèi),“碰一下”已連續(xù)獲得三項(xiàng)國(guó)際獎(jiǎng)項(xiàng)。此前,國(guó)際權(quán)威市場(chǎng)調(diào)研機(jī)構(gòu)JuniperResearch公布的2025年度“未來(lái)數(shù)字獎(jiǎng)”
    的頭像 發(fā)表于 11-21 19:15 ?1519次閱讀
    支付寶“碰<b class='flag-5'>一下</b>”的革新背后:國(guó)民技術(shù)MCU的隱形力量

    國(guó)民技術(shù)MCU芯片護(hù)航支付寶碰一下設(shè)備創(chuàng)新

    近日,全球頂尖金融科技盛會(huì)Money20/20公布首屆創(chuàng)新大獎(jiǎng)The Money Awards結(jié)果,“支付寶碰一下”從眾多參賽企業(yè)中脫穎而出,憑借創(chuàng)新的解決方案和極致的用戶體驗(yàn)摘得“支付”類別大獎(jiǎng),成為該類別中唯的中國(guó)企業(yè)。
    的頭像 發(fā)表于 11-06 10:15 ?1348次閱讀

    分享一下多點(diǎn)電極液位開(kāi)關(guān)的特點(diǎn)與優(yōu)勢(shì)

    ,都是監(jiān)測(cè)液位。工業(yè)生產(chǎn)中,會(huì)用到很多液體,他們的液位監(jiān)測(cè)又由誰(shuí)來(lái)守護(hù)呢?今天我們來(lái)了解一下,多點(diǎn)電極液位開(kāi)關(guān),聊聊它有什么特點(diǎn)和優(yōu)勢(shì)? 我們?cè)谏钪谢蚴枪I(yè)中,遇到的開(kāi)關(guān)可能就
    的頭像 發(fā)表于 09-24 18:15 ?829次閱讀
    分享<b class='flag-5'>一下</b>多點(diǎn)電極液位開(kāi)關(guān)的特點(diǎn)與優(yōu)勢(shì)

    奧比中光助力支付寶碰一下落地電梯場(chǎng)景

    近日,支付寶與分眾傳媒宣布聯(lián)合推出“碰一下搶紅包”服務(wù)。作為創(chuàng)新交互方式,“支付寶碰一下”首次被引入至電梯場(chǎng)景,并已在全國(guó)20余個(gè)城市的電梯鋪設(shè)。奧比中光作為“支付寶碰一下”業(yè)務(wù)的核心供應(yīng)商,為這
    的頭像 發(fā)表于 08-12 11:32 ?1436次閱讀

    “碰一下”支付終端應(yīng)用在酒店:智能無(wú)卡入住與客房控制

    和數(shù)字化體驗(yàn)。消費(fèi)者門店買單時(shí),用手機(jī)碰一下付款筆筆有優(yōu)惠、同步實(shí)現(xiàn)會(huì)員積分。但除了餐飲零售場(chǎng)景,“碰一下”終端和“碰一下”機(jī)具還有更多意想不到的應(yīng)用場(chǎng)景。在前不
    的頭像 發(fā)表于 07-04 09:57 ?1012次閱讀
    “碰<b class='flag-5'>一下</b>”支付終端應(yīng)用在酒店:智能無(wú)卡入住與客房控制

    上電時(shí)GPIO控制的LED偶爾詭異地亮了一下

    快速上下電時(shí),主控1.8V的GPIO控制的LED會(huì)亮一下。放久點(diǎn)再上電則不會(huì)異常亮。仔細(xì)排查發(fā)現(xiàn)1.8V比0.9V先上電,再深入排查發(fā)現(xiàn)快速上下電時(shí)1.8V電源的RC延時(shí)使能失效,上電時(shí)序異常,主控工作異常。
    的頭像 發(fā)表于 06-18 14:16 ?1154次閱讀
    上電時(shí)GPIO控制的LED偶爾詭異地亮了<b class='flag-5'>一下</b>

    一下終端,讓自助售貨機(jī)秒變 “家里的冰箱”

    繼刷臉支付后,支付寶近日又推出了新的支付方式——碰一下支付。只需將手機(jī)輕輕靠近支付寶“碰一下”支付終端,即可完成支付,比以往要先解鎖手機(jī),調(diào)出APP的付款碼再支付的操作環(huán)節(jié)要便捷和省時(shí)許多?!芭?b class='flag-5'>一下
    的頭像 發(fā)表于 06-18 10:49 ?2160次閱讀
    碰<b class='flag-5'>一下</b>終端,讓自助售貨機(jī)秒變 “家里的冰箱”
    易门县| 古丈县| 化德县| 习水县| 万山特区| 当雄县| 达日县| 云安县| 高唐县| 安阳市| 莒南县| 河西区| 确山县| 青阳县| 西乡县| 杭州市| 恩平市| 上饶市| 蓬溪县| 车险| 吕梁市| 松原市| 大冶市| 安陆市| 上高县| 盐边县| 五华县| 赤壁市| 谷城县| 宜春市| 浠水县| 呼玛县| 航空| 华池县| 筠连县| 静安区| 江津市| 江阴市| 华容县| 政和县| 紫云|