日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

微軟新研究提出一個新的多任務深度神經(jīng)網(wǎng)絡模型——MT-DNN

DPVg_AI_era ? 來源:lp ? 2019-03-29 11:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

微軟新研究提出一個新的多任務深度神經(jīng)網(wǎng)絡模型——MT-DNN。MT-DNN結合了BERT的優(yōu)點,并在10大自然語言理解任務上超越了BERT,在多個流行的基準測試中創(chuàng)造了新的最先進的結果。

語言嵌入是將自然語言符號文本(如單詞、短語和句子)映射到語義向量表示的過程。這是自然語言理解(NLU)深度學習方法的基礎。學習對多個NLU任務通用的語言嵌入是非常必要的。

學習語言嵌入有兩種流行方法,分別是語言模型預訓練和多任務學習(MTL)。前者通過利用大量未標記的數(shù)據(jù)學習通用語言嵌入,但MTL可以有效地利用來自許多相關任務的有監(jiān)督數(shù)據(jù),并通過減輕對特定任務的過度擬合,從正則化效果中獲益,從而使學習的嵌入在任務之間具有通用性。

最近,微軟的研究人員發(fā)布了一個用于學習通用語言嵌入的多任務深度神經(jīng)網(wǎng)絡模型——MT-DNN。MT-DNN結合了MTL和BERT的語言模型預訓練方法的優(yōu)點,并在10個NLU任務上超越了BERT,在多個流行的NLU基準測試中創(chuàng)造了新的最先進的結果,包括通用語言理解評估(GLUE)、斯坦福自然語言推理(SNLI)和SciTail。

MT-DNN的架構

MT-DNN擴展了微軟在2015年提出的多任務DNN模型(Multi-Task DNN),引入了谷歌AI開發(fā)的預訓練雙向transformer語言模型BERT。

MT-DNN架構

MT-DNN模型的架構如上圖所示。低層在所有任務之間共享,而頂層是特定于任務的。輸入X可以是一個句子或一對句子,其中的每個單詞都先被表示為一個嵌入向量序列,表示為l_1。

然后,基于transformer的編碼器捕獲每個單詞的上下文信息,并在l_2中生成共享的上下文嵌入向量。

最后,對于每個任務,額外的 task-speci?c 的層生成特定于任務的表示,然后是分類、相似度評分或相關性排序所需的操作。MT-DNN使用BERT來初始化它的共享層,然后通過MTL改進它們。

領域自適應結果

評估語言嵌入的通用性的一種方法是測量嵌入適應新任務的速度,或者需要多少特定于任務的標簽才能在新任務上獲得不錯的結果。越通用的嵌入,它需要的特定于任務的標簽就越少。

MT-DNN論文的作者將MT-DNN與BERT在領域自適應(domain adaption)方面的表現(xiàn)進行了比較。

在域適應方面,兩種模型都通過逐步增加域內(nèi)數(shù)據(jù)(in-domain data)的大小來適應新的任務。

SNLI和SciTail任務的結果如下表和圖所示??梢钥吹?,在只有0.1%的域內(nèi)數(shù)據(jù)(SNLI中為549個樣本,SciTail中為23個樣本)的條件下,MT-DNN的準確率超過80%,而BERT的準確率在50%左右,這說明MT-DNN學習的語言嵌入比BERT的更加通用。

與BERT相比,MT-DNN在SNLI和SciTail數(shù)據(jù)集上的精度更高。

在GLUE、SNLI和SciTail 3個benchmarks上的結果

在GLUE測試集的結果,MT-DNN在10個任務上的結果均超越了BERT

模型開源

微軟已經(jīng)在GitHub開源MT-DNN包,其中包含了預訓練的模型、源代碼,并描述了如何重現(xiàn)MT-DNN論文中報告的結果,以及如何通過domain adaptation使預訓練的MT-DNN模型適應任何新任務。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6760

    瀏覽量

    108135
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4845

    瀏覽量

    108298
  • 深度學習
    +關注

    關注

    73

    文章

    5613

    瀏覽量

    124712

原文標題:10大任務超越BERT,微軟提出多任務深度神經(jīng)網(wǎng)絡MT-DNN

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    面向嵌入式部署的神經(jīng)網(wǎng)絡優(yōu)化:模型壓縮深度解析

    1.為什么需要神經(jīng)網(wǎng)絡模型壓縮? 神經(jīng)網(wǎng)絡已經(jīng)成為解決復雜機器學習問題的強大工具。然而,這種能力往往伴隨著模型規(guī)模和計算復雜度的增加。當輸入維度較大(例如長時序窗口、高分辨率特征空間)
    的頭像 發(fā)表于 02-24 15:37 ?5545次閱讀
    面向嵌入式部署的<b class='flag-5'>神經(jīng)網(wǎng)絡</b>優(yōu)化:<b class='flag-5'>模型</b>壓縮<b class='flag-5'>深度</b>解析

    神經(jīng)網(wǎng)絡的初步認識

    日常生活中的智能應用都離不開深度學習,而深度學習則依賴于神經(jīng)網(wǎng)絡的實現(xiàn)。什么是神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡的核心思想是模仿生物
    的頭像 發(fā)表于 12-17 15:05 ?513次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>的初步認識

    自動駕駛中常提的卷積神經(jīng)網(wǎng)絡啥?

    在自動駕駛領域,經(jīng)常會聽到卷積神經(jīng)網(wǎng)絡技術。卷積神經(jīng)網(wǎng)絡,簡稱為CNN,是種專門用來處理網(wǎng)格狀數(shù)據(jù)(比如圖像)的深度學習模型。CNN在圖像
    的頭像 發(fā)表于 11-19 18:15 ?2303次閱讀
    自動駕駛中常提的卷積<b class='flag-5'>神經(jīng)網(wǎng)絡</b>是<b class='flag-5'>個</b>啥?

    NMSIS神經(jīng)網(wǎng)絡庫使用介紹

    NMSIS NN 軟件庫是組高效的神經(jīng)網(wǎng)絡內(nèi)核,旨在最大限度地提高 Nuclei N 處理器內(nèi)核上的神經(jīng)網(wǎng)絡的性能并最??大限度地減少其內(nèi)存占用。 該庫分為多個功能,每個功能涵蓋特定類別
    發(fā)表于 10-29 06:08

    構建CNN網(wǎng)絡模型并優(yōu)化的般化建議

    通過實踐,本文總結了構建CNN網(wǎng)絡模型并優(yōu)化的般化建議,這些建議將會在構建高準確率輕量級CNN神經(jīng)網(wǎng)絡模型方面提供幫助。 1)避免單層
    發(fā)表于 10-28 08:02

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是訓練
    發(fā)表于 10-22 07:03

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+神經(jīng)形態(tài)計算、類腦芯片

    AI芯片不僅包括深度學細AI加速器,還有另外主要列別:類腦芯片。類腦芯片是模擬人腦神經(jīng)網(wǎng)絡架構的芯片。它結合微電子技術和新型神經(jīng)形態(tài)器件
    發(fā)表于 09-17 16:43

    神經(jīng)網(wǎng)絡的并行計算與加速技術

    隨著人工智能技術的飛速發(fā)展,神經(jīng)網(wǎng)絡在眾多領域展現(xiàn)出了巨大的潛力和廣泛的應用前景。然而,神經(jīng)網(wǎng)絡模型的復雜度和規(guī)模也在不斷增加,這使得傳統(tǒng)的串行計算方式面臨著巨大的挑戰(zhàn),如計算速度慢、訓練時間長等
    的頭像 發(fā)表于 09-17 13:31 ?1355次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>的并行計算與加速技術

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學習AI芯片的創(chuàng)新方法與架構

    連接定義了神經(jīng)網(wǎng)絡的拓撲結構。 不同神經(jīng)網(wǎng)絡DNN、基于大模型的AI芯片 1、Transformer
    發(fā)表于 09-12 17:30

    基于神經(jīng)網(wǎng)絡的數(shù)字預失真模型解決方案

    在基于神經(jīng)網(wǎng)絡的數(shù)字預失真(DPD)模型中,使用不同的激活函數(shù)對整個系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3735次閱讀

    模型推理顯存和計算量估計方法研究

    (如全連接層、卷積層等)確定所需的顯存大??; (3)將各層顯存大小相加,得到模型總的顯存需求。 基于神經(jīng)網(wǎng)絡剪枝的顯存估計 神經(jīng)網(wǎng)絡剪枝是種減少
    發(fā)表于 07-03 19:43

    無刷電機小波神經(jīng)網(wǎng)絡轉子位置檢測方法的研究

    摘要:論文通過對無刷電機數(shù)學模型的推導,得出轉角:與三相相電壓之間存在映射關系,因此構建了以三相相電壓為輸人,轉角為輸出的小波神經(jīng)網(wǎng)絡來實現(xiàn)轉角預測,并采用改進遺傳算法來訓練
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡專家系統(tǒng)在電機故障診斷中的應用

    摘要:針對傳統(tǒng)專家系統(tǒng)不能進行自學習、自適應的問題,本文提出了基于種經(jīng)網(wǎng)絡專家系統(tǒng)的并步電機故障診斷方法。本文將小波神經(jīng)網(wǎng)絡和專家系統(tǒng)相結合,充分發(fā)揮了二者故障診斷的優(yōu)點,很大程度上降低了對電機
    發(fā)表于 06-16 22:09

    神經(jīng)網(wǎng)絡RAS在異步電機轉速估計中的仿真研究

    ,在定程度上擴展了轉速估計范圍。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:神經(jīng)網(wǎng)絡RAS在異步電機轉速估計中的仿真研究.pdf【免責聲明】本文系網(wǎng)絡轉載,版權歸原作者
    發(fā)表于 06-16 21:54

    基于FPGA搭建神經(jīng)網(wǎng)絡的步驟解析

    本文的目的是在神經(jīng)網(wǎng)絡已經(jīng)通過python或者MATLAB訓練好的神經(jīng)網(wǎng)絡模型,將訓練好的模型
    的頭像 發(fā)表于 06-03 15:51 ?1570次閱讀
    基于FPGA搭建<b class='flag-5'>神經(jīng)網(wǎng)絡</b>的步驟解析
    呼玛县| 陕西省| 登封市| 万源市| 永善县| 勃利县| 牙克石市| 茂名市| 绥芬河市| 徐州市| 海安县| 富阳市| 巧家县| 甘孜| 阿鲁科尔沁旗| 兴城市| 岳池县| 正阳县| 即墨市| 陵川县| 五寨县| 临猗县| 驻马店市| 手游| 泰宁县| 辰溪县| 墨竹工卡县| 密云县| 六枝特区| 万全县| 鸡泽县| 盐津县| 大庆市| 阿巴嘎旗| 沽源县| 镇雄县| 西峡县| 岳阳市| 会东县| 台中县| 高安市|