日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:微軟研究院AI頭條 ? 作者:微軟研究院AI頭條 ? 2020-11-24 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:深度學(xué)習(xí)的發(fā)展推動(dòng)了很多大型神經(jīng)網(wǎng)絡(luò)模型的誕生,這些模型在多個(gè)領(lǐng)域中都取得了當(dāng)前最優(yōu)的性能,基于Transformer的預(yù)訓(xùn)練模型也在自然語(yǔ)言理解(NLU)和自然語(yǔ)言生成(NLG)領(lǐng)域中成為主流。然而,這些模型所包含的參數(shù)量巨大,計(jì)算成本高昂,極大地阻礙了此類(lèi)模型在生產(chǎn)環(huán)境中的應(yīng)用。為了解決該問(wèn)題,來(lái)自微軟亞洲研究院自然語(yǔ)言計(jì)算組的研究員們提出了一種模型壓縮的新思路。

隨著深度學(xué)習(xí)的流行,很多大型神經(jīng)網(wǎng)絡(luò)模型誕生,并在多個(gè)領(lǐng)域中取得當(dāng)前最優(yōu)的性能。尤其是在自然語(yǔ)言處理(NLP)領(lǐng)域中,預(yù)訓(xùn)練和調(diào)參已經(jīng)成為其中大多數(shù)任務(wù)的新范式。基于 Transformer 的預(yù)訓(xùn)練模型在自然語(yǔ)言理解(NLU)和自然語(yǔ)言生成(NLG)領(lǐng)域中成為主流。盡管這些模型從“過(guò)參數(shù)化”的特性中獲益,但它們往往包含數(shù)百萬(wàn)甚至數(shù)十億個(gè)參數(shù),這就使得此類(lèi)模型的計(jì)算成本高昂,且從內(nèi)存消耗和高延遲的角度來(lái)看計(jì)算低效。這一缺陷極大地阻礙了此類(lèi)模型在生產(chǎn)環(huán)境中的應(yīng)用。

為了解決該問(wèn)題,研究人員提出了很多神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)。一般而言,這些技術(shù)可以分為三類(lèi):量化、權(quán)重剪枝和知識(shí)蒸餾(Knowledge Distillation)。其中,由于知識(shí)蒸餾能夠壓縮預(yù)訓(xùn)練語(yǔ)言模型,所以得到了極大關(guān)注。知識(shí)蒸餾利用大型教師模型“教”緊湊的學(xué)生模型模仿教師的行為,從而將教師模型中嵌入的知識(shí)遷移到較小的模型中。但是,學(xué)生模型的性能狀況取決于設(shè)計(jì)良好的蒸餾損失函數(shù),正是這個(gè)函數(shù)使得學(xué)生模型可以模仿教師的行為。近期關(guān)于知識(shí)蒸餾的研究甚至利用更復(fù)雜的模型特定蒸餾損失函數(shù),以實(shí)現(xiàn)更好的性能。

近日,來(lái)自微軟亞洲研究院自然語(yǔ)言計(jì)算組的研究員們提出了一種與顯式地利用蒸餾損失函數(shù)來(lái)最小化教師模型與學(xué)生模型距離的知識(shí)蒸餾不同的模型壓縮新方法。受到著名哲學(xué)思想實(shí)驗(yàn)“忒修斯之船”的啟發(fā)(即如果船上的木頭逐漸被替換,直到所有的木頭都不是原來(lái)的木頭,那這艘船還是原來(lái)的那艘船嗎?),研究員們?cè)?EMNLP 2020 上發(fā)表了 Theseus Compression for BERT (BERT-of-Theseus),該方法逐步將 BERT 的原始模塊替換成參數(shù)更少的替代模塊(點(diǎn)擊文末閱讀原文,了解論文詳情)。研究員們將原始模型叫做“前輩”(predecessor),將壓縮后的模型叫做“接替者”(successor),分別對(duì)應(yīng)知識(shí)蒸餾中的教師和學(xué)生。

該方法的工作流程如下圖所示。首先為每個(gè)前輩模塊指定一個(gè)接替者模塊,然后在訓(xùn)練階段中以一定的概率(如拋硬幣)決定是否用替代模塊隨機(jī)替換對(duì)應(yīng)的前輩模塊,并按照新舊模塊組合的方式繼續(xù)訓(xùn)練。在模型收斂后,將所有接替者模塊組合成接替者模型,進(jìn)而執(zhí)行推斷。這樣就可以將大型前輩模型壓縮成緊湊的接替者模型了。

舉例來(lái)說(shuō),假設(shè)現(xiàn)在有兩支籃球隊(duì)每支各五人,一支是經(jīng)驗(yàn)老道的全明星球隊(duì),另一支則是年輕球員組成的青訓(xùn)隊(duì)。為了提高青訓(xùn)隊(duì)的水平,所以隨機(jī)選派青訓(xùn)隊(duì)員去替換掉全明星隊(duì)中的球員,然后讓這個(gè)混合的球隊(duì)不斷地練習(xí)、比賽。通過(guò)向前輩學(xué)習(xí)經(jīng)驗(yàn),新加入成員的實(shí)力會(huì)有所提升,也能學(xué)會(huì)和其他隊(duì)員的配合,逐漸的這個(gè)混合球隊(duì)就擁有了接近全明星球隊(duì)的實(shí)力。之后重復(fù)這個(gè)過(guò)程,直到青訓(xùn)隊(duì)員都被充分訓(xùn)練,最終青訓(xùn)隊(duì)員也能自己組成一支實(shí)力突出的球隊(duì)。相比之下,如果沒(méi)有“老司機(jī)”來(lái)帶一帶,青訓(xùn)隊(duì)無(wú)論如何訓(xùn)練,水平也不會(huì)達(dá)到全明星隊(duì)的實(shí)力。

事實(shí)上,Theseus 壓縮與知識(shí)蒸餾的思路有些類(lèi)似,都是鼓勵(lì)壓縮模型模仿原始模型的行為,但 Theseus 壓縮有很多獨(dú)特的優(yōu)勢(shì)。

首先,Theseus 壓縮在壓縮過(guò)程中僅使用任務(wù)特定的損失函數(shù)。而基于知識(shí)蒸餾的方法除了使用任務(wù)特定的損失函數(shù)外,還需加入繁瑣的蒸餾損失函數(shù)作為優(yōu)化目標(biāo)。

其次,與近期研究 TinyBERT 等不同,Theseus 壓縮不使用Transformer 特定特征進(jìn)行壓縮,這就為壓縮廣泛模型提供了可能性。與知識(shí)蒸餾僅使用原始模型執(zhí)行推斷不同,該方法允許前輩模型與壓縮后的接替者模型共同訓(xùn)練,從而實(shí)現(xiàn)更深層次的梯度級(jí)交互,并簡(jiǎn)化訓(xùn)練過(guò)程。

此外,混合了前輩模塊和接替者模塊的不同模塊組合還添加了額外的正則化項(xiàng)(類(lèi)似于 Dropout)。該方法基于課程學(xué)習(xí)(Curriculum Learning)方法來(lái)驅(qū)動(dòng)模塊替換,將模塊替換概率從低到高逐漸增加,從而實(shí)現(xiàn)優(yōu)異的 BERT 壓縮性能。利用Theseus 壓縮方法壓縮得到的 BERT 模型運(yùn)算速度是之前的1.94 倍,并且保留了原始模型超過(guò)98% 的性能,優(yōu)于其它基于知識(shí)蒸餾的壓縮的基線方法。

通過(guò)在預(yù)訓(xùn)練語(yǔ)言模型 BERT 上的成功實(shí)驗(yàn),微軟亞洲研究院的研究員們希望可以為模型壓縮打開(kāi)一種全新的思路,并希望看到這一方法在計(jì)算機(jī)視覺(jué)等領(lǐng)域的更廣泛應(yīng)用。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6754

    瀏覽量

    108098
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108203
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4422

    瀏覽量

    67869

原文標(biāo)題:【EMNLP2020】忒修斯之船啟發(fā)下的知識(shí)蒸餾新思路 - 微軟研究院

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    上海高等研究院在阿秒X射線研究方面取得重要進(jìn)展

    時(shí)間分辨率。近年來(lái),自由電子激光技術(shù)持續(xù)發(fā)展,將X射線脈沖長(zhǎng)度從飛秒量級(jí)推進(jìn)至阿秒量級(jí),拓展了超快X射線科學(xué)研究能力。 近日,中國(guó)科學(xué)院上海高等研究院聯(lián)合德國(guó)電子同步加速器研究所,在阿秒X射線
    的頭像 發(fā)表于 03-27 08:06 ?128次閱讀
    上海高等<b class='flag-5'>研究院</b>在阿秒X射線<b class='flag-5'>研究</b>方面取得重要進(jìn)展

    MediaTek攜手微軟研究院聯(lián)合開(kāi)發(fā)有源光纜技術(shù)

    MediaTek、微軟研究院以及其他供應(yīng)商所組成的研發(fā)團(tuán)隊(duì),成功設(shè)計(jì)出新代由微型化 MicroLED 光源驅(qū)動(dòng)的有源光纜(AOC)。這革命性的有源 MicroLED 光纜設(shè)計(jì),相較
    的頭像 發(fā)表于 03-19 14:20 ?297次閱讀

    一種可跨不同領(lǐng)域的異常檢測(cè)通用模型UniOD介紹

    研究提出了一種可跨不同領(lǐng)域、適用于特征維度各異且特征空間異構(gòu)的數(shù)據(jù)集的異常檢測(cè)通用模型。
    的頭像 發(fā)表于 03-18 09:09 ?578次閱讀
    <b class='flag-5'>一種</b>可跨不同領(lǐng)域的異常檢測(cè)通用<b class='flag-5'>模型</b>UniOD介紹

    誠(chéng)邁科技攜手應(yīng)急管理大學(xué)、中鐵十九局共建智慧應(yīng)急科技創(chuàng)新研究院

    1月25日,由誠(chéng)邁科技、應(yīng)急管理大學(xué)、中鐵十九局共同組建的智慧應(yīng)急科技創(chuàng)新研究院(以下簡(jiǎn)稱(chēng)“研究院”)在應(yīng)急管理大學(xué)南校區(qū)正式啟動(dòng)。應(yīng)急管理大學(xué)黨委書(shū)記趙峰華,中鐵十九局黨委常委、副總經(jīng)理趙琦,誠(chéng)邁
    的頭像 發(fā)表于 01-27 11:51 ?738次閱讀
    誠(chéng)邁科技攜手應(yīng)急管理大學(xué)、中鐵十九局共建智慧應(yīng)急科技創(chuàng)新<b class='flag-5'>研究院</b>

    纖納光電獲得2025年度浙江省企業(yè)研究院認(rèn)定

    近日,浙江省經(jīng)濟(jì)和信息化廳發(fā)布2025年度擬認(rèn)定省企業(yè)研究院名單。經(jīng)企業(yè)申報(bào)、縣級(jí)審查、市級(jí)推薦、專(zhuān)家評(píng)審等程序,纖納光電建設(shè)的“浙江省纖納新能源鈣鈦礦技術(shù)企業(yè)研究院”成功入選。
    的頭像 發(fā)表于 12-16 17:31 ?1470次閱讀

    廣電計(jì)量與長(zhǎng)沙三大研究院達(dá)成戰(zhàn)略合作

    11月26-27日,廣電計(jì)量與長(zhǎng)沙北斗產(chǎn)業(yè)安全技術(shù)研究院集團(tuán)股份有限公司(簡(jiǎn)稱(chēng)“長(zhǎng)沙北斗研究院”)、長(zhǎng)沙量子測(cè)量產(chǎn)業(yè)技術(shù)研究院有限公司(簡(jiǎn)稱(chēng)“長(zhǎng)沙量子研究院”)、湖南大學(xué)長(zhǎng)沙半導(dǎo)體技術(shù)
    的頭像 發(fā)表于 12-04 14:36 ?685次閱讀

    AI資訊:前DeepSeek研究員羅福莉已加入小米 英偉達(dá)夜蒸發(fā)超萬(wàn)億元

    給大家?guī)?lái)些最新的AI業(yè)界新聞: 前DeepSeek研究員羅福莉已加入小米 此前直傳言稱(chēng)雷軍以千萬(wàn)年薪招攬DeepSeek開(kāi)源大模型DeepSeek-V2的關(guān)鍵開(kāi)發(fā)者之
    的頭像 發(fā)表于 11-12 17:02 ?1359次閱讀

    大化所提出高效等離子體啁啾壓縮方法 實(shí)現(xiàn)阿秒軟X射線激光輸出

    近日,我所化學(xué)反應(yīng)動(dòng)力學(xué)全國(guó)重點(diǎn)實(shí)驗(yàn)室大連光源科學(xué)研究室楊學(xué)明院士、張未卿研究員團(tuán)隊(duì)與深圳先進(jìn)光源研究院科研團(tuán)隊(duì)合作,在超快軟X射線自由電子激光(FEL)領(lǐng)域取得新進(jìn)展。研發(fā)團(tuán)隊(duì)提出
    的頭像 發(fā)表于 10-27 07:36 ?315次閱讀
    大化所<b class='flag-5'>提出</b>高效等離子體啁啾<b class='flag-5'>壓縮</b>方法 實(shí)現(xiàn)阿秒軟X射線激光輸出

    廣電計(jì)量攜手南山研究院打造大健康產(chǎn)業(yè)新生態(tài)

    10月19日, “南山研究院南海四周年系列活動(dòng)”在廣東省南山醫(yī)藥創(chuàng)新研究院(簡(jiǎn)稱(chēng)“南山研究院”)成功舉辦。期間,南山研究院與廣電計(jì)量等多家單位聯(lián)合共建的華南醫(yī)學(xué)健康功效循證評(píng)價(jià)中心正式
    的頭像 發(fā)表于 10-23 17:42 ?1320次閱讀

    西門(mén)子EDA與北京開(kāi)源芯片研究院達(dá)成戰(zhàn)略合作

    近日,西門(mén)子EDA與北京開(kāi)源芯片研究院宣布達(dá)成戰(zhàn)略合作:西門(mén)子EDA的Tessent Embedded Analytics解決方案現(xiàn)已全面支持以“昆明湖”為代表的香山RISC-V Core,該解決方案將為選擇香山開(kāi)源處理器的用戶(hù)提供一種實(shí)時(shí)監(jiān)控CPU程序執(zhí)行的機(jī)制。
    的頭像 發(fā)表于 09-05 17:19 ?5259次閱讀
    西門(mén)子EDA與北京開(kāi)源芯片<b class='flag-5'>研究院</b>達(dá)成戰(zhàn)略合作

    京東方首個(gè)材料研究院項(xiàng)目開(kāi)工

    2025年8月20日,BOE(京東方)材料研究院項(xiàng)目開(kāi)工儀式在山東省煙臺(tái)市黃渤海新區(qū)八角片區(qū)成功舉辦。
    的頭像 發(fā)表于 08-22 09:12 ?1483次閱讀

    今日看點(diǎn)丨亞馬遜上海AI研究院解散;索尼擬出售以色列芯片部門(mén)

    ? ? ? 1、 亞馬遜上海AI研究院解散! 據(jù)報(bào)道,AWS亞馬遜云科技上海AI研究院的首席應(yīng)用科學(xué)家王敏捷發(fā)朋友圈稱(chēng),他們收到通知,AWS亞馬遜云科技上海AI研究院(也是AWS最后
    發(fā)表于 07-24 09:42 ?1468次閱讀
    今日看點(diǎn)丨亞馬遜上海AI<b class='flag-5'>研究院</b>解散;索尼擬出售以色列芯片部門(mén)

    勇藝達(dá)人工智能研究院迎大咖加盟

    近日,深圳勇藝達(dá)總部隆重舉行 “數(shù)智融合 聚賢賦能 —— 勇藝達(dá)人工智能研究院高端人才聘任儀式”,正式聘請(qǐng)黃道權(quán)先生與吳天準(zhǔn)先生加盟,為研究院注入頂尖智慧力量,此舉標(biāo)志著勇藝達(dá)在人工智能領(lǐng)域的戰(zhàn)略布局邁出關(guān)鍵步,也是踐行 “人
    的頭像 發(fā)表于 07-10 18:04 ?1097次閱讀

    無(wú)刷直流電機(jī)雙閉環(huán)串級(jí)控制系統(tǒng)仿真研究

    Madlab進(jìn)行BLDC建模仿真的方法,并且也提出了很多的建模仿真方案。例如有研究人員提出采用節(jié)點(diǎn)電流法對(duì)電機(jī)控制系統(tǒng)進(jìn)行分析,通過(guò)列寫(xiě)m函數(shù),建立BLDC控制系統(tǒng)真模型,這種方法實(shí)質(zhì)
    發(fā)表于 07-07 18:36

    導(dǎo)遠(yuǎn)科技與清華大學(xué)無(wú)錫應(yīng)用技術(shù)研究院達(dá)成合作

    近日,導(dǎo)遠(yuǎn)科技與清華大學(xué)無(wú)錫應(yīng)用技術(shù)研究院(以下簡(jiǎn)稱(chēng):研究院)達(dá)成合作。導(dǎo)遠(yuǎn)科技將提供高精度定位產(chǎn)品及解決方案,以支持研究院在L4級(jí)自動(dòng)駕駛和人形機(jī)器人領(lǐng)域的技術(shù)研發(fā)及轉(zhuǎn)化落地。
    的頭像 發(fā)表于 06-12 16:34 ?1246次閱讀
    宜川县| 郑州市| 名山县| 铁岭县| 泌阳县| 阿合奇县| 长乐市| 松原市| 冀州市| 白银市| 睢宁县| 陵水| 东港市| 准格尔旗| 铜川市| 龙口市| 旬阳县| 昔阳县| 兰西县| 商水县| 吴旗县| 永安市| 鄱阳县| 南投市| 屯昌县| 沂源县| 灵台县| 旌德县| 华宁县| 晋江市| 高雄市| 威海市| 屯昌县| 阳谷县| 宾阳县| 宝丰县| 沙洋县| 雷山县| 内乡县| 万荣县| 津南区|