日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

ICLR2019公布了最佳論文,有兩篇論文獲得了最佳論文

電子工程師 ? 來源:lq ? 2019-05-08 10:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導語】ICLR 是深度學習領域的頂級會議,素有深度學習頂會 “無冕之王” 之稱。今年的 ICLR 大會將于5月6日到5月9日在美國新奧爾良市舉行,大會采用 OpenReview 的公開雙盲評審機制,共接收了 1578 篇論文:其中 oral 論文 24 篇 (約占 1.5%),poster 論文共 476 篇 (占30.2%)。在這些錄用的論文中,深度學習、強化學習和生成對抗網(wǎng)絡 GANs 是最熱門的三大研究方向。

今天, ICLR2019 公布了最佳論文,有兩篇論文獲得了最佳論文,在此對獲獎論文作者及團隊表示祝賀!一篇是《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》,在 RNN 網(wǎng)絡中集成樹結構,提出一種神經(jīng)元排序策略,由蒙特利爾大學、微軟研究院共同研究發(fā)表;另一篇是 MIT CSAIL 的研究成果《The Lottery Ticket Hypothesis: Finding Spare, Trainable Neural Networks》。下面就為大家?guī)磉@兩篇最佳論文的解讀。

論文一

論文地址:

https://openreview.net/forum?id=B1l6qiR5F7

摘要

自然語言可視為是一種小單元 (如短語) 嵌套在大單元 (如字句) 中的分層結構。當結束一個大單元時,內(nèi)部所嵌套的小單元也將隨之關閉。盡管標準的 LSTM 結構允許不同的神經(jīng)元跟蹤不同時間維度信息,但它對于層級結構建模中的各組成沒有明確的偏向。針對這個問題,本文提出神經(jīng)元排序策略來添加一個歸納偏置量 (inducive bias),當主輸入向量和遺忘門結構確保給定的神經(jīng)網(wǎng)絡更新時,后續(xù)跟隨的所有神經(jīng)元也將隨之更新。這種集成樹結構的新穎循環(huán)神經(jīng)網(wǎng)絡 ON-LSTM (ordered neurons LSTM) 在四種不同的 NLP 任務:語言建模、無監(jiān)督解析、目標句法評估和邏輯推理上都取得了良好的表現(xiàn)。

研究動機

將樹結構集成到神經(jīng)網(wǎng)絡模型用于 NLP 任務主要有如下原因:

學習抽象的逐層特征表征是深度神經(jīng)網(wǎng)絡結構的一大關鍵特征

對語言的組成影響進行建模并通過 shortcuts 連接方法為反向傳播過程提供有效的梯度信息,這有助于解決深度神經(jīng)網(wǎng)絡結構的長期依賴性問題

通過更好的歸納偏置來改善模型的泛化能力,同時能夠減少模型訓練過程對大量數(shù)據(jù)的需求

基于以上動機,該研究提出一種有序化神經(jīng)元方法 (結構示意圖如下圖1),通過歸納偏置來強化每個神經(jīng)元中的信息儲存:大的、高級的神經(jīng)元儲存長期信息,這些信息通過大量的步驟保存;小的、低級的神經(jīng)元儲存短期信息,這些信息能夠快速遺忘。此外,一種新型的激活函數(shù) cumulative softmax (cumax) 用于主動為神經(jīng)元分配長/短期所儲存的信息,有效地避免高/低級神經(jīng)元的固定劃分問題。

總的來說,本文的研究集成樹結構到 LSTM 網(wǎng)絡中,并通過歸納偏置和 cumax 函數(shù),構建一種新穎的 ON-LSTM 模型,在多項 NLP 任務中都取得了不錯的性能表現(xiàn)。

圖1 組成解析樹結構與 ON-LSTM 模型隱藏狀態(tài)的對應關系

實驗結果

在四種 NLP 任務中評估 ON-LSTM 模型的性能,具體如下。

語言建模

圖2 Penn Treebank 語言建模任務驗證機和測試集的單模型困惑度

無監(jiān)督句法組成分析

圖3 full WSJ10 和 WSJ test 數(shù)據(jù)集上的句法組成分析評估結果

目標句法評估

圖4 ON-LSTM 和 LSTM 模型在每個測試樣本的總體精度表現(xiàn)

邏輯推理

圖5 在邏輯短序列數(shù)據(jù)上訓練的模型的測試精度

論文二

論文地址:

https://openreview.net/forum?id=rJl-b3RcF7

摘要

神經(jīng)網(wǎng)絡的剪枝技術能夠在不影響模型準確性能的情況下,減少網(wǎng)絡的訓練參數(shù)量,多達90%以上,在降低計算存儲空間的同時提高模型的推理性能。然而,先前的研究經(jīng)驗表明,通過剪枝技術得到的稀疏網(wǎng)絡結構在初期是很難訓練的,這似乎也有利于訓練性能的提升。一個標準的剪枝技術能夠自然地發(fā)現(xiàn)子網(wǎng)絡結構,這些子網(wǎng)絡的初始化能夠幫助網(wǎng)絡更有效地訓練。

因此,本研究提出一種 lottery ticket hypothesis:對于那些包含子網(wǎng)絡 (winning ticket) 結構的密集、隨機初始化前饋網(wǎng)絡,當單獨訓練這些子網(wǎng)絡時,通過相似的訓練迭代次數(shù)能夠取得與原始網(wǎng)絡相當?shù)臏y試性能。而這些子網(wǎng)絡也驗證了初始的假設:即具有初始權重的連接網(wǎng)絡能夠更有效地訓練。

基于這些結果,本文提出一種算法來確定子網(wǎng)絡結構,并通過一系列的實驗來支持 lottery ticket hypothesis 以及這些偶然初始化的重要性。實驗結果表明,在 MNIST 和 CIFAR-10 數(shù)據(jù)集上,子網(wǎng)絡的規(guī)模始終比幾種全連接結構和卷積神經(jīng)網(wǎng)絡小10%-20%。當規(guī)模超過這個范圍時,子網(wǎng)絡能夠比原始網(wǎng)絡有更快的學習速度和更好的測試精度表現(xiàn)。

研究動機與方法

本文分析驗證了存在較小的子網(wǎng)絡結構,在相當?shù)臏y試精度表現(xiàn)前提下,一開始就訓練網(wǎng)絡能夠達到與較大子網(wǎng)絡一樣,甚至更快的訓練速度。而基于此,本文提出 Lottery Ticket Hypothesis:將一個復雜網(wǎng)絡的所有參數(shù)作為一個獎勵池,存在一個參數(shù)組合所構成的子網(wǎng)絡 (用 winning ticket 表示),單獨訓練該網(wǎng)絡能夠達到與原始復雜網(wǎng)絡相當?shù)臏y試精度。

對于該子網(wǎng)絡結構的確定,主要是通過訓練一個網(wǎng)絡并剪枝其中最小權重來確定子網(wǎng)絡,而其余未剪枝部分連接構成自網(wǎng)絡的結構。具體步驟如下:

首先通過隨機初始化得到一個復雜的神經(jīng)網(wǎng)絡 f

接著重復訓練該網(wǎng)絡 j 次,得到網(wǎng)絡參數(shù)

然后對該模型按 p% 進行剪枝得到一個掩碼 m;將步驟二中的網(wǎng)絡參數(shù)作為參數(shù)向量,每個向量元素對應于一個 m,用于表征是否丟棄。

最后,對于存留下來的模型,在原始復雜網(wǎng)絡參數(shù)組合進行初始化,創(chuàng)建一個子網(wǎng)絡結構。

總的來說,本研究的主要貢獻如下:

驗證了剪枝技術能夠發(fā)現(xiàn)可訓練的子網(wǎng)絡結構,而這些網(wǎng)絡能夠達到與原始網(wǎng)絡相當?shù)臏y試精度。

提出了一種 lottery ticket hypothesis,從一種新的角度來解釋這些神經(jīng)網(wǎng)絡的組成。

證明了通過剪枝技術得到的子網(wǎng)絡相比于原是網(wǎng)絡,有著更快的學習速度、更高的測試精度和更好的泛化性能。

應用

本文的研究驗證了確實存在比原始網(wǎng)絡更快速、性能更佳的子網(wǎng)絡,這種結構能夠給未來的研究提供諸多方向:

提高模型訓練性能:由于子網(wǎng)絡能夠從一開始就進行單獨訓練,因此盡早進行剪枝的訓練方案值得進一步探索。

設計更好的網(wǎng)絡結構:子網(wǎng)絡結構的存在說明稀疏架構和初始化組合有利于模型的學習。因此設計出有助于學習的新結構和初始化方案,甚至將子網(wǎng)絡結構遷移到其他任務仍需要進一步研究。

提高神經(jīng)網(wǎng)絡的理論理解高度:更加深入地理解隨機初始化網(wǎng)絡與子網(wǎng)絡的關系、網(wǎng)絡優(yōu)化與泛化性能的知識等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:ICLR 2019最佳論文揭曉!NLP深度學習、神經(jīng)網(wǎng)絡壓縮奪魁 | 技術頭條

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    地平線11論文強勢入選CVPR 2026

    論文收錄結果。地平線憑借深厚的技術積淀與前瞻的科研布局,共有11論文成功入選,覆蓋端到端自動駕駛、3D重建、世界模型、具身智能等多個核心領域,充分彰顯地平線在前沿技術領域的頂尖研發(fā)水平。
    的頭像 發(fā)表于 03-18 15:18 ?915次閱讀
    地平線11<b class='flag-5'>篇</b><b class='flag-5'>論文</b>強勢入選CVPR 2026

    西井科技攜手同濟大學 三AI研究成果入選頂會ICLR 2026

    近日,國際頂級人工智能會議?ICLR 2026(International Conference on Learning Representations,國際表征學習大會)公布論文接收結果。西井
    的頭像 發(fā)表于 02-12 17:42 ?1.1w次閱讀
    西井科技攜手同濟大學 三<b class='flag-5'>篇</b>AI研究成果入選頂會<b class='flag-5'>ICLR</b> 2026

    后摩智能4論文入選人工智能頂會ICLR 2026

    繼斬獲NeurIPS、ICCV、AAAI、ACMMM四大頂會認可后,后摩智能再傳捷報——4論文成功入選國際頂級人工智能會議ICLR 2026(International Conference
    的頭像 發(fā)表于 02-09 14:18 ?1065次閱讀

    梁文鋒署名DeepSeek新論文:突破GPU內(nèi)存限制的技術革命

    電子發(fā)燒友網(wǎng)報道 DeepSeek團隊發(fā)布由創(chuàng)始人梁文鋒署名的新論文,主題為《Conditional Memory via Scalable Lookup: A New Axis
    的頭像 發(fā)表于 01-14 11:29 ?5497次閱讀

    小鵬汽車與北京大學研究論文成功入選AAAI 2026

    近日,AAAI 2026公布論文錄用結果,該會議是人工智能領域的國際頂級會議之一。據(jù)悉,AAAI 2026共收到23,680份論文投稿,其中4,167
    的頭像 發(fā)表于 01-04 11:22 ?838次閱讀
    小鵬汽車與北京大學研究<b class='flag-5'>論文</b>成功入選AAAI 2026

    MediaTek多論文入選全球前沿國際學術會議

    MediaTek 宣布,今年旗下多論文入選 ISSCC、NeurIPS、CVPR、ICLR、ICML、ICC、CLOBECOM 等全球半導體、人工智能及通信領域的前沿國際學術會議。此外
    的頭像 發(fā)表于 12-02 14:43 ?790次閱讀

    地平線五論文入選NeurIPS 2025與AAAI 2026

    近日,大頂級學術會議錄用結果相繼揭曉,地平線憑借在機器人算法領域的深度鉆研,共有5論文從全球數(shù)萬份投稿中脫穎而出,分別入選NeurIPS 2025與AAAI 2026。
    的頭像 發(fā)表于 11-27 11:39 ?1435次閱讀
    地平線五<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選NeurIPS 2025與AAAI 2026

    后摩智能六論文入選四大國際頂會

    2025年以來,后摩智能在多項前沿研究領域取得突破性進展,近期在NeurIPS、ICCV、AAAI、ACMMM四大國際頂會上有 6 論文入選。致力于大模型的推理優(yōu)化、微調(diào)、部署等關鍵技術難題,為大模型的性能優(yōu)化與跨場景應用提供
    的頭像 發(fā)表于 11-24 16:42 ?1506次閱讀
    后摩智能六<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選四大國際頂會

    Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026

    11月8日,全球人工智能頂會 AAAI 2026 公布論文錄用結果,Nullmax 研發(fā)團隊的端到端軌跡規(guī)劃論文成功入選。該論文創(chuàng)新提出一種由粗到精的軌跡預測框架——DiffRefin
    的頭像 發(fā)表于 11-12 10:53 ?1166次閱讀

    思必馳與上海交大聯(lián)合實驗室五論文入選NeurIPS 2025

    近日,機器學習與計算神經(jīng)科學領域全球頂級學術頂級會議NeurIPS 2025公布論文錄用結果,思必馳-上海交大聯(lián)合實驗室共有5論文被收錄。NeurIPS(Conference on
    的頭像 發(fā)表于 10-23 15:24 ?1160次閱讀
    思必馳與上海交大聯(lián)合實驗室五<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選NeurIPS 2025

    格靈深瞳六論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結果,格靈深瞳團隊共有6論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?1790次閱讀

    后摩智能與高校合作研究成果榮獲ISCA 2025最佳論文

    》,成功榮獲第52屆計算機體系結構國際研討會(ISCA)最佳論文獎。作為國內(nèi)學術機構在該會議上的首次獲獎成果,其核心創(chuàng)新聚焦于邊緣側大語言模型(LLM)推理加速架構的關鍵技術突破,為解決邊緣設備高效LLM推理難題提供創(chuàng)新性方案
    的頭像 發(fā)表于 07-05 11:21 ?2712次閱讀

    理想汽車八論文入選ICCV 2025

    近日,ICCV 2025(國際計算機視覺大會)公布論文錄用結果,理想汽車共有8論文入選,其中5來自自動駕駛團隊,3
    的頭像 發(fā)表于 07-03 13:58 ?1362次閱讀

    后摩智能四論文入選三大國際頂會

    2025 年上半年,繼年初被 AAAI、ICLR、DAC 三大國際頂會收錄 5 論文后,后摩智能近期又有 4 論文入選CVPR、ICML
    的頭像 發(fā)表于 05-29 15:37 ?1539次閱讀

    云知聲四論文入選自然語言處理頂會ACL 2025

    結果正式公布。云知聲在此次國際學術盛會中表現(xiàn)卓越,共有4論文被接收,其中包括2主會論文(Main Paper)和2
    的頭像 發(fā)表于 05-26 14:15 ?1519次閱讀
    云知聲四<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選自然語言處理頂會ACL 2025
    武义县| 长治县| 西充县| 运城市| 城步| 基隆市| 介休市| 桑植县| 明溪县| 白城市| 时尚| 西吉县| 元谋县| 化德县| 清丰县| 五寨县| 黄梅县| 东乌珠穆沁旗| 张家界市| 青海省| 包头市| 革吉县| 永善县| 巴青县| 靖江市| 广安市| 山西省| 盈江县| 阳东县| 安西县| 平南县| 大荔县| 通城县| 玛沁县| 临澧县| 阿荣旗| 县级市| 乌兰县| 万荣县| 吴江市| 静乐县|