日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

如意 ? 來源:百家號 ? 作者: 讀芯術(shù) ? 2020-07-01 09:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作為工作中最關(guān)鍵的部分,數(shù)據(jù)預(yù)處理同時也是大多數(shù)數(shù)據(jù)科學(xué)家耗時最長的項目,他們大約80%的時間花在這上面。

這些任務(wù)有怎樣重要性?有哪些學(xué)習(xí)方法和技巧?本文就將重點介紹來自著名大學(xué)和研究團隊在不同培訓(xùn)數(shù)據(jù)主題上的學(xué)術(shù)論文。主題包括人類注釋者的重要性,如何在相對較短的時間內(nèi)創(chuàng)建大型數(shù)據(jù)集,如何安全處理可能包含私人信息的訓(xùn)練數(shù)據(jù)等等。

1. 人類注釋器(human annotators)是多么重要?

機器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

本文介紹了注釋器質(zhì)量如何極大地影響訓(xùn)練數(shù)據(jù),進而影響模型的準(zhǔn)確性的第一手資料。在這個情緒分類項目里,Joef Stefan研究所的研究人員用多種語言分析了sentiment-annotated tweet的大型數(shù)據(jù)集。

有趣的是,該項目的結(jié)果表明頂級分類模型的性能在統(tǒng)計學(xué)上沒有重大差異。相反,人類注釋器的質(zhì)量是決定模型準(zhǔn)確性的更大因素。

為了評估他們的注釋器,團隊使用了注釋器之間的認(rèn)同過程和自我認(rèn)同過程。研究發(fā)現(xiàn),雖然自我認(rèn)同是去除表現(xiàn)不佳的注釋器的好方法,但注釋者之間的認(rèn)同可以用來衡量任務(wù)的客觀難度。

研究論文:《多語言Twitter情緒分類:人類注釋器的角色》(MultilingualTwitter Sentiment Classification: The Role of Human Annotators)

作者/供稿人:Igor Mozetic, Miha Grcar, Jasmina Smailovic(所有作者均來自Jozef Stefan研究所)

出版/最后更新日期:2016年5月5日

2.機器學(xué)習(xí)的數(shù)據(jù)收集調(diào)查

機器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

這篇論文來自韓國先進科學(xué)技術(shù)研究所的一個研究團隊,非常適合那些希望更好地了解數(shù)據(jù)收集、管理和注釋的初學(xué)者。此外,本文還介紹和解釋了數(shù)據(jù)采集、數(shù)據(jù)擴充和數(shù)據(jù)生成的過程。

對于剛接觸機器學(xué)習(xí)的人來說,這篇文章是一個很好的資源,可以幫助你了解許多常見的技術(shù),這些技術(shù)可以用來創(chuàng)建高質(zhì)量的數(shù)據(jù)集。

研究論文:《機器學(xué)習(xí)的數(shù)據(jù)收集調(diào)查》(A Survey on Data Collection for MachineLearning)

作者/供稿人: Yuji Roh, Geon Heo, Steven Euijong Whang (所有作者均來自韓國科學(xué)技術(shù)院)

出版/最后更新日期:2019年8月12日

3.用于半監(jiān)督式學(xué)習(xí)和遷移學(xué)習(xí)的高級數(shù)據(jù)增強技術(shù)

機器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

目前數(shù)據(jù)科學(xué)家面臨的最大問題之一就是獲得訓(xùn)練數(shù)據(jù)。也可以說,深度學(xué)習(xí)所面臨最大的問題之一,是大多數(shù)模型都需要大量的標(biāo)簽數(shù)據(jù)才能以較高的精度發(fā)揮作用。

為了解決這些問題,來自谷歌和卡內(nèi)基·梅隆大學(xué)的研究人員提出了一個在大幅降低數(shù)據(jù)量的情況下訓(xùn)練模型的框架。該團隊提出使用先進的數(shù)據(jù)增強方法來有效地將噪音添加到半監(jiān)督式學(xué)習(xí)模型中使用的未標(biāo)記數(shù)據(jù)樣本中,這個框架能夠取得令人難以置信的結(jié)果。

該團隊表示,在IMDB文本分類數(shù)據(jù)集上,他們的方法只需在20個標(biāo)記樣本上進行訓(xùn)練,就能夠超越最先進的模型。此外,在CIFAR-10基準(zhǔn)上,他們的方法表現(xiàn)優(yōu)于此前所有的方法。

論文題目:《用于一致性訓(xùn)練的無監(jiān)督數(shù)據(jù)增強》(UnsupervisedData Augmentation for Consistency Training)

作者/供稿人:Qizhe Xie (1,2), Zihang Dai (1,2), Eduard Hovy (2),Minh-Thang Luong (1), Quoc V. Le (1) (1 – Google研究院,谷歌大腦團隊, 2 – 卡耐基·梅隆大學(xué))

發(fā)布日期 / 最后更新:2019年9月30日

4.利用弱監(jiān)督對大量數(shù)據(jù)進行標(biāo)注

對于許多機器學(xué)習(xí)項目來說,獲取和注釋大型數(shù)據(jù)集需要花費大量的時間。在這篇論文中,來自斯坦福大學(xué)的研究人員提出了一個通過稱為“數(shù)據(jù)編程”的過程自動創(chuàng)建數(shù)據(jù)集的系統(tǒng)。

機器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

上表是直接從論文中提取的,使用數(shù)據(jù)編程(DP)顯示了與遠程監(jiān)督的ITR方法相比的精度、召回率和F1得分。

該系統(tǒng)采用弱監(jiān)管策略來標(biāo)注數(shù)據(jù)子集。產(chǎn)生的標(biāo)簽和數(shù)據(jù)可能會有一定程度的噪音。然而,該團隊隨后通過將訓(xùn)練過程表示為生成模型,從數(shù)據(jù)中去除噪音,并提出了修改損失函數(shù)的方法,以確保它對“噪音感知”。

研究論文:《數(shù)據(jù)編程:快速創(chuàng)建大型訓(xùn)練集》(DataProgramming: Creating Large Training Sets, Quickly)

作者/供稿人:Alexander Ratner, Christopher De Sa, Sen Wu, DanielSelsam, Christopher Re(作者均來自斯坦福大學(xué))

發(fā)布/最后更新日期:2017年1月8日

5.如何使用半監(jiān)督式知識轉(zhuǎn)移來處理個人身份信息(PII)

機器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

來自谷歌和賓夕法尼亞州立大學(xué)的研究人員介紹了一種處理敏感數(shù)據(jù)的方法,例如病歷和用戶隱私信息。這種方法被稱為教師集合私有化(PATE),可以應(yīng)用于任何模型,并且能夠在MNIST和SVHN數(shù)據(jù)集上實現(xiàn)最先進的隱私/效用權(quán)衡。

然而,正如數(shù)據(jù)科學(xué)家Alejandro Aristizabal在文章中所說,PATE所設(shè)計的一個主要問題為該框架要求學(xué)生模型與教師模型共享其數(shù)據(jù)。在這個過程中,隱私得不到保障。

為此Aristizabal提出了一個額外的步驟,為學(xué)生模型的數(shù)據(jù)集加密。你可以在他的文章Making PATEBidirectionally Private中讀到這個過程,但一定要先閱讀其原始研究論文。

論文題目:《從隱私訓(xùn)練數(shù)據(jù)進行深度學(xué)習(xí)的半監(jiān)督式知識轉(zhuǎn)移》(Semi-SupervisedKnowledge Transfer for Deep Learning From Private Training Data)

作者/供稿人:Nicolas Papernot(賓夕法尼亞州立大學(xué))、Martin Abadi(谷歌大腦)、Ulfar Erlingsson(谷歌)、Ian Goodfellow(谷歌大腦)、Kunal Talwar(谷歌大腦)。

發(fā)布日期 / 最后更新:2017年3月3日

閱讀頂尖學(xué)術(shù)論文是了解學(xué)術(shù)前沿的不二法門,同時也是從他人實踐中內(nèi)化重要知識、學(xué)習(xí)優(yōu)秀研究方法的好辦法,多讀讀論文絕對會對你有幫助。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    67

    文章

    8567

    瀏覽量

    137255
  • 論文
    +關(guān)注

    關(guān)注

    1

    文章

    103

    瀏覽量

    15433
  • 數(shù)據(jù)預(yù)處理

    關(guān)注

    1

    文章

    20

    瀏覽量

    3005
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機器學(xué)習(xí)中的數(shù)據(jù)質(zhì)量雙保障:“驗證”到“標(biāo)記”

    機器學(xué)習(xí)的世界里,有句老話尤為貼切:“garbagein,garbageout”(輸入垃圾,輸出垃圾)。無論模型架構(gòu)多先進、算法多精妙,數(shù)據(jù)的質(zhì)量始終是決定模型性能的核心。本文聚焦數(shù)據(jù)處理
    的頭像 發(fā)表于 04-24 15:48 ?112次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>中的<b class='flag-5'>數(shù)據(jù)</b>質(zhì)量雙保障:<b class='flag-5'>從</b>“驗證”到“標(biāo)記”

    大唐微電子亮相ICCCS 2026國際計算機與通信系統(tǒng)學(xué)術(shù)會議

    4月17日至20日,第十一屆國際計算機與通信系統(tǒng)學(xué)術(shù)會議(ICCCS 2026)在武漢舉行。大唐微電子技術(shù)有限公司技術(shù)團隊提交在無人機通信安全領(lǐng)域的學(xué)術(shù)論文榮獲大會最佳論文獎,展現(xiàn)了大唐微電子在應(yīng)用密碼學(xué)與低空安全領(lǐng)域的技術(shù)實力
    的頭像 發(fā)表于 04-21 17:09 ?869次閱讀

    機器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法

    編碼是機器學(xué)習(xí)流程里最容易被低估的環(huán)節(jié)之一,模型沒辦法直接處理文本形式的分類數(shù)據(jù),尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都
    的頭像 發(fā)表于 02-10 15:58 ?473次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>特征工程:分類變量的數(shù)值化<b class='flag-5'>處理</b>方法

    人工智能與機器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用

    自人工智能和機器學(xué)習(xí)問世以來,多個在線領(lǐng)域的數(shù)字化格局迎來了翻天覆地的變化。這些技術(shù)誕生之初就為企業(yè)賦予了競爭優(yōu)勢,而在線行業(yè)正是受其影響最為顯著的領(lǐng)域。人工智能(AI)與機器
    的頭像 發(fā)表于 02-04 14:44 ?704次閱讀

    強化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎?

    是一種讓機器通過“試錯”學(xué)會決策的辦法。與監(jiān)督學(xué)習(xí)不同,監(jiān)督學(xué)習(xí)是有人提供示范答案,讓模型去模仿;而強化學(xué)習(xí)不會把每一步的“正確答案”都告訴你,而是把環(huán)境、動作和結(jié)果連起來,讓
    的頭像 發(fā)表于 01-31 09:34 ?852次閱讀
    強化<b class='flag-5'>學(xué)習(xí)</b>會讓自動駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    機器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時間,機器學(xué)習(xí)和深度學(xué)習(xí)中都存在一些我們需要時刻關(guān)注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切關(guān)注數(shù)據(jù)
    的頭像 發(fā)表于 01-07 15:37 ?365次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個常見錯誤與局限性

    數(shù)據(jù)預(yù)處理軟核加速模塊設(shè)計

    拼接操作,其預(yù)處理模塊結(jié)構(gòu)框圖如下圖 模塊最后得到的信號為ddr_q、ddr_clk和ddr_wrreq。ddr_q是并行128bits圖像數(shù)據(jù),ddr_clk是RAM的出口時鐘,同時引出作為下一模塊的數(shù)據(jù)時鐘,ddr_w
    發(fā)表于 10-29 08:09

    思必馳與上海交大聯(lián)合實驗室五篇論文入選NeurIPS 2025

    近日,機器學(xué)習(xí)與計算神經(jīng)科學(xué)領(lǐng)域全球頂級學(xué)術(shù)頂級會議NeurIPS 2025公布論文錄用結(jié)果,思必馳-上海交大聯(lián)合實驗室共有5篇論文被收錄。
    的頭像 發(fā)表于 10-23 15:24 ?1127次閱讀
    思必馳與上海交大聯(lián)合實驗室五篇<b class='flag-5'>論文</b>入選NeurIPS 2025

    量子機器學(xué)習(xí)入門:三種數(shù)據(jù)編碼方法對比與應(yīng)用

    在傳統(tǒng)機器學(xué)習(xí)數(shù)據(jù)編碼確實相對直觀:獨熱編碼處理類別變量,標(biāo)準(zhǔn)化調(diào)整數(shù)值范圍,然后直接輸入模型訓(xùn)練。整個過程更像是數(shù)據(jù)清洗,而非核心算法組
    的頭像 發(fā)表于 09-15 10:27 ?988次閱讀
    量子<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>入門:三種<b class='flag-5'>數(shù)據(jù)</b>編碼方法對比與應(yīng)用

    超小型Neuton機器學(xué)習(xí)模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是一家邊緣AI 公司,致力于讓機器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以在最先進的邊緣設(shè)備上進行人工智能處理。在這篇博文中
    發(fā)表于 07-31 11:38

    FPGA在機器學(xué)習(xí)中的具體應(yīng)用

    隨著機器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模
    的頭像 發(fā)表于 07-16 15:34 ?3115次閱讀

    思必馳與上海交大聯(lián)合實驗室兩篇論文入選ICML 2025

    ICML(International Conference on Machine Learning)是機器學(xué)習(xí)領(lǐng)域的頂級學(xué)術(shù)會議之一,由國際機器學(xué)習(xí)
    的頭像 發(fā)表于 06-16 09:23 ?1628次閱讀
    思必馳與上海交大聯(lián)合實驗室兩篇<b class='flag-5'>論文</b>入選ICML 2025

    邊緣計算中的機器學(xué)習(xí):基于 Linux 系統(tǒng)的實時推理模型部署與工業(yè)集成!

    你好,旅行者!歡迎來到Medium的這一角落。在本文中,我們將把一個機器學(xué)習(xí)模型(神經(jīng)網(wǎng)絡(luò))部署到邊緣設(shè)備上,利用ModbusTCP寄存器獲取的實時
    的頭像 發(fā)表于 06-11 17:22 ?1169次閱讀
    邊緣計算中的<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>:基于 Linux 系統(tǒng)的實時推理模型部署與工業(yè)集成!

    機器學(xué)習(xí)賦能的智能光子學(xué)器件系統(tǒng)研究與應(yīng)用

    騰訊會議---六月直播 1.機器學(xué)習(xí)賦能的智能光子學(xué)器件系統(tǒng)研究與應(yīng)用 2.COMSOL聲學(xué)多物理場仿真技術(shù)與應(yīng)用 3.超表面逆向設(shè)計及前沿應(yīng)用(基礎(chǔ)入門到論文復(fù)現(xiàn)) 4.智能光學(xué)計
    的頭像 發(fā)表于 06-04 17:59 ?777次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>賦能的智能光子學(xué)器件系統(tǒng)研究與應(yīng)用

    使用MATLAB進行無監(jiān)督學(xué)習(xí)

    無監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進行推斷的機器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識別數(shù)據(jù)中隱藏的模式和關(guān)系,
    的頭像 發(fā)表于 05-16 14:48 ?1633次閱讀
    使用MATLAB進行無監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>
    长宁县| 大丰市| 龙江县| 舒兰市| 安新县| 阿克苏市| 共和县| 汉中市| 新丰县| 额尔古纳市| 咸宁市| 饶阳县| 海南省| 阿尔山市| 仁布县| 平定县| 定南县| 永宁县| 凌海市| 南平市| 承德市| 霍山县| 广东省| 乐山市| 高陵县| 吐鲁番市| 北票市| 孟州市| 东源县| 巫溪县| 汉寿县| 会昌县| 连江县| 垣曲县| 都安| 双牌县| 宣武区| 灵山县| 乐东| 余姚市| 崇义县|