日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

標(biāo)記訓(xùn)練集中的數(shù)據(jù)樣本是開發(fā)機器學(xué)習(xí)應(yīng)用的最大瓶頸之一

jmiy_worldofai ? 來源:lp ? 2019-04-02 16:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

數(shù)據(jù)集就是機器學(xué)習(xí)行業(yè)的石油,強大的模型需要含有大量樣本的數(shù)據(jù)集作為基礎(chǔ)。而標(biāo)記訓(xùn)練集中的數(shù)據(jù)樣本是開發(fā)機器學(xué)習(xí)應(yīng)用的最大瓶頸之一。

最近,谷歌與斯坦福大學(xué)、布朗大學(xué)一起,研究如何快速標(biāo)記大型數(shù)據(jù)集,將整個組織的資源用作分類任務(wù)的弱監(jiān)督資源,使機器學(xué)習(xí)的開發(fā)時間和成本降低一個數(shù)量級。

谷歌在論文中表示,這種方法能讓工程師能夠在不到30分鐘的時間內(nèi)對數(shù)百萬個樣本執(zhí)行弱監(jiān)督策略。

他們使用一種Snorkel Drybell系統(tǒng),讓開源Snorkel框架適應(yīng)各種組織知識資源,生成Web規(guī)模機器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)。

Snorkel是由斯坦福大學(xué)在2017年開發(fā)的系統(tǒng),它可以在弱監(jiān)督條件下快速創(chuàng)建訓(xùn)練數(shù)據(jù)集,該項目已經(jīng)在GitHub上開源。而Snorkel Drybell的目標(biāo)是在工業(yè)規(guī)模上部署弱監(jiān)督學(xué)習(xí)。

而且用這種方法開發(fā)的分類器質(zhì)量與手工標(biāo)記樣本進(jìn)行訓(xùn)練的分類器效果相當(dāng),把弱監(jiān)督分類器的平均性能提高了52%。

什么是Snorkel

Snorkel是斯坦福大學(xué)在2016年為許多弱監(jiān)督學(xué)習(xí)開發(fā)的一個通用框架,由這種方法生成的標(biāo)簽可用于訓(xùn)練任意模型。

已經(jīng)有人將Snorkel用于處理圖像數(shù)據(jù)、自然語言監(jiān)督、處理半結(jié)構(gòu)化數(shù)據(jù)、自動生成訓(xùn)練集等具體用途。

原理

與手工標(biāo)注訓(xùn)練數(shù)據(jù)不同,Snorkel DryBell支持編寫標(biāo)記函數(shù),以編程方式標(biāo)記訓(xùn)練數(shù)據(jù)。

過去的方法中,標(biāo)記函數(shù)只是以編程方式標(biāo)記數(shù)據(jù)的腳本,它產(chǎn)生的標(biāo)簽是帶有噪聲的。

為了解決噪聲等問題,Supert Drybell使用生成建模技術(shù),以一種可證明一致的方式自動估計標(biāo)記函數(shù)的準(zhǔn)確性和相關(guān)性,而無需任何基本事實作為訓(xùn)練標(biāo)簽。然后用這種方法對每個數(shù)據(jù)點的輸出進(jìn)行重新加權(quán),并組合成一個概率標(biāo)簽。

使用多種知識來源作為弱監(jiān)督

Snorkel Drybell先用多種知識來源作為弱監(jiān)督,在基于MapReduce模板的pipeline中編寫標(biāo)記函數(shù),每個標(biāo)記函數(shù)都接受一個數(shù)據(jù)點生成的概率標(biāo)簽,并選擇返回None(無標(biāo)簽)或輸出標(biāo)簽。

這一步生成的標(biāo)簽帶有大量噪聲,甚至相互沖突,還行需要進(jìn)一步的清洗才能用到最終的訓(xùn)練集中。

結(jié)合和重新利用現(xiàn)有資源對準(zhǔn)確度建模

為了處理這些噪聲標(biāo)簽,Snorkel DryBell將標(biāo)記函數(shù)的輸出組合成對每個數(shù)據(jù)點的訓(xùn)練標(biāo)簽置信度加權(quán)。這一步的難點在于,必須在沒有任何真實標(biāo)簽的情況下完成。

研究人員使用生成建模技術(shù),僅使用未標(biāo)記的數(shù)據(jù)來學(xué)習(xí)每個標(biāo)記函數(shù)的準(zhǔn)確性。通過標(biāo)簽函數(shù)輸出之間的一致性矩陣來學(xué)習(xí)打標(biāo)簽是否準(zhǔn)確。

在Snorkel DryBell中,研究人員還實現(xiàn)了建模方法一種更快、無采樣的版本,并在TensorFlow中實現(xiàn),以處理Web規(guī)模的數(shù)據(jù)。

通過在Snorkel DryBell中使用此程序組合和建模標(biāo)簽函數(shù)的輸出,能夠生成高質(zhì)量的訓(xùn)練標(biāo)簽。與兩個分別有1.2萬和8萬個手工標(biāo)記訓(xùn)練數(shù)據(jù)集比較,由Snorkel DryBell標(biāo)記的數(shù)據(jù)集訓(xùn)練出的模型實現(xiàn)了一樣的預(yù)測準(zhǔn)確度。

將不可服務(wù)的知識遷移到可服務(wù)的模型

在許多情況下,可服務(wù)特征(可用于生產(chǎn))和不可服務(wù)特征(太慢或太貴而無法用于生產(chǎn))之間也有重要區(qū)別。這些不可服務(wù)的特征可能具有非常豐富的信號,但是有個問題是如何使用它們來訓(xùn)練,或者是幫助能在生產(chǎn)中部署的可服務(wù)模型呢?

在Snorkel DryBell中,用戶發(fā)現(xiàn)可以在一個不可服務(wù)的特征集上編寫標(biāo)簽函數(shù),然后使用Snorkel DryBell輸出的訓(xùn)練標(biāo)簽來訓(xùn)練在不同的、可服務(wù)的特征集上定義的模型。

這種跨特征轉(zhuǎn)移將基準(zhǔn)數(shù)據(jù)集的性能平均提高了52%。

這種方法可以被看作是一種新型的遷移學(xué)習(xí),但不是在不同的數(shù)據(jù)集之間轉(zhuǎn)移模型,而是在不同的特征集之間轉(zhuǎn)移領(lǐng)域知識。它可以使用速度太慢、私有或其他不適合部署的資源,在廉價、實時特征上訓(xùn)練可服務(wù)的模型。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4423

    瀏覽量

    67946
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    67

    文章

    8569

    瀏覽量

    137344
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1240

    瀏覽量

    26278

原文標(biāo)題:告別數(shù)據(jù)集資源匱乏,谷歌與斯坦福大學(xué)用弱監(jiān)督學(xué)習(xí)給訓(xùn)練集打標(biāo)簽

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機器學(xué)習(xí)中的數(shù)據(jù)質(zhì)量雙保障:從“驗證”到“標(biāo)記

    至關(guān)重要的環(huán)節(jié)——數(shù)據(jù)驗證與數(shù)據(jù)標(biāo)記,前者為數(shù)據(jù)“守門”,后者為模型“立標(biāo)”,共同筑牢機器學(xué)習(xí)
    的頭像 發(fā)表于 04-24 15:48 ?145次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>中的<b class='flag-5'>數(shù)據(jù)</b>質(zhì)量雙保障:從“驗證”到“<b class='flag-5'>標(biāo)記</b>”

    Edge Impulse 喚醒詞模型訓(xùn)練 | 技術(shù)集結(jié)

    Edgi-Talk開始使用邊緣機器學(xué)習(xí)!目錄EdgeImpulse簡介創(chuàng)建賬號錄制數(shù)據(jù)數(shù)據(jù)上傳數(shù)據(jù)分割模型
    的頭像 發(fā)表于 04-20 10:05 ?1541次閱讀
    Edge Impulse 喚醒詞模型<b class='flag-5'>訓(xùn)練</b> | 技術(shù)集結(jié)

    數(shù)據(jù)傳輸拖慢訓(xùn)練?三維體調(diào)度讓AI任務(wù)提速40%

    作為AI開發(fā)者,你是否無數(shù)次陷入這樣的困境:訓(xùn)練千億參數(shù)大模型,數(shù)據(jù)傳輸占了總耗時的60%,GPU空轉(zhuǎn)等待如同“帶薪摸魚”;跨地域調(diào)用算力,公網(wǎng)帶寬瓶頸讓TB級
    的頭像 發(fā)表于 01-26 14:20 ?277次閱讀

    機器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性

    ,并驗證輸出結(jié)果,就能不斷提升專業(yè)技能,養(yǎng)成優(yōu)秀數(shù)據(jù)科學(xué)家的工作習(xí)慣。需避免的機器學(xué)習(xí)和深度學(xué)習(xí)數(shù)據(jù)錯誤在
    的頭像 發(fā)表于 01-07 15:37 ?381次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個常見錯誤與局限性

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課(11大系列課程,共5000+分鐘)

    強化 無監(jiān)督學(xué)習(xí)應(yīng)用:無需NG樣本的缺陷檢測方案,解決工業(yè)數(shù)據(jù)標(biāo)注難題 多模態(tài)融合技術(shù):PaddleOCR+YOLOv8聯(lián)動方案,實現(xiàn)\"文字識別+缺陷定位\"體化 團購課程大綱
    發(fā)表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課程(11大系列課程,共5000+分鐘)

    強化 無監(jiān)督學(xué)習(xí)應(yīng)用:無需NG樣本的缺陷檢測方案,解決工業(yè)數(shù)據(jù)標(biāo)注難題 多模態(tài)融合技術(shù):PaddleOCR+YOLOv8聯(lián)動方案,實現(xiàn)\"文字識別+缺陷定位\"體化 團購課程大綱
    發(fā)表于 12-03 13:50

    提升PLC數(shù)據(jù)采集效率:性能瓶頸分析與實踐

    面對“越快越好”的PLC數(shù)據(jù)采集需求,如何準(zhǔn)確評估設(shè)備能力瓶頸?又該如何突破極限,實現(xiàn)采集速度的最大化?本文將系統(tǒng)探討如何科學(xué)評估PLC的數(shù)據(jù)采集能力極限,并在此基礎(chǔ)上,提供
    的頭像 發(fā)表于 11-26 11:33 ?558次閱讀
    提升PLC<b class='flag-5'>數(shù)據(jù)</b>采集效率:性能<b class='flag-5'>瓶頸</b>分析與實踐

    半導(dǎo)體缺陷檢測升級:機器學(xué)習(xí)(ML)攻克類別不平衡難題,小數(shù)據(jù)也能精準(zhǔn)判,降本又提效!

    、引言機器學(xué)習(xí)(ML)在半導(dǎo)體制造領(lǐng)域的應(yīng)用,正面臨傳統(tǒng)算法難以突破的核心瓶頸。盡管行業(yè)能產(chǎn)生海量生產(chǎn)數(shù)據(jù),但兩大關(guān)鍵問題始終未能有效解決
    的頭像 發(fā)表于 11-05 11:38 ?786次閱讀
    半導(dǎo)體缺陷檢測升級:<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>(ML)攻克類別不平衡難題,小<b class='flag-5'>數(shù)據(jù)</b>也能精準(zhǔn)判,降本又提效!

    量子機器學(xué)習(xí)入門:三種數(shù)據(jù)編碼方法對比與應(yīng)用

    在傳統(tǒng)機器學(xué)習(xí)數(shù)據(jù)編碼確實相對直觀:獨熱編碼處理類別變量,標(biāo)準(zhǔn)化調(diào)整數(shù)值范圍,然后直接輸入模型訓(xùn)練。整個過程更像是數(shù)據(jù)清洗,而非核心算法組
    的頭像 發(fā)表于 09-15 10:27 ?1011次閱讀
    量子<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>入門:三種<b class='flag-5'>數(shù)據(jù)</b>編碼方法對比與應(yīng)用

    模板驅(qū)動 無需訓(xùn)練數(shù)據(jù) SmartDP解決小樣本AI算法模型開發(fā)難題

    。但是這個平臺不適用于小樣本AI模型開發(fā),特別是些特殊行業(yè),數(shù)據(jù)本來就不多,但又有著需求,因此陷于兩難。面臨這種市場困境,慧視光電推出了
    的頭像 發(fā)表于 09-09 17:57 ?1600次閱讀
    模板驅(qū)動  無需<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>數(shù)據(jù)</b>  SmartDP解決小<b class='flag-5'>樣本</b>AI算法模型<b class='flag-5'>開發(fā)</b>難題

    超小型Neuton機器學(xué)習(xí)模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是家邊緣AI 公司,致力于讓機器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以在最先進(jìn)的邊緣設(shè)備上進(jìn)行人工智能處理。在這篇博文中,我們將介紹
    發(fā)表于 07-31 11:38

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】 + 04 + 機器學(xué)習(xí)YOLO體驗

    、 機器學(xué)習(xí)YOLO體驗 1.在線訓(xùn)練 Sipeed矽速科技擁有自研搭建的MaixHub平臺,可以快速簡單的完成yolo訓(xùn)練。 下面我將展示訓(xùn)練
    發(fā)表于 07-24 21:35

    NVIDIA Isaac Lab可用環(huán)境與強化學(xué)習(xí)腳本使用指南

    Lab 是個適用于機器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時支持模仿學(xué)習(xí)(模仿人類)和強化學(xué)習(xí)
    的頭像 發(fā)表于 07-14 15:29 ?2709次閱讀
    NVIDIA Isaac Lab可用環(huán)境與強化<b class='flag-5'>學(xué)習(xí)</b>腳本使用指南

    基于米爾瑞芯微RK3576開發(fā)板的創(chuàng)建機器學(xué)習(xí)環(huán)境方案

    數(shù)據(jù)集非???,訓(xùn)練4次后可以達(dá)到0.99: 【總結(jié)】 米爾的這款開發(fā)板,搭載3576這顆強大的芯片,搭建了深度學(xué)習(xí)的環(huán)境,進(jìn)行了基礎(chǔ)的數(shù)據(jù)
    發(fā)表于 06-27 11:33

    嵌入式AI技術(shù)漫談:怎么為訓(xùn)練AI模型采集樣本數(shù)據(jù)

    Q 需要為嵌入式AI模型提供多少樣本數(shù)據(jù)? 我在向客戶介紹如何使用AI方法設(shè)計款客戶產(chǎn)品時,客戶理解,AI嵌入式項目的開發(fā)都是圍繞數(shù)據(jù)展開的,如此,我經(jīng)常會被問到這樣的問題:客戶的工
    的頭像 發(fā)表于 06-11 16:30 ?1611次閱讀
    蒙自县| 内乡县| 景谷| 泗洪县| 铜梁县| 南京市| 延长县| 新田县| 抚州市| 临高县| 曲阜市| 建水县| 蒙城县| 沽源县| 随州市| 将乐县| 郧西县| 佛坪县| 嵊州市| 郑州市| 孝感市| 固原市| 临朐县| 五莲县| 潜江市| 武隆县| 旬阳县| 永胜县| 昔阳县| 洪洞县| 嵊州市| 阳高县| 阿克陶县| 确山县| 长寿区| 瑞昌市| 琼中| 贡嘎县| 祁阳县| 察隅县| 清徐县|