日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何解決樣本不均的問題?

深度學(xué)習(xí)自然語言處理 ? 來源:煉丹筆記 ? 作者:時(shí)晴 ? 2021-05-26 09:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

樣本不均的問題大家已經(jīng)很常見了,我們總是能看到某一個(gè)類目的數(shù)量遠(yuǎn)高于其他類目,舉個(gè)例子,曝光轉(zhuǎn)化數(shù)遠(yuǎn)低于曝光未轉(zhuǎn)化數(shù)。樣本不均嚴(yán)重影響了模型的效果,甚至影響到我們對模型好壞的判斷,因?yàn)槟P蛯φ急缺容^高的類目準(zhǔn)確率非常高,對占比很低的類目預(yù)估的偏差特別大,但是由于占比較高的類目對loss/metric影響較大,我們會認(rèn)為得到了一個(gè)較優(yōu)的模型。比如像是異常檢測問題,我們直接返回沒有異常,也能得到一個(gè)很高的準(zhǔn)確率。

重采樣

這個(gè)是目前使用頻率最高的方式,可以對“多數(shù)”樣本降采樣,也可以對“少數(shù)”樣本過采樣,如下圖所示:

cf82abcc-bd58-11eb-9e57-12bb97331649.png

重采樣的缺點(diǎn)也比較明顯,過采樣對少數(shù)樣本“過度捕撈”,降采樣會丟失大量信息。

重采樣的方案也有很多,最簡單的就是隨機(jī)過采樣/降采樣,使得各個(gè)類別的數(shù)量大致相同。還有一些復(fù)雜的采樣方式,比如先對樣本聚類,在需要降采樣的樣本上,按類別進(jìn)行降采樣,這樣能丟失較少的信息。過采樣的話,可以不用簡單的copy,可以加一點(diǎn)點(diǎn)“噪聲”,生成更多的樣本。

Tomek links

Tomek連接指的是在空間上“最近”的樣本,但是是不同類別的樣本。刪除這些pair中,占大多數(shù)類別的樣本。通過這種降采樣方式,有利于分類模型的學(xué)習(xí),如下圖所示:

cf95388c-bd58-11eb-9e57-12bb97331649.png

SMOTE

這個(gè)方法可以給少數(shù)樣本做擴(kuò)充,SMOTE在樣本空間中少數(shù)樣本隨機(jī)挑選一個(gè)樣本,計(jì)算k個(gè)鄰近的樣本,在這些樣本之間插入一些樣本做擴(kuò)充,反復(fù)這個(gè)過程,知道樣本均衡,如下圖所示:

cfa3f39a-bd58-11eb-9e57-12bb97331649.png

NearMiss

這是個(gè)降采樣的方法,通過距離計(jì)算,刪除掉一些無用的點(diǎn)。

NearMiss-1:在多數(shù)類樣本中選擇與最近的3個(gè)少數(shù)類樣本的平均距離最小的樣本。

NearMiss-2:在多數(shù)類樣本中選擇與最遠(yuǎn)的3個(gè)少數(shù)類樣本的平均距離最小的樣本。

NearMiss-3:對于每個(gè)少數(shù)類樣本,選擇離它最近的給定數(shù)量的多數(shù)類樣本。

NearMiss-1考慮的是與最近的3個(gè)少數(shù)類樣本的平均距離,是局部的;NearMiss-2考慮的是與最遠(yuǎn)的3個(gè)少數(shù)類樣本的平均距離,是全局的。NearMiss-1方法得到的多數(shù)類樣本分布也是“不均衡”的,它傾向于在比較集中的少數(shù)類附近找到更多的多數(shù)類樣本,而在孤立的(或者說是離群的)少數(shù)類附近找到更少的多數(shù)類樣本,原因是NearMiss-1方法考慮的局部性質(zhì)和平均距離。NearMiss-3方法則會使得每一個(gè)少數(shù)類樣本附近都有足夠多的多數(shù)類樣本,顯然這會使得模型的精確度高、召回率低。

評估指標(biāo)

為了避免對模型的誤判,避免使用Accuracy,可以用confusion matrix,precision,recall,f1-score,AUC,ROC等指標(biāo)。

懲罰項(xiàng)

對少數(shù)樣本預(yù)測錯(cuò)誤增大懲罰,是一個(gè)比較直接的方式。

使用多種算法

模型融合不止能提升效果,也能解決樣本不均的問題,經(jīng)驗(yàn)上,樹模型對樣本不均的解決幫助很大,特別是隨機(jī)森林,Random Forest,XGB,LGB等。因?yàn)闃淠P妥饔梅绞筋愃朴趇f/else,所以迫使模型對少數(shù)樣本也非常重視。

正確的使用K-fold

當(dāng)我們對樣本過采樣時(shí),對過采樣的樣本使用k-fold,那么模型會過擬合我們過采樣的樣本,所以交叉驗(yàn)證要在過采樣前做。在過采樣過程中,應(yīng)當(dāng)增加些隨機(jī)性,避免過擬合。

使用多種重采樣的訓(xùn)練集

這種方法可以使用更多的數(shù)據(jù)獲得一個(gè)泛化性較強(qiáng)的模型。用所有的少數(shù)樣本,和多種采樣的多數(shù)樣本,構(gòu)建多個(gè)模型得到多個(gè)模型做融合,可以取得不錯(cuò)的效果。

重采樣使用不同rate

這個(gè)方法和上面的方法很類似,嘗試使用各種不同的采樣率,訓(xùn)練不同的模型。

沒有什么解決樣本不均最好的方法,以上內(nèi)容也沒有枚舉出所有的解決方案,最好的方案就是嘗試使用各種方案。

原文標(biāo)題:對“樣本不均衡”一頓操作

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50366

    瀏覽量

    267056
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52287
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5610

    瀏覽量

    124654

原文標(biāo)題:對"樣本不均衡"一頓操作

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    登臨科技成功獲選人工智能賽道樣本企業(yè)

    近日,中央廣播電視總臺首屆《直通未來年度盛典》在央視財(cái)經(jīng)頻道播出。盛典以“未來的產(chǎn)業(yè) 產(chǎn)業(yè)的未來”為主題,展示未來產(chǎn)業(yè)樣本,分享新興技術(shù)產(chǎn)業(yè)化模式,描繪中國經(jīng)濟(jì)發(fā)展新圖景。
    的頭像 發(fā)表于 02-26 15:59 ?886次閱讀

    電機(jī)轉(zhuǎn)子磁場不均勻的原因有哪些?

    電機(jī)轉(zhuǎn)子是電機(jī)的核心部件,其負(fù)責(zé)將電能轉(zhuǎn)化為機(jī)械能,實(shí)現(xiàn)電動機(jī)的工作。在電機(jī)轉(zhuǎn)子的運(yùn)轉(zhuǎn)過程中,磁場是其較為關(guān)鍵的因素之一。然而,由于各種因素的影響,轉(zhuǎn)子磁場不均勻已成為電機(jī)運(yùn)行中的高頻問題,若未及
    的頭像 發(fā)表于 12-30 08:46 ?695次閱讀

    TDK 2022樣本套件中的NTC熱敏電阻:工業(yè)溫度測量的理想之選

    TDK 2022樣本套件中的NTC熱敏電阻:工業(yè)溫度測量的理想之選 作為電子工程師,在工業(yè)應(yīng)用的溫度測量設(shè)計(jì)中,選擇合適的NTC熱敏電阻至關(guān)重要。TDK推出的2022樣本套件中的NTC熱敏電阻,為
    的頭像 發(fā)表于 12-26 14:40 ?460次閱讀

    TDK PTC熱敏電阻:低壓應(yīng)用加熱元件樣本套件解析

    TDK PTC熱敏電阻:低壓應(yīng)用加熱元件樣本套件解析 在電子設(shè)備的設(shè)計(jì)中,加熱元件的選擇至關(guān)重要,尤其是在低壓應(yīng)用場景下。今天我們來詳細(xì)了解一下TDK的PTC熱敏電阻加熱元件樣本套件,它為低壓
    的頭像 發(fā)表于 12-25 16:55 ?1214次閱讀

    無線傾角傳感器在貨架監(jiān)測中應(yīng)對長期載荷不均導(dǎo)致的隱性形變

    直川科技無線傾角傳感器以高精度傳感、長期數(shù)據(jù)追蹤與智能預(yù)警算法,將載荷不均導(dǎo)致的隱性形變轉(zhuǎn)化為可量化的風(fēng)險(xiǎn)指標(biāo)。其價(jià)值在于通過持續(xù)監(jiān)測替代被動響應(yīng),幫助企業(yè)從源頭上規(guī)避因緩慢形變引發(fā)的結(jié)構(gòu)性風(fēng)險(xiǎn),為倉儲安全提供前瞻性保障。
    的頭像 發(fā)表于 12-09 09:19 ?773次閱讀
    無線傾角傳感器在貨架監(jiān)測中應(yīng)對長期載荷<b class='flag-5'>不均</b>導(dǎo)致的隱性形變

    經(jīng)世智能復(fù)合機(jī)器人,助力實(shí)驗(yàn)室檢測樣本上下料,提升實(shí)驗(yàn)效率

    在生命科學(xué)、醫(yī)藥研發(fā)、環(huán)境監(jiān)測等前沿領(lǐng)域的實(shí)驗(yàn)室中,樣本檢測的準(zhǔn)確性與時(shí)效性直接關(guān)系到實(shí)驗(yàn)成果的產(chǎn)出效率。然而,傳統(tǒng)人工進(jìn)行檢測樣本上下料時(shí),常面臨“樣本種類繁雜易混淆、微量樣本操作誤
    的頭像 發(fā)表于 11-18 13:43 ?2032次閱讀
    經(jīng)世智能復(fù)合機(jī)器人,助力實(shí)驗(yàn)室檢測<b class='flag-5'>樣本</b>上下料,提升實(shí)驗(yàn)效率

    多顆MOS并聯(lián)時(shí)熱分布不均,導(dǎo)致個(gè)別器件過熱失效的原因與對策

    在現(xiàn)場常遇到這樣的問題:雖然設(shè)計(jì)理論上電流均分,但實(shí)測發(fā)現(xiàn)某顆MOS溫度明顯偏高,最終提前熱失效。這種“熱分布不均”的現(xiàn)象是并聯(lián)設(shè)計(jì)中最常見、也最容易被忽視的隱患
    的頭像 發(fā)表于 10-22 10:17 ?696次閱讀
    多顆MOS并聯(lián)時(shí)熱分布<b class='flag-5'>不均</b>,導(dǎo)致個(gè)別器件過熱失效的原因與對策

    何解決陶瓷管殼制造中的工藝缺陷

    陶瓷管殼制造工藝中的缺陷主要源于材料特性和工藝控制的復(fù)雜性。在原材料階段,氧化鋁或氮化鋁粉體的粒徑分布不均會導(dǎo)致燒結(jié)體密度差異,形成顯微裂紋或孔隙;而金屬化層與陶瓷基體的熱膨脹系數(shù)失配,則會在高溫循環(huán)中引發(fā)界面剝離。
    的頭像 發(fā)表于 10-13 15:29 ?1282次閱讀
    如<b class='flag-5'>何解</b>決陶瓷管殼制造中的工藝缺陷

    【新啟航】碳化硅襯底 TTV 厚度不均勻性測量的特殊采樣策略

    摘要 本文聚焦碳化硅襯底 TTV 厚度不均勻性測量需求,分析常規(guī)采樣策略的局限性,從不均勻性特征分析、采樣點(diǎn)布局優(yōu)化、采樣頻率確定等方面提出特殊采樣策略,旨在提升測量效率與準(zhǔn)確性,為碳化硅襯底
    的頭像 發(fā)表于 08-28 14:03 ?824次閱讀
    【新啟航】碳化硅襯底 TTV 厚度<b class='flag-5'>不均</b>勻性測量的特殊采樣策略

    碳化硅襯底 TTV 厚度不均勻性測量的特殊采樣策略

    摘要 本文聚焦碳化硅襯底 TTV 厚度不均勻性測量需求,分析常規(guī)采樣策略的局限性,從不均勻性特征分析、采樣點(diǎn)布局優(yōu)化、采樣頻率確定等方面提出特殊采樣策略,旨在提升測量效率與準(zhǔn)確性,為碳化硅襯底
    的頭像 發(fā)表于 08-27 14:28 ?1288次閱讀
    碳化硅襯底 TTV 厚度<b class='flag-5'>不均</b>勻性測量的特殊采樣策略

    智慧實(shí)驗(yàn)室行業(yè)|復(fù)合機(jī)器人樣本轉(zhuǎn)運(yùn)及上下料解決方案

    經(jīng)世智能復(fù)合機(jī)器人在智慧實(shí)驗(yàn)室行業(yè)主要應(yīng)用于實(shí)驗(yàn)樣本自動化轉(zhuǎn)運(yùn)、高通量實(shí)驗(yàn)流程銜接、危險(xiǎn)物料與廢棄物處理等環(huán)節(jié),通過“AGV移動底盤+協(xié)作機(jī)械臂+視覺系統(tǒng)”一體化控制方案實(shí)現(xiàn)高效自動化作業(yè)。機(jī)器人
    的頭像 發(fā)表于 08-14 09:40 ?1444次閱讀
    智慧實(shí)驗(yàn)室行業(yè)|復(fù)合機(jī)器人<b class='flag-5'>樣本</b>轉(zhuǎn)運(yùn)及上下料解決方案

    太陽光模擬器丨輻照不均勻度的定義和標(biāo)準(zhǔn)

    在材料光電性能表征、新能源器件研發(fā)及空間環(huán)境模擬等前沿領(lǐng)域,太陽光模擬器已成為模擬真實(shí)光照環(huán)境的核心工具。輻照不均勻度作為衡量太陽光模擬器性能的關(guān)鍵指標(biāo),直接影響測試結(jié)果的準(zhǔn)確性與可靠性。本文將結(jié)合
    的頭像 發(fā)表于 07-24 10:23 ?972次閱讀
    太陽光模擬器丨輻照<b class='flag-5'>不均</b>勻度的定義和標(biāo)準(zhǔn)

    三防漆涂覆不均勻怎么解決

    三防漆涂覆不均勻是常見問題,主要表現(xiàn)為局部堆積、邊緣漏涂、元器件周圍厚薄不一,直接影響防護(hù)效果。這種問題并非單純因操作不當(dāng),而是漆料、設(shè)備、基材等多環(huán)節(jié)協(xié)同作用的結(jié)果,針對性解決才能讓涂層均勻致密
    的頭像 發(fā)表于 07-18 17:04 ?992次閱讀
    三防漆涂覆<b class='flag-5'>不均</b>勻怎么解決

    嵌入式AI技術(shù)漫談:怎么為訓(xùn)練AI模型采集樣本數(shù)據(jù)

    Q 需要為嵌入式AI模型提供多少樣本數(shù)據(jù)? 我在向客戶介紹如何使用AI方法設(shè)計(jì)一款客戶產(chǎn)品時(shí),客戶理解,AI嵌入式項(xiàng)目的開發(fā)都是圍繞數(shù)據(jù)展開的,如此,我經(jīng)常會被問到這樣的問題:客戶的工程師需要采集
    的頭像 發(fā)表于 06-11 16:30 ?1576次閱讀

    設(shè)備需求極致緊湊的空間體驗(yàn),我們該如何解決?

    在自動化集成過程,往往會碰到設(shè)備對控制系統(tǒng)體積有極致要求的情況,面對這樣的挑戰(zhàn),如何解決?項(xiàng)目背景與需求分析在自動化集成過程,往往會碰到設(shè)備對控制系統(tǒng)體積有極致要求的情況,面對這樣的挑戰(zhàn),如何解
    的頭像 發(fā)表于 05-19 11:43 ?553次閱讀
    設(shè)備需求極致緊湊的空間體驗(yàn),我們該如<b class='flag-5'>何解</b>決?
    清远市| 永登县| 林甸县| 施秉县| 泰兴市| 若尔盖县| 长兴县| 舒兰市| 社会| 和政县| 宜丰县| 鸡泽县| 玉环县| 梁平县| 志丹县| 南昌市| 江川县| 突泉县| 界首市| 含山县| 罗源县| 桐柏县| 晋城| 乌拉特后旗| 永年县| 阿图什市| 吴忠市| 佛冈县| 宜宾县| 沅江市| 石嘴山市| 宁海县| 营山县| 宣城市| 资阳市| 罗甸县| 开平市| 许昌县| 科技| 湟中县| 澳门|