日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強(qiáng)的效果?

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-11-05 20:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgaomVHiHWAIPX3AAELXgVPVYM448.png

論文鏈接:https://arxiv.org/abs/2305.17476

代碼鏈接:

https://github.com/ML-GSAI/Understanding-GDA

wKgaomVHiHWAF1oQAAAl6LOgh3c275.png

概述

生成式數(shù)據(jù)擴(kuò)增通過條件生成模型生成新樣本來擴(kuò)展數(shù)據(jù)集,從而提高各種學(xué)習(xí)任務(wù)的分類性能。然而,很少有人從理論上研究生成數(shù)據(jù)增強(qiáng)的效果。為了填補這一空白,我們在這種非獨立同分布環(huán)境下構(gòu)建了基于穩(wěn)定性的通用泛化誤差界。基于通用的泛化界,我們進(jìn)一步了探究了高斯混合模型和生成對抗網(wǎng)絡(luò)的學(xué)習(xí)情況。

在這兩種情況下,我們證明了,雖然生成式數(shù)據(jù)增強(qiáng)并不能享受更快的學(xué)習(xí)率,但當(dāng)訓(xùn)練集較小時,它可以在一個常數(shù)的水平上提高學(xué)習(xí)保證,這在發(fā)生過擬合時是非常重要的。最后,高斯混合模型的仿真結(jié)果和生成式對抗網(wǎng)絡(luò)的實驗結(jié)果都支持我們的理論結(jié)論。

wKgaomVHiHaAWhR6AAAuhh9-KLM150.png

主要的理論結(jié)果

2.1 符號與定義

作為數(shù)據(jù)輸入空間, 作為標(biāo)簽空間。定義 上的真實分布。給定集合 ,我們定義 為去掉第 個數(shù)據(jù)后剩下的集合, 為把第 個數(shù)據(jù)換成 后的集合。我們用 表示 total variation distance。

我們讓 為所有從 的所有可測函數(shù), 為學(xué)習(xí)算法,從數(shù)據(jù)集 中學(xué)到的映射。對于一個學(xué)到的映射 和損失函數(shù),真實誤差 被定義。相應(yīng)的經(jīng)驗的誤差 被定義。

我們文章理論推導(dǎo)采用的是穩(wěn)定性框架,我們稱算法 相對于損失函數(shù) 是一致 穩(wěn)定的,如果

wKgaomVHiHaAFnd0AAAz9Dvxuko037.png

2.2 生成式數(shù)據(jù)增強(qiáng)

給定帶有 個 i.i.d. 樣本的 數(shù)據(jù)集,我們能訓(xùn)練一個條件生成模型 ,并將學(xué)到的分布定義為 ?;谟?xùn)練得到的條件生成模型,我們能生成一個新的具有 個 i.i.d. 樣本的數(shù)據(jù)集 。我們記增廣后的數(shù)據(jù)集 大小為 。我們可以在增廣后的數(shù)據(jù)集上學(xué)到映射 。為了理解生成式數(shù)據(jù)增強(qiáng),我們關(guān)心泛化誤差 。據(jù)我們所知,這是第一個理解生成式數(shù)據(jù)增強(qiáng)泛化誤差的工作。

2.3 一般情況

我們可以對于任意的生成器和一致 穩(wěn)定的分類器,推得如下的泛化誤差:wKgaomVHiHaAHCBWAAKzlDp-QcM311.png▲ general一般來說,我們比較關(guān)心泛化誤差界關(guān)于樣本數(shù) 的收斂率。將 看成超參數(shù),并將后面兩項記為 generalization error w.r.t. mixed distribution,我們可以定義如下的“最有效的增強(qiáng)數(shù)量”:

wKgaomVHiHaAWSEFAAA431R2LDc421.png

在這個設(shè)置下,并和沒有數(shù)據(jù)增強(qiáng)的情況進(jìn)行對比(),我們可以得到如下的充分條件,它刻畫了生成式數(shù)據(jù)增強(qiáng)何時(不)能夠促進(jìn)下游分類任務(wù),這和生成模型學(xué)習(xí)分的能力息息相關(guān):

wKgaomVHiHaADuBdAAGRk94Vijc927.png

▲ corollary

2.4 高斯混合模型為了驗證我們理論的正確性,我們先考慮了一個簡單的高斯混合模型的 setting。 混合高斯分布。我們考慮二分類任務(wù) 。我們假設(shè)真實分布滿足 and 。我們假設(shè) 的分布是已知的。 線性分類器。我們考慮一個被 參數(shù)化的分類器,預(yù)測函數(shù)為 。給定訓(xùn)練集, 通過最小化負(fù)對數(shù)似然損失函數(shù)得到,即最小化

wKgaomVHiHaAQ8KHAAAsqSi2TVI092.png

學(xué)習(xí)算法將會推得 ,which satisfies 條件生成模型。我們考慮參數(shù)為 的條件生成模型,其中 以及 。給定訓(xùn)練集,讓 為第 類的樣本量,條件生成模型學(xué)到

wKgaomVHiHaATVbZAAA1KPe_-gQ666.png

它們是 的無偏估計。我們可以從這個條件模型中進(jìn)行采樣,即 ,,其中 我們在高斯混合模型的場景下具體計算 Theorem 3.1 中的各個項,可以推得

wKgaomVHiHeANFfaAAKrroYCtMc232.png

▲ GMM
  1. 當(dāng)數(shù)據(jù)量 足夠時,即使我們采用“最有效的增強(qiáng)數(shù)量”,生成式數(shù)據(jù)增強(qiáng)也難以提高下游任務(wù)的分類性能。
  2. 當(dāng)數(shù)據(jù)量 較小的,此時主導(dǎo)泛化誤差的是維度等其他項,此時進(jìn)行生成式數(shù)據(jù)增強(qiáng)可以常數(shù)級降低泛化誤差,這意味著在過擬合的場景下,生成式數(shù)據(jù)增強(qiáng)是很有必要的。

2.5 生成對抗網(wǎng)絡(luò)

我們也考慮了深度學(xué)習(xí)的情況。我們假設(shè)生成模型為 MLP 生成對抗網(wǎng)絡(luò),分類器為 層 MLP 或者 CNN。損失函數(shù)為二元交叉熵,優(yōu)化算法為 SGD。我們假設(shè)損失函數(shù)平滑,并且第 層的神經(jīng)網(wǎng)絡(luò)參數(shù)可以被 控制。我們可以推得如下的結(jié)論:

wKgaomVHiHeAWBT7AAMhGLp_Mz4284.png

▲ GAN
  1. 當(dāng)數(shù)據(jù)量 足夠時,生成式數(shù)據(jù)增強(qiáng)也難以提高下游任務(wù)的分類性能,甚至?xí)夯?/span>
  2. 當(dāng)數(shù)據(jù)量 較小的,此時主導(dǎo)泛化誤差的是維度等其他項,此時進(jìn)行生成式數(shù)據(jù)增強(qiáng)可以常數(shù)級降低泛化誤差,同樣地,這意味著在過擬合的場景下,生成式數(shù)據(jù)增強(qiáng)是很有必要的。

wKgaomVHiHeAKZIiAAAtJ0fTuoM406.png

實驗

3.1 高斯混合模型模擬實驗

我們在混合高斯分布上驗證我們的理論,我們調(diào)整數(shù)據(jù)量 ,數(shù)據(jù)維度 以及 。實驗結(jié)果如下圖所示:

wKgaomVHiHeAYt00AAPmkD4BAPc854.png

simulation

  1. 觀察圖(a),我們可以發(fā)現(xiàn)當(dāng) 相對于 足夠大的時候,生成式數(shù)據(jù)增強(qiáng)的引入并不能明顯改變泛化誤差。
  2. 觀察圖(d),我們可以發(fā)現(xiàn)當(dāng) 固定時,真實的泛化誤差確實是 階的,且隨著增強(qiáng)數(shù)量 的增大,泛化誤差呈現(xiàn)常數(shù)級的降低。
  3. 另外 4 張圖,我們選取了兩種情況,驗證了我們的 bound 能在趨勢上一定程度上預(yù)測泛化誤差。
這些結(jié)果支持了我們理論的正確性。3.2 深度生成模型實驗我們使用 ResNet 作為分類器,cDCGAN、StyleGANv2-ADA 和 EDM 作為深度生成模型,在 CIFAR-10 數(shù)據(jù)集上進(jìn)行了實驗。實驗結(jié)果如下所示。由于訓(xùn)練集上訓(xùn)練誤差都接近 0,所以測試集上的錯誤率是泛化誤差的一個比較好的估計。我們利用是否做額外的數(shù)據(jù)增強(qiáng)(翻轉(zhuǎn)等)來近似 是否充足。

wKgaomVHiHeAFLvEAATLiWid_qI427.png

▲ deep

  1. 在沒有額外數(shù)據(jù)增強(qiáng)的時候, 較小,分類器陷入了嚴(yán)重的過擬合。此時,即使選取的 cDCGAN 很古早(bad GAN),生成式數(shù)據(jù)增強(qiáng)都能帶來明顯的提升。
  2. 在有額外數(shù)據(jù)增強(qiáng)的時候, 充足。此時,即使選取的 StyleGAN 很先進(jìn)(SOTA GAN),生成式數(shù)據(jù)增強(qiáng)都難以帶來明顯的提升,在 50k 和 100k 增強(qiáng)的情況下甚至都造成了一致的損害。
  3. 我們也測試了一個 SOTA 的擴(kuò)散模型 EDM,發(fā)現(xiàn)即使在有額外數(shù)據(jù)增強(qiáng)的時候,生成式數(shù)據(jù)增強(qiáng)也能提升分類效果。這意味著擴(kuò)散模型學(xué)習(xí)分布的能力可能會優(yōu)于 GAN。


原文標(biāo)題:NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強(qiáng)的效果?

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強(qiáng)的效果?

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    實戰(zhàn) | 睿擎平臺SQLite:嵌入設(shè)備數(shù)據(jù)持久化方案,移植到應(yīng)用一文打通

    在嵌入開發(fā)中,數(shù)據(jù)存儲一直是個剛需:設(shè)備參數(shù)配置、傳感器歷史數(shù)據(jù)、運行日志記錄……傳統(tǒng)方案要么用文件系統(tǒng)裸奔,解析麻煩;要么SQLite,但移植門檻高、踩坑多。今天分享一個基于睿擎
    的頭像 發(fā)表于 04-29 19:22 ?6828次閱讀
    實戰(zhàn) | 睿擎平臺SQLite:嵌入<b class='flag-5'>式</b>設(shè)備<b class='flag-5'>上</b>的<b class='flag-5'>數(shù)據(jù)</b>持久化方案,<b class='flag-5'>從</b>移植到應(yīng)用一文打通

    第九屆中國研究生創(chuàng)芯大賽概倫電子賽題發(fā)布

    近日,第九屆中國研究生創(chuàng)“芯”大賽正式啟動。作為國內(nèi)首家EDA上市公司,關(guān)鍵核心技術(shù)具備國際市場競爭力的EDA領(lǐng)軍企業(yè),概倫電子長期秉持與中國集成電路行業(yè)共同成長的理念,始終將產(chǎn)教融合人才培養(yǎng)作為
    的頭像 發(fā)表于 04-23 10:48 ?405次閱讀
    第九屆中國<b class='flag-5'>研究生</b>創(chuàng)芯大賽概倫電子賽題發(fā)布

    第九屆中國研究生創(chuàng)芯大賽新思科技賽題發(fā)布

    2026 年,新思科技再度攜手中國研究生創(chuàng) “芯” 大賽,傾力提供賽題。以產(chǎn)業(yè)前沿需求對接科研攻關(guān)方向,賦能高校人才培養(yǎng)。誠邀國內(nèi)外在讀研究生勇攀技術(shù)巔峰。
    的頭像 發(fā)表于 04-14 16:12 ?419次閱讀

    生成AI賦能工程師挖掘非結(jié)構(gòu)化數(shù)據(jù)價值

    您是否知道,生成 AI(GenAI)可以幫助工程師在幾秒鐘內(nèi)診斷汽車故障,甚至在設(shè)備出現(xiàn)問題之前預(yù)測潛在失效?GenAI 正在通過加速數(shù)據(jù)分析和算法開發(fā),讓這些場景設(shè)想走向現(xiàn)實,使
    的頭像 發(fā)表于 02-28 10:24 ?642次閱讀

    RAG(檢索增強(qiáng)生成)原理與實踐

    引言 在大語言模型(LLM)蓬勃發(fā)展的今天,如何讓AI更準(zhǔn)確地回答特定領(lǐng)域的問題成為了一個關(guān)鍵挑戰(zhàn)。RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)技術(shù)應(yīng)運而生
    發(fā)表于 02-11 12:46

    芯華章助力2025中國研究生創(chuàng)“芯”大賽EDA精英挑戰(zhàn)賽圓滿舉辦

    作為深化產(chǎn)教融合的重要載體,中國研究生創(chuàng) “芯” 大賽?EDA 精英挑戰(zhàn)賽為校企協(xié)同育人機(jī)制創(chuàng)新提供了關(guān)鍵平臺。
    的頭像 發(fā)表于 12-19 09:38 ?607次閱讀
    芯華章助力2025中國<b class='flag-5'>研究生</b>創(chuàng)“芯”大賽EDA精英挑戰(zhàn)賽圓滿舉辦

    2026年NVIDIA研究生獎學(xué)金名單公布

    25 年來,NVIDIA 研究生獎學(xué)金計劃致力于為在與 NVIDIA 技術(shù)相關(guān)的前沿領(lǐng)域開展研究的碩博研究生提供支持。近日,該計劃公布了最新一批獎學(xué)金授予結(jié)果:10 位博士生脫穎而出,每人將獲得最高 6 萬美元的資助,他們的
    的頭像 發(fā)表于 12-13 09:44 ?1236次閱讀

    地平線五篇論文入選NeurIPS 2025與AAAI 2026

    近日,兩大頂級學(xué)術(shù)會議錄用結(jié)果相繼揭曉,地平線憑借在機(jī)器人算法領(lǐng)域的深度鉆研,共有5篇論文全球數(shù)萬份投稿中脫穎而出,分別入選NeurIPS 2025與AAAI 2026。
    的頭像 發(fā)表于 11-27 11:39 ?1407次閱讀
    地平線五篇論文入選<b class='flag-5'>NeurIPS</b> 2025與AAAI 2026

    普華基礎(chǔ)軟件走進(jìn)清華大學(xué)研究生課堂

    近日,普華基礎(chǔ)軟件走進(jìn)清華大學(xué)車輛與運載學(xué)院,在《車輛控制工程》課堂上開展研究生專題授課和交流。本次授課聚焦智能駕駛汽車基礎(chǔ)軟件發(fā)展與關(guān)鍵技術(shù),旨在搭建校企知識傳遞橋梁,為高校學(xué)子帶來產(chǎn)業(yè)前沿視角,助力培養(yǎng)符合行業(yè)需求的復(fù)合型人才。
    的頭像 發(fā)表于 11-26 15:53 ?515次閱讀

    openDACS 2025 開源EDA與芯片賽項 賽題七:基于大模型的生成原理圖設(shè)計

    、分布式數(shù)據(jù)庫;(2)人工智能領(lǐng)域:AI加速芯片及人工智能軟件框架規(guī)劃;(3)CAD&CG領(lǐng)域:幾何建模、網(wǎng)格生成、結(jié)構(gòu)優(yōu)化、計算圖分割&分布批處理,2D梯度約簡
    發(fā)表于 11-13 11:49

    不只有AI協(xié)作編程(Vibe Coding):生成系統(tǒng)級芯片(GenSoC)將如何把生成設(shè)計推向硬件層面

    但是否能將這種生成的、目標(biāo)驅(qū)動的方法軟件層向下延伸呢?這一理念是否可以直接應(yīng)用于硬件本身呢?通過GenSoC,開發(fā)者可用自然語言或高級模型描述系統(tǒng)行為,XMOS的工具鏈將自動生成
    的頭像 發(fā)表于 11-07 14:04 ?683次閱讀

    新思科技連續(xù)八年助力中國研究生創(chuàng)“芯”大賽

    作為中國研究生創(chuàng) “芯” 大賽的創(chuàng)始合作方,新思科技始終秉持初心,連續(xù)八年全力支持這一賽事,致力于為中國本土集成電路設(shè)計領(lǐng)域培育后備力量,以實際行動推動產(chǎn)業(yè)人才生態(tài)建設(shè)。
    的頭像 發(fā)表于 08-15 15:40 ?1210次閱讀

    Cadence連續(xù)八年助力中國研究生創(chuàng)“芯”大賽

    中國研究生創(chuàng)“芯”大賽是中國研究生創(chuàng)新實踐系列賽事之一,是一項面向全國高等院校和科研院所在讀研究生的團(tuán)體性集成電路設(shè)計創(chuàng)意實踐活動。大賽以“創(chuàng)芯、選星、育芯”為宗旨,配合國家集成電路產(chǎn)業(yè)發(fā)展戰(zhàn)略,切實提高
    的頭像 發(fā)表于 08-06 15:05 ?1465次閱讀

    NVIDIA recsys-examples在生成推薦系統(tǒng)中的高效實踐

    生成 AI 浪潮的推動下,推薦系統(tǒng)領(lǐng)域正經(jīng)歷深刻變革。傳統(tǒng)的深度學(xué)習(xí)推薦模型 (DLRMs) 雖已展現(xiàn)出一定效果,但在捕捉用戶興趣偏好和動態(tài)行為序列變化時,常面臨可擴(kuò)展性挑戰(zhàn)。生成
    的頭像 發(fā)表于 07-04 14:43 ?1328次閱讀
    NVIDIA recsys-examples在<b class='flag-5'>生成</b><b class='flag-5'>式</b>推薦系統(tǒng)中的高效實踐

    Gartner報告看Atlassian在生成AI領(lǐng)域的創(chuàng)新路徑與實踐價值

    Atlassian入選Gartner 2025生成AI技術(shù)"新興領(lǐng)導(dǎo)者"!其核心AI產(chǎn)品Rovo依托Teamwork Graph,支持團(tuán)隊知識庫中提取情境化的個性答案與洞察
    的頭像 發(fā)表于 06-05 15:59 ?1297次閱讀
    <b class='flag-5'>從</b>Gartner報告看Atlassian在<b class='flag-5'>生成</b><b class='flag-5'>式</b>AI領(lǐng)域的創(chuàng)新路徑與實踐價值
    拜泉县| 手游| 申扎县| 余姚市| 河间市| 临沭县| 共和县| 久治县| 舒兰市| 巢湖市| 应城市| 广昌县| 化德县| 景谷| 屏东县| 靖安县| 金阳县| 教育| 苏尼特右旗| 当涂县| 偃师市| 攀枝花市| 西畴县| 桐乡市| 石泉县| 沙坪坝区| 阜新市| 太保市| 隆化县| 望奎县| 治县。| 杭锦后旗| 新乡县| 大同市| 赤壁市| 泰州市| 福泉市| 阜南县| 广宗县| 吴江市| 庆元县|