日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習中如何使用擴散模型產生高保真度圖像

硬件三人行 ? 來源:TensorFlow ? 作者:Chitwan Saharia、Jon ? 2021-08-24 09:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

發(fā)布人:Google Research Brain 團隊研究員 Jonathan Ho 和軟件工程師 Chitwan Saharia

自然圖像合成是范圍很廣的一類機器學習 (ML) 任務,會面臨各種類型的應用所帶來的許多設計挑戰(zhàn)。其中之一就是圖像超分辨率,即訓練一個模型來將低分辨率的圖像,轉換為細節(jié)豐富的高分辨率圖像(例如 RAISR)。超分辨率的應用有很多,從恢復古舊的家族畫像,到改善醫(yī)療成像系統(tǒng) (Super-resolution imaging),均有涉獵。另一個類似的圖像合成任務是類條件下的圖像生成,即訓練一個模型,并根據(jù)輸入的類別標簽生成樣本圖像。最終生成的樣本圖像可用于提高圖像分類、分割等下游模型的性能。例如,GAN 經常受到不穩(wěn)定的訓練和模式崩潰的影響,而自回歸模型通常受到合成速度慢的影響。

RAISR

https://ai.googleblog.com/2016/11/enhance-raisr-sharp-images-with-machine.html

一般來說,這些圖像合成任務由深度生成模型完成,如 GAN、VAE,以及自回歸模型。然而,通過訓練讓這些模型在困難的高分辨率數(shù)據(jù)集上,合成高質量的樣本時,它們的表現(xiàn)均有不足。例如,GAN 經常受到不穩(wěn)定的訓練和模式崩潰的影響,而自回歸模型通常受到合成速度慢的影響。

GAN

https://arxiv.org/abs/1406.2661

VAE

https://arxiv.org/abs/1312.6114

自回歸模型

https://arxiv.org/abs/1601.06759

但是,2015 年首次提出的擴散模型 (Diffusion Model) 由于其訓練的穩(wěn)定性及在圖像和音頻生成方面的樣本質量結果很有潛力,最近又重新引起了關注。因此,與其他類型的深度生成模型相比,此模型在得失方面有了不錯的權衡。擴散模型的工作原理是通過逐步添加高斯噪聲來破壞訓練數(shù)據(jù),慢慢抹去數(shù)據(jù)中的細節(jié),直到變成純噪聲。然后再訓練一個神經網絡來逆轉這個破壞過程。運行這個反向破壞過程,可以通過逐漸去噪,來從純噪聲中合成數(shù)據(jù),直到產生一個干凈的樣本。這個合成過程可以被解釋為一種優(yōu)化算法,會按照數(shù)據(jù)密度的梯度來產生可能的樣本。

擴散模型

https://arxiv.org/abs/1503.03585

可以被解釋為

https://arxiv.org/abs/2006.11239

按照數(shù)據(jù)密度的梯度

https://arxiv.org/abs/1907.05600

今天,我們會介紹兩種相互聯(lián)系的方法。它們將推動擴散模型的圖像合成質量界限,即通過重復優(yōu)化獲得的超級分辨率 (SR3) 和用于類條件合成的模型,此模型又名為級聯(lián)擴散模型 (CDM)。經證明,通過擴大擴散模型的規(guī)模以及精心選擇的數(shù)據(jù)增強技術,我們可以取得比現(xiàn)有方法更出色的結果。具體來說,SR3 可以實現(xiàn)強大的圖像超分辨率結果,在人工評估方面的表現(xiàn)優(yōu)于 GAN。CDM 生成的高保真 ImageNet 樣本在 FID 得分 (Fréchet inception distance) 和分類準確率得分上都大大超過了 BigGAN-deep 和 VQ-VAE2。

分類準確率得分

https://arxiv.org/abs/1905.10887

BigGAN-deep

https://arxiv.org/abs/1809.11096

VQ-VAE2

https://arxiv.org/abs/1906.00446

SR3:圖像超分辨率

SR3 是一個超分辨率擴散模型,它通過輸入低分辨率圖像,從純噪聲中構建相應的高分辨率圖像。該模型利用圖像破壞過程為訓練對象,在這個過程中,噪聲被逐步添加到高分辨率圖像中,直到只剩下純噪聲為止。然后,它將逆轉這一過程,從純噪聲開始,逐步去除噪聲,再通過指導輸入的低分辨率圖像,達到目標分布。

SR3

http://iterative-refinement.github.io

通過大規(guī)模的訓練,在擴縮到所輸入低分辨率圖像的 4-8 倍時,SR3 在人臉和自然圖像的超分辨率任務中取得了強大的基準結果。這些超分辨率模型可以進一步級聯(lián)起來,增加有效的超分辨率縮放系數(shù),例如,通過將 64x64→256x256 和 256x256→1024x1024 的人臉超分辨率模型堆疊在一起,來執(zhí)行 64x64→1024x1024 的超分辨率任務。

以人工評估研究為例,我們比較了 SR3 與現(xiàn)有方法。通過開展雙選項必選實驗 (Two-alternative forced choice),我們要求受訪者在引用的高分辨率圖像和模型輸出之間做出選擇,并回答問題(猜一猜哪張圖像是攝像機拍攝的?)。我們通過混淆率(評分者選擇模型輸出而不是參考圖像的次數(shù)百分比,一個完美的算法能夠達到 50% 的混淆率)來衡量模型的性能。這項研究的結果如下圖所示。

上:我們在 16x16→128x128 的人臉任務中實現(xiàn)了接近 50% 的混淆率,優(yōu)于一流的人臉超分辨率方法 PULSE 和 FSRGAN。下:在 64x64 → 256x256 的自然圖像這個更困難的任務中,我們也達到了 40% 的混淆率,表現(xiàn)水準遠超回歸基線

PULSE

https://arxiv.org/abs/2003.03808

FSRGAN

https://arxiv.org/abs/1711.10703

CDM:類條件 ImageNet 生成

在展示了 SR3 處理自然圖像超分辨率方面的有效性之后,我們便更進一步——將這些 SR3 模型用于類條件圖像生成。CDM 是利用 ImageNet 數(shù)據(jù)訓練的類條件擴散模型,可以生成高分辨率的自然圖像。由于 ImageNet 是一個困難的高熵數(shù)據(jù)集,我們將 CDM 構建為多個擴散模型的級聯(lián)。這種級聯(lián)方法會將多個空間分辨率的生成模型串聯(lián)起來:一個擴散模型以低分辨率生成數(shù)據(jù),搭配一連串的 SR3 超分辨率擴散模型,生成圖像的分辨率逐漸提高到最高。眾所周知,級聯(lián)可以改善高分辨率數(shù)據(jù)的質量和訓練速度,這一點在以前的研究(例如自回歸模型和 VQ-VAE-2)以及同時進行的擴散模型研究中都有所體現(xiàn)。正如以下定量結果所證明的那樣,CDM 進一步突出了級聯(lián)在擴散模型中對樣本質量的有效性和對下游任務(如圖像分類)的有用性。

級聯(lián)流水線的示例,其中包括一系列擴散模型:第一個模型用于生成低分辨率的圖像,然后其余的模型負責執(zhí)行上采樣,以最終生成高分辨率的圖像。此為用于生成類條件 ImageNet 的流水線,以 32x32 分辨率的類條件擴散模型開始,然后是使用 SR3 的 2 倍和 4 倍的類條件超分辨率

從我們的 256x256 級聯(lián)類條件 ImageNet 模型中選擇的生成圖像

同時進行

https://arxiv.org/abs/2102.09672

研究

https://arxiv.org/abs/2105.05233

將 SR3 模型納入級聯(lián)流水線的同時,我們還引入了一種新的數(shù)據(jù)增強技術,稱之為 “條件增強”,它可以進一步優(yōu)化 CDM 的樣本質量結果。雖然 CDM 中的超分辨率模型利用數(shù)據(jù)集中的原始圖像訓練而成,但在生成過程中,它們需要以超分辨率對低分辨率基礎模型生成的圖像進行處理,而這些圖像與原始圖像相比,質量可能不夠高。這就導致了超分辨率模型的訓練和測試水平不對等。條件增強是指對級聯(lián)流水線中每個超分辨率模型的低分辨率輸入圖像進行數(shù)據(jù)增強。在我們的研究中,這些增強包括高斯噪聲和高斯模糊,防止各個超分辨率模型對其低分辨率的條件輸入過度擬合,最終讓 CDM 得到更好的高分辨率樣本質量。

總的來說,CDM 生成的高保真樣本在類條件 ImageNet 生成的 FID 得分和分類準確率得分方面都優(yōu)于 BigGAN-deep 和 VQ-VAE-2。不同于 ADM 和 VQ-VAE-2 等其他模型,CDM 是一個純粹的生成模型,不會使用分類器來提高樣本質量。有關樣本質量的定量結果如下所示。

就不使用額外分類器來提高樣本質量的方法而言,類條件 ImageNet FID 在 256x256 分辨率下的得分。BigGAN-deep 的分數(shù)記錄自其在最佳截斷值時的表現(xiàn)(數(shù)值越低越好)

ImageNet 分類準確率在 256x256 分辨率下的得分,用以衡量利用生成數(shù)據(jù)訓練的分類器的驗證集準確率。與現(xiàn)有的方法相比,使用 CDM 生成的數(shù)據(jù)取得了明顯的進步,縮小了真實數(shù)據(jù)和生成數(shù)據(jù)之間的分類準確率的差距(數(shù)值越高越好)

結論

在 SR3 和 CDM 的助力下,我們已經將擴散模型的性能提升到了超分辨率和類條件 ImageNet 生成基準的一流水平。我們很高興能進一步探索擴散模型在各種生成性建模問題上的極限。有關我們研究的更多信息,請參閱通過迭代優(yōu)化實現(xiàn)圖像超分辨和用于生成高保真圖像的級聯(lián)擴散模型。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1096

    瀏覽量

    42451
  • 模型
    +關注

    關注

    1

    文章

    3834

    瀏覽量

    52291
  • 機器學習
    +關注

    關注

    67

    文章

    8567

    瀏覽量

    137269

原文標題:用擴散模型生成高保真度圖像

文章出處:【微信號:yingjiansanrenxing,微信公眾號:硬件三人行】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    MT6701 磁傳感編碼器 高保真音頻音量控制鏈路技術應用

    在專業(yè)功放、Hi-Fi音響、解碼耳放等高保真音頻系統(tǒng),音量調節(jié)單元處于前級信號鏈路關鍵位置,器件自身的噪聲基底、增益線性、聲道一致性、響應時延以及環(huán)境穩(wěn)定性,直接決定整機音頻還原
    的頭像 發(fā)表于 04-21 17:39 ?296次閱讀
    MT6701 磁傳感編碼器 <b class='flag-5'>高保真</b>音頻音量控制鏈路技術應用

    德州儀器PCM1796音頻DAC:高保真音頻設計的理想之選

    德州儀器PCM1796音頻DAC:高保真音頻設計的理想之選 在當今音頻技術飛速發(fā)展的時代,高保真音頻設備的需求日益增長,數(shù)字到模擬轉換器(DAC)作為音頻系統(tǒng)的關鍵組件,其性能直接影響著音頻的質量
    的頭像 發(fā)表于 02-03 15:05 ?623次閱讀

    TPA6120A2高保真耳機放大器:技術剖析與應用指南

    TPA6120A2高保真耳機放大器:技術剖析與應用指南 在音頻設備的設計領域,追求高保真音質一直是工程師們的核心目標。而德州儀器(TI)的TPA6120A2高保真耳機放大器,憑借其出色的性能和豐
    的頭像 發(fā)表于 02-03 14:55 ?595次閱讀

    德思特應用 | 突破10ns脈沖限制:德思特脈沖發(fā)生器如何解決NVM測試的超快激勵與高保真挑戰(zhàn)

    NVM測試亟需超10ns窄脈沖、高幅值及高保真度激勵。德思特脈沖發(fā)生器以5Vpp廣幅和70ps超快邊沿,完美解決PCM等器件的快速SET/RESET需求,提供高性能NVM測試方案。
    的頭像 發(fā)表于 01-27 10:21 ?294次閱讀

    邁向智駕高階驗證:康謀高保真HIL仿真解決方案,重塑測試價值

    隨著智能駕駛向L3/L4高階演進,傳感器配置密度激增、場景復雜指數(shù)級提升,HIL(硬件在環(huán))測試面臨核心痛點,如傳統(tǒng)方案仿真保真度不足難以匹配高階智駕感知需求、鏈路復雜導致升級成本高、邊緣場景覆蓋不全與低延遲傳輸矛盾凸顯、無法支撐高階系統(tǒng)全生命周期測
    的頭像 發(fā)表于 01-23 17:33 ?3531次閱讀
    邁向智駕高階驗證:康謀<b class='flag-5'>高保真</b>HIL仿真解決方案,重塑測試價值

    探索SSM6322:高保真低功耗立體聲音頻放大器的卓越之選

    探索SSM6322:高保真低功耗立體聲音頻放大器的卓越之選 在音頻設備的設計領域,高保真、低功耗一直是工程師們追求的目標。今天,我們就來深入了解一款來自Analog Devices的集成
    的頭像 發(fā)表于 01-16 15:20 ?410次閱讀

    石英晶振在高保真(Hifi)音頻的應用

    或處理過程要求極高,而石英晶振正是在這一關鍵環(huán)節(jié)發(fā)揮著重要的作用。晶振在高保真音頻的作用石英晶振在高保真(Hifi)音頻系統(tǒng),主要為數(shù)
    的頭像 發(fā)表于 01-16 11:21 ?505次閱讀
    石英晶振在<b class='flag-5'>高保真</b>(Hifi)音頻<b class='flag-5'>中</b>的應用

    免費獲取 | SimData高保真虛擬數(shù)據(jù)集開源發(fā)布,兼容nuScenes,開箱即用!

    的關鍵瓶頸。在此背景下,基于高保真仿真技術構建的SimData自動駕駛虛擬數(shù)據(jù)集,以“低成本、高保真、場景全”的核心優(yōu)勢,為行業(yè)提供了高效的解決方案。為此,康謀依托自
    的頭像 發(fā)表于 12-09 17:32 ?442次閱讀
    免費獲取 | SimData<b class='flag-5'>高保真</b>虛擬數(shù)據(jù)集開源發(fā)布,兼容nuScenes,開箱即用!

    功放IC搭配的升壓芯片選型指南:為何H6801更適合高保真功放系統(tǒng)?

    不同功放IC的信號電平與通信協(xié)議,顯著簡化外圍電路設計。 通過優(yōu)化驅動時序與抗干擾設計,H6801在車載音頻系統(tǒng)、專業(yè)音響設備及高保真家庭影院等場景,能夠穩(wěn)定適配各類功放方案,降低系統(tǒng)調試復雜,確保信號
    發(fā)表于 09-04 16:39

    功放IC搭配的升壓芯片選型指南:為何H6922更適合高保真功放系統(tǒng)?

    匹配不同功放IC的信號電平與通信協(xié)議,顯著簡化外圍電路設計。 通過優(yōu)化驅動時序與抗干擾設計,H6922在車載音頻系統(tǒng)、專業(yè)音響設備及高保真家庭影院等場景,能夠穩(wěn)定適配各類功放方案,降低系統(tǒng)調試復雜
    發(fā)表于 09-04 09:59

    超小型Neuton機器學習模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應用.

    Neuton 是一家邊緣AI 公司,致力于讓機器 學習模型更易于使用。它創(chuàng)建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以在最先進的邊緣設備上進行人工智能處理。在這篇博文
    發(fā)表于 07-31 11:38

    FPGA在機器學習的具體應用

    隨著機器學習和人工智能技術的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經無法滿足高效處理大規(guī)模數(shù)據(jù)和復雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?3127次閱讀

    通過NVIDIA Cosmos模型增強機器人學習

    通用機器人的時代已經到來,這得益于機械電子技術和機器人 AI 基礎模型的進步。但目前機器人技術的發(fā)展仍面臨一個關鍵挑戰(zhàn):機器人需要大量的訓練
    的頭像 發(fā)表于 07-14 11:49 ?1340次閱讀
    通過NVIDIA Cosmos<b class='flag-5'>模型</b>增強<b class='flag-5'>機器人學習</b>

    無法使用OpenVINO?在 GPU 設備上運行穩(wěn)定擴散文本到圖像的原因?

    在OpenVINO? GPU 設備上使用圖像大小 (1024X576) 運行穩(wěn)定擴散文本到圖像,并收到錯誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    LME49600 單通道、110MHz、高保真、高電流耳機緩沖器技術手冊

    LME49600是一款高性能、低失真、高保真度的250mA音頻緩沖器。LME49600專為廣泛的應用而設計。它可以在運算放大器的反饋回路中使用。
    的頭像 發(fā)表于 05-20 09:45 ?2033次閱讀
    LME49600 單通道、110MHz、<b class='flag-5'>高保真</b>、高電流耳機緩沖器技術手冊
    防城港市| 安宁市| 万安县| 文水县| 莱芜市| 北辰区| 特克斯县| 同德县| 安庆市| 荥阳市| 安阳市| 泸定县| 沂南县| 汶川县| 疏勒县| 柳江县| 巩义市| 梅河口市| 辽阳市| 利川市| 榆社县| 屏东市| 仪征市| 永新县| 淄博市| 叙永县| 姚安县| 综艺| 唐海县| 雅江县| 义乌市| 织金县| 拜泉县| 玉龙| 屯昌县| 九江县| 太原市| 莲花县| 镇远县| 兰坪| 松潘县|