综合另类一区在线,日9中文字幕,自拍网址在线观看99

大佬何愷明還未正式入職MIT，但和MIT的第一篇合作研究已經(jīng)出來(lái)了：

他和MIT師生一起開(kāi)發(fā)了一個(gè)自條件圖像生成框架，名叫RCG（代碼已開(kāi)源）。

這個(gè)框架結(jié)構(gòu)非常簡(jiǎn)單但效果拔群，直接在ImageNet-1K數(shù)據(jù)集上實(shí)現(xiàn)了無(wú)條件圖像生成的新SOTA。

它生成的圖像不需要任何人類注釋（也就是提示詞、類標(biāo)簽什么的），就能做到既保真又具有多樣性。

這樣的它不僅顯著提高了無(wú)條件圖像生成的水平，還能跟當(dāng)前最好的條件生成方法一較高下。

用何愷明團(tuán)隊(duì)自己的話來(lái)說(shuō)：

有條件和無(wú)條件生成任務(wù)之間長(zhǎng)期存在的性能差距，終于在這一刻被彌補(bǔ)了。

那么，它究竟是如何做到的呢？

類似自監(jiān)督學(xué)習(xí)的自條件生成

首先，所謂無(wú)條件生成，就是模型在沒(méi)有輸入信號(hào)幫助的情況下直接捕獲數(shù)據(jù)分布生成內(nèi)容。

這種方式比較難以訓(xùn)練，所以一直和條件生成有很大性能差距——就像無(wú)監(jiān)督學(xué)習(xí)比不過(guò)監(jiān)督學(xué)習(xí)一樣。

但就像自監(jiān)督學(xué)習(xí)的出現(xiàn)，扭轉(zhuǎn)了這一局面一樣。

在無(wú)條件圖像生成領(lǐng)域，也有一個(gè)類似于自監(jiān)督學(xué)習(xí)概念的自條件生成方法。

相比傳統(tǒng)的無(wú)條件生成簡(jiǎn)單地將噪聲分布映射到圖像分布，這種方法主要將像素生成過(guò)程設(shè)置在從數(shù)據(jù)分布本身導(dǎo)出的表示分布上。

它有望超越條件圖像生成，并推動(dòng)諸如分子設(shè)計(jì)或藥物發(fā)現(xiàn)這種不需要人類給注釋的應(yīng)用往前發(fā)展（這也是為什么條件生成圖像發(fā)展得這么好，我們還要重視無(wú)條件生成）。

現(xiàn)在，基于這個(gè)自條件生成概念，何愷明團(tuán)隊(duì)首先開(kāi)發(fā)了一個(gè)表示擴(kuò)散模型RDM。

它主要用于生成低維自監(jiān)督圖像表示，方法是通過(guò)自監(jiān)督圖像編碼器從圖像中截?。?/p>

它的核心架構(gòu)如下：

首先是輸入層，它負(fù)責(zé)將表征投射到隱藏維度C，接著是N個(gè)全連接塊，最后是一個(gè)輸出層，負(fù)責(zé)把隱藏層的潛在特征重新投射（轉(zhuǎn)換）到原始表征維度。

其中每一層都包含一個(gè)LayerNorm層、一個(gè)SiLU層以及一個(gè)線性層。

這樣的RDM具有兩個(gè)優(yōu)點(diǎn)：

一是多樣性強(qiáng)，二是計(jì)算開(kāi)銷小。

接著，利用RDM，團(tuán)隊(duì)就提出了今天的主角：表示條件圖像生成架構(gòu)RCG。

它是一個(gè)簡(jiǎn)單的自條件生成框架，由三個(gè)組件組成：

一個(gè)是SSL圖像編碼器，用于將圖像分布轉(zhuǎn)換為緊湊的表示分布。

一個(gè)是RDM，用于對(duì)該分布進(jìn)行建模和采樣。

最后是一個(gè)像素生成器MAGE，用于根據(jù)表示來(lái)處理圖像像。

MAGE的工作方式主要是向token化的圖像中添加隨機(jī)掩碼，并要求網(wǎng)絡(luò)以從同一圖像中提取的表示為條件來(lái)重建丟失的token。

最終，測(cè)試表明，這個(gè)自條件生成框架雖結(jié)構(gòu)簡(jiǎn)單但效果非凡：

在ImageNet 256×256上，RCG實(shí)現(xiàn)了3.56的FID和186.9的IS（Inception Score）得分。

相比之下，在它之前最厲害的無(wú)條件生成方法FID分?jǐn)?shù)為7.04，IS得分為123.5。

以及，相比條件生成，RCG也絲毫不遜色，可以達(dá)到相當(dāng)甚至超過(guò)該領(lǐng)域基準(zhǔn)模型的水平。

最后，在無(wú)分類器引導(dǎo)的情況下，RCG的成績(jī)還能進(jìn)一步提高到3.31（FID）和253.4（IS）。

團(tuán)隊(duì)表示：

這些結(jié)果表明，自條件圖像生成模型擁有巨大潛力，可能預(yù)示這一領(lǐng)域新時(shí)代的到來(lái)。

團(tuán)隊(duì)介紹

本文一共三位作者：

代碼：https://github.com/LTH14/rcg

論文：https://arxiv.org/abs/2312.03701

一作是MIT博士生黎天鴻，本科畢業(yè)于清華姚班，研究方向?yàn)榭缒B(tài)集成傳感技術(shù)。

他的主頁(yè)很有意思，還專門放了一個(gè)菜譜合集——做研究和做飯是他最熱愛(ài)的兩件事。

另一位作者是MIT電氣工程與計(jì)算機(jī)科學(xué)系（EECS）教授、MIT無(wú)線網(wǎng)絡(luò)和移動(dòng)計(jì)算中心主任Dina Katabi，她是今年斯隆獎(jiǎng)的獲得者，并已當(dāng)選美國(guó)國(guó)家科學(xué)院院士。

最后，通訊作者為何愷明，他將在明年正式回歸學(xué)界、離開(kāi)Meta加入MIT電氣工程和計(jì)算機(jī)科學(xué)系，與Dina Katabi成為同事。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1096

瀏覽量
42444
MIT

MIT

+關(guān)注

關(guān)注
3

文章
254

瀏覽量
25041
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1240

瀏覽量
26262

原文標(biāo)題：何愷明新作RCG：無(wú)自條件圖像生成新SOTA！與MIT首次合作！

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

何愷明新作RCG：無(wú)自條件圖像生成新SOTA！與MIT首次合作！

評(píng)論

搜索歷史

何愷明新作RCG：無(wú)自條件圖像生成新SOTA！與MIT首次合作！

評(píng)論

何愷明新作RCG：無(wú)自條件圖像生成新SOTA！與MIT首次合作！