日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

何愷明新作RCG:無(wú)自條件圖像生成新SOTA!與MIT首次合作!

CVer ? 來(lái)源:量子位 ? 2023-12-10 10:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大佬何愷明還未正式入職MIT,但和MIT的第一篇合作研究已經(jīng)出來(lái)了:

他和MIT師生一起開(kāi)發(fā)了一個(gè)自條件圖像生成框架,名叫RCG(代碼已開(kāi)源)。

這個(gè)框架結(jié)構(gòu)非常簡(jiǎn)單但效果拔群,直接在ImageNet-1K數(shù)據(jù)集上實(shí)現(xiàn)了無(wú)條件圖像生成的新SOTA。

968392de-96ac-11ee-8b88-92fbcf53809c.png

它生成的圖像不需要任何人類注釋(也就是提示詞、類標(biāo)簽什么的),就能做到既保真又具有多樣性。

968f3756-96ac-11ee-8b88-92fbcf53809c.png

這樣的它不僅顯著提高了無(wú)條件圖像生成的水平,還能跟當(dāng)前最好的條件生成方法一較高下。

用何愷明團(tuán)隊(duì)自己的話來(lái)說(shuō):

有條件和無(wú)條件生成任務(wù)之間長(zhǎng)期存在的性能差距,終于在這一刻被彌補(bǔ)了。

那么,它究竟是如何做到的呢?

類似自監(jiān)督學(xué)習(xí)的自條件生成

首先,所謂無(wú)條件生成,就是模型在沒(méi)有輸入信號(hào)幫助的情況下直接捕獲數(shù)據(jù)分布生成內(nèi)容。

這種方式比較難以訓(xùn)練,所以一直和條件生成有很大性能差距——就像無(wú)監(jiān)督學(xué)習(xí)比不過(guò)監(jiān)督學(xué)習(xí)一樣。

但就像自監(jiān)督學(xué)習(xí)的出現(xiàn),扭轉(zhuǎn)了這一局面一樣。

在無(wú)條件圖像生成領(lǐng)域,也有一個(gè)類似于自監(jiān)督學(xué)習(xí)概念的自條件生成方法。

相比傳統(tǒng)的無(wú)條件生成簡(jiǎn)單地將噪聲分布映射到圖像分布,這種方法主要將像素生成過(guò)程設(shè)置在從數(shù)據(jù)分布本身導(dǎo)出的表示分布上。

它有望超越條件圖像生成,并推動(dòng)諸如分子設(shè)計(jì)或藥物發(fā)現(xiàn)這種不需要人類給注釋的應(yīng)用往前發(fā)展(這也是為什么條件生成圖像發(fā)展得這么好,我們還要重視無(wú)條件生成)。

現(xiàn)在,基于這個(gè)自條件生成概念,何愷明團(tuán)隊(duì)首先開(kāi)發(fā)了一個(gè)表示擴(kuò)散模型RDM。

它主要用于生成低維自監(jiān)督圖像表示,方法是通過(guò)自監(jiān)督圖像編碼器從圖像中截?。?/p>

969c8794-96ac-11ee-8b88-92fbcf53809c.png

它的核心架構(gòu)如下:

首先是輸入層,它負(fù)責(zé)將表征投射到隱藏維度C,接著是N個(gè)全連接塊,最后是一個(gè)輸出層,負(fù)責(zé)把隱藏層的潛在特征重新投射(轉(zhuǎn)換)到原始表征維度。

其中每一層都包含一個(gè)LayerNorm層、一個(gè)SiLU層以及一個(gè)線性層。

96aaccaa-96ac-11ee-8b88-92fbcf53809c.png

這樣的RDM具有兩個(gè)優(yōu)點(diǎn):

一是多樣性強(qiáng),二是計(jì)算開(kāi)銷小。

接著,利用RDM,團(tuán)隊(duì)就提出了今天的主角:表示條件圖像生成架構(gòu)RCG。

它是一個(gè)簡(jiǎn)單的自條件生成框架,由三個(gè)組件組成:

一個(gè)是SSL圖像編碼器,用于將圖像分布轉(zhuǎn)換為緊湊的表示分布。

一個(gè)是RDM,用于對(duì)該分布進(jìn)行建模和采樣。

最后是一個(gè)像素生成器MAGE,用于根據(jù)表示來(lái)處理圖像像。

MAGE的工作方式主要是向token化的圖像中添加隨機(jī)掩碼,并要求網(wǎng)絡(luò)以從同一圖像中提取的表示為條件來(lái)重建丟失的token。

96b8b810-96ac-11ee-8b88-92fbcf53809c.png

最終,測(cè)試表明,這個(gè)自條件生成框架雖結(jié)構(gòu)簡(jiǎn)單但效果非凡:

在ImageNet 256×256上,RCG實(shí)現(xiàn)了3.56的FID和186.9的IS(Inception Score)得分。

相比之下,在它之前最厲害的無(wú)條件生成方法FID分?jǐn)?shù)為7.04,IS得分為123.5。

96c3fdd8-96ac-11ee-8b88-92fbcf53809c.png

以及,相比條件生成,RCG也絲毫不遜色,可以達(dá)到相當(dāng)甚至超過(guò)該領(lǐng)域基準(zhǔn)模型的水平。

最后,在無(wú)分類器引導(dǎo)的情況下,RCG的成績(jī)還能進(jìn)一步提高到3.31(FID)和253.4(IS)。

團(tuán)隊(duì)表示:

這些結(jié)果表明,自條件圖像生成模型擁有巨大潛力,可能預(yù)示這一領(lǐng)域新時(shí)代的到來(lái)。

團(tuán)隊(duì)介紹

本文一共三位作者:

96c8531a-96ac-11ee-8b88-92fbcf53809c.png

代碼:https://github.com/LTH14/rcg

論文:https://arxiv.org/abs/2312.03701

一作是MIT博士生黎天鴻,本科畢業(yè)于清華姚班,研究方向?yàn)榭缒B(tài)集成傳感技術(shù)。

他的主頁(yè)很有意思,還專門放了一個(gè)菜譜合集——做研究和做飯是他最熱愛(ài)的兩件事。

96d25b26-96ac-11ee-8b88-92fbcf53809c.png

另一位作者是MIT電氣工程與計(jì)算機(jī)科學(xué)系(EECS)教授、MIT無(wú)線網(wǎng)絡(luò)和移動(dòng)計(jì)算中心主任Dina Katabi,她是今年斯隆獎(jiǎng)的獲得者,并已當(dāng)選美國(guó)國(guó)家科學(xué)院院士。

最后,通訊作者為何愷明,他將在明年正式回歸學(xué)界、離開(kāi)Meta加入MIT電氣工程和計(jì)算機(jī)科學(xué)系,與Dina Katabi成為同事。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42444
  • MIT
    MIT
    +關(guān)注

    關(guān)注

    3

    文章

    254

    瀏覽量

    25041
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1240

    瀏覽量

    26262

原文標(biāo)題:何愷明新作RCG:無(wú)自條件圖像生成新SOTA!與MIT首次合作!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    科技研山隱大模型完成雙備案

    2026年3月17日,由洲集團(tuán)旗下全資AI子公司——洲數(shù)字文化自主研發(fā),“中華優(yōu)秀傳統(tǒng)文化大模型”(山隱大模型)成功完成生成合成類算法+生成式人工智能服務(wù)的“雙備案”。
    的頭像 發(fā)表于 03-18 16:07 ?361次閱讀

    瀟湘電影集團(tuán)與洲集團(tuán)達(dá)成戰(zhàn)略合作

    12月10日,瀟湘電影集團(tuán)與洲集團(tuán)戰(zhàn)略合作簽約儀式圓滿舉行。此次合作雙方將在LED電影屏、光顯系統(tǒng)及國(guó)產(chǎn)電影拍攝器材等核心領(lǐng)域展開(kāi)深度合作,共同推動(dòng)影視產(chǎn)業(yè)與光顯科技的融合創(chuàng)新。
    的頭像 發(fā)表于 12-18 13:52 ?631次閱讀

    科技與沙特航空俱樂(lè)部穩(wěn)步推進(jìn)戰(zhàn)略合作關(guān)系

    11月25至29日,洲科技作為獨(dú)家數(shù)字合作伙伴,成功點(diǎn)亮沙特通用航空航展Sand & Fun 2025。
    的頭像 發(fā)表于 12-08 10:46 ?857次閱讀

    使用Firebase AI Logic生成圖像模型的兩種新功能

    為您的應(yīng)用添加自定義圖像,能夠顯著改善和個(gè)性化用戶體驗(yàn),有效提高用戶參與度。本文將探討使用 Firebase AI Logic 生成圖像的兩種新功能: 其一是 Imagen 專屬編輯功能預(yù)覽版;其二
    的頭像 發(fā)表于 11-30 09:28 ?571次閱讀

    華為與毛里求斯電信深化智網(wǎng)絡(luò)戰(zhàn)略合作

    第28屆非洲通信展(AFRICA COM)期間,華為與毛里求斯電信(Mauritius Telecom)簽署了IP智網(wǎng)絡(luò)聯(lián)合創(chuàng)新合作備忘錄,雙方深化智網(wǎng)絡(luò)戰(zhàn)略合作,聚焦AN L4(
    的頭像 發(fā)表于 11-19 15:34 ?693次閱讀

    科技與中建西南院科技公司達(dá)成戰(zhàn)略合作

    近日,由中建西南院電氣專委會(huì)、科技公司主辦的“數(shù)字電氣學(xué)術(shù)論壇暨生態(tài)合作伙伴大會(huì)”在成都圓滿召開(kāi)。大會(huì)期間,洲科技與中建西南院科技公司正式簽署戰(zhàn)略合作協(xié)議,攜手推動(dòng)LED光顯領(lǐng)域的生態(tài)建設(shè)與創(chuàng)新發(fā)展。
    的頭像 發(fā)表于 10-11 10:14 ?738次閱讀

    科技與Dimension Studio簽署合作備忘錄

    近日,洲科技與Dimension Studio、Cambridge Picture Company及北京山慕影視文化傳媒有限公司正式簽署合作備忘錄。
    的頭像 發(fā)表于 09-28 18:20 ?1612次閱讀

    AURIX tc367通過(guò) MCU SOTA 更新邏輯 IC 閃存是否可行?

    你好專家:我的用例是 MCU 通過(guò) SPI 連接到邏輯 IC,邏輯 IC 連接到 8MB 閃存,但 MCU PFLASH 大小為 2MB,通過(guò) MCU SOTA 更新邏輯 IC 閃存是否可行?
    發(fā)表于 08-11 06:36

    求助,關(guān)于TC387使能以及配置SOTA 中一些問(wèn)題求解

    你好, 之前我拿到貴司給一個(gè)demo,里面有一些使能以及配置SWAP的代碼, 這里有些疑問(wèn) 問(wèn)題1. 判斷SOTA功能是否生效,demo中使用的是 SCU_STMEM1中的bit位, 代碼如下
    發(fā)表于 08-08 07:31

    福耀科技大學(xué)與洲科技達(dá)成戰(zhàn)略合作

    2025年8月5日,福建福耀科技大學(xué)與洲科技正式簽署校企戰(zhàn)略合作協(xié)議。
    的頭像 發(fā)表于 08-06 18:18 ?1770次閱讀

    數(shù)字文化科技與中山大學(xué)旅游學(xué)院達(dá)成戰(zhàn)略合作

    近日,洲集團(tuán)旗下AI子公司——深圳市洲數(shù)字文化科技有限公司與中山大學(xué)旅游學(xué)院正式簽署戰(zhàn)略合作意向書。
    的頭像 發(fā)表于 06-23 15:46 ?1150次閱讀

    科技與易科公司達(dá)成戰(zhàn)略合作

    近日,音視頻領(lǐng)域頭部企業(yè)“深圳易科聲光科技股份有限公司”(以下簡(jiǎn)稱易科公司)與洲科技在洲明大亞灣科技園正式簽署戰(zhàn)略合作協(xié)議。雙方將在LED顯示技術(shù)、聲光系統(tǒng)集成等領(lǐng)域全面深化協(xié)作,攜手探索智慧視聽(tīng)生態(tài)新未來(lái)。
    的頭像 發(fā)表于 06-19 16:30 ?1250次閱讀

    利用NVIDIA 3D引導(dǎo)生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術(shù)突飛猛進(jìn),從早期模型會(huì)生成手指過(guò)多的人類圖像,到現(xiàn)在能創(chuàng)造出令人驚嘆的逼真視覺(jué)效果。即使取得了如此飛躍,仍然存在一個(gè)挑戰(zhàn):實(shí)現(xiàn)創(chuàng)意掌控。
    的頭像 發(fā)表于 06-05 09:24 ?1031次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開(kāi)發(fā)者現(xiàn)在可以通過(guò) Gemini API 訪問(wèn) Google 最先進(jìn)的圖像生成模型 Imagen 3。該模型最初僅對(duì)付費(fèi)用戶開(kāi)放,不久后也將面向免費(fèi)用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?1480次閱讀

    PanDao:實(shí)際約束條件下成像系統(tǒng)的初始結(jié)構(gòu)的生成

    設(shè)計(jì)的自動(dòng)生成。第一個(gè)案例引用文獻(xiàn)[6]的快速近紅外(NIR)鏡頭研究,作者從已知的六片式鏡頭結(jié)構(gòu)出發(fā),應(yīng)用并比較了多種全局優(yōu)化策略。該系統(tǒng)的規(guī)格與約束條件如下:前置光闌、100 mm焦距、f/1.5
    發(fā)表于 05-07 08:57
    静乐县| 隆尧县| 乌拉特中旗| 陈巴尔虎旗| 肥东县| 科尔| 同江市| 海门市| 普陀区| 武宣县| 胶南市| 余江县| 门源| 兴安县| 海安县| 腾冲县| 南雄市| 临海市| 西畴县| 东莞市| 忻城县| 建平县| 黔西| 特克斯县| 娄底市| 镇江市| 华坪县| 云浮市| 涞源县| 永州市| 惠安县| 和林格尔县| 富裕县| 万年县| 绵阳市| 秦安县| 巧家县| 襄汾县| 肥城市| 商洛市| 微山县|