日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

擴散模型再下一城! 故事配圖這個活可以交給AI了

深度學(xué)習(xí)自然語言處理 ? 來源:機器之心 ? 作者:機器之心 ? 2022-12-06 14:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

以后,故事配圖這個活可以交給 AI 了。

你有沒有發(fā)現(xiàn),最近大火的擴散模型如 DALL·E 2、Imagen 和 Stable Diffusion,雖然在文本到圖像生成方面可圈可點,但它們只是側(cè)重于單幅圖像生成,假如要求它們生成一系列連貫的圖像如漫畫,可能表現(xiàn)就差點意思了。

生成具有故事性的漫畫可不是那么簡單,不光要保證圖像質(zhì)量,畫面的連貫性也占有非常重要的地位,如果生成的圖像前后連貫性較差,故事中的人物像素成渣,給人一種看都不想看的感覺,就像下圖展示的,生成的故事圖就像加了馬賽克,完全看不出圖像里有啥。

d57f4db2-751e-11ed-8abf-dac502259ad0.png

img

本文中,來自滑鐵盧大學(xué)、阿里巴巴集團等機構(gòu)的研究者向這一領(lǐng)域發(fā)起了挑戰(zhàn):他們提出了自回歸潛在擴散模型(auto-regressive latent diffusion model, AR-LDM),從故事可視化和故事延續(xù)入手。故事的可視化旨在合成一系列圖像,用來描述用句子組成的故事;故事延續(xù)是故事可視化的一種變體,與故事可視化的目標(biāo)相同,但基于源框架(即第一幀)完成。這一設(shè)置解決了故事可視化中的一些問題(泛化問題和信息限制問題),允許模型生成更有意義和連貫的圖像。

d5ab7c8e-751e-11ed-8abf-dac502259ad0.png

img

論文地址:https://arxiv.org/pdf/2211.10950.pdf

具體來說, AR-LDM 采用了歷史感知編碼模塊,其包含一個 CLIP 文本編碼器和 BLIP 多模態(tài)編碼器。對于每一幀,AR-LDM 不僅受當(dāng)前字幕的指導(dǎo),而且還以先前生成的圖像字幕歷史為條件。這允許 AR-LDM 生成相關(guān)且連貫的圖像。

據(jù)了解,這是第一項成功利用擴散模型進行連貫視覺故事合成的工作。

該研究的效果如何呢?例如,下圖是本文方法和 StoryDALL·E 的比較,其中 #1、2、3、4、5 分別代表第幾幀,在第 3 和第 4 幀的字幕中沒有描述汽車或背景的細(xì)節(jié),只是兩句話「#3:Fred 、 Wilma 正在開車 」、「#4:Fred 一邊開車,一邊聽乘客 Wilma 說話。Wilma 抱著雙臂和 Fred 說話時看起來很生氣?!瓜啾容^而言,AR-LDM 生成的圖像質(zhì)量明顯更高,人物臉部表情等細(xì)節(jié)清晰可見,且生成的系列圖像更具連貫性,例如 StoryDALL·E 生成的圖像,很明顯的看到背景都不一樣,人物細(xì)節(jié)也很模糊,其生成只根據(jù)上下文文本條件,而沒有利用之前生成的圖像。相反,AR-LDM 前后給人的感覺就是一個完整的漫畫故事。

總結(jié)來說就是,AR-LDM 表現(xiàn)出很強的多模態(tài)理解和圖像生成能力。它能夠精確地生成字幕描述的高質(zhì)量場景,并在幀間保持很強的一致性。此外,該研究還探索了采用 AR-LDM 來保持故事中未見過的角色(即代詞所指的角色,例如圖 1 最后一幀中的男人)的一致性。這種適配可以在很大程度上緩解由于對未見角色的不確定描述而導(dǎo)致的生成結(jié)果不一致。

d5c5beb4-751e-11ed-8abf-dac502259ad0.png

img

最后,該研究在兩個數(shù)據(jù)集 FlintstonesSV 和 PororoSV 上進行了實驗,雖然使用的數(shù)據(jù)集都是卡通圖像,但該研究還引入了一個新的數(shù)據(jù)集 VIST,來更好地評估 AR-LDM 對真實世界的故事合成能力。

定量評估結(jié)果表明 AR-LDM 在故事可視化和連續(xù)任務(wù)中都實現(xiàn)了 SOTA 性能。特別是,AR-LDM 在 PororoSV 上取得了 16.59 的 FID 分?jǐn)?shù),相對于之前的故事可視化方法提高了 70%。AR-LDM 還提高了故事連續(xù)性能,在所有評估數(shù)據(jù)集上相對提高了大約 20%。此外,該研究還進行了大規(guī)模的人類評估,以測試 AR-LDM 在視覺質(zhì)量、相關(guān)性和一致性的表現(xiàn),這表明人類更喜歡本文合成的故事而不是以前的方法。

方法概述

與單字幕文本到圖像任務(wù)不同,合成連貫的故事需要模型了解歷史描述和場景。例如下面這個故事「紅色金屬圓柱立方體位于中心,然后在右側(cè)添加一個綠色橡膠立方體」,僅第二句話無法為模型提供足夠的指導(dǎo)來生成連貫的圖像。因此對于模型來說,了解第一張生成圖像中「紅色金屬圓柱立方體」的歷史字幕、場景和外觀至關(guān)重要。

設(shè)計強大的故事合成模型的關(guān)鍵是使其能夠?qū)?dāng)前圖像生成與歷史字幕和場景結(jié)合起來。在這項工作中,研究者提出了 AR-LDM,以實現(xiàn)更好的跨幀一致性。如下圖 2a 所示,AR-LDM 利用歷史字幕和圖像來生成未來幀。圖 2b 顯示了 AR-LDM 的詳細(xì)架構(gòu)。

d5f41c28-751e-11ed-8abf-dac502259ad0.png

img

現(xiàn)有工作假設(shè)每一幀之間的條件獨立,并根據(jù)字幕生成整個視覺故事。而 AR-LDM 額外地以歷史圖像

d60fd2d8-751e-11ed-8abf-dac502259ad0.png

為條件來擺脫這個假設(shè),并根據(jù)鏈?zhǔn)椒▌t直接估計后驗,其形式如下

d622c776-751e-11ed-8abf-dac502259ad0.png

img

AR-LDM 還能在高效、低維潛在空間中執(zhí)行正向和反向擴散過程。潛在空間在感知上近似等同于高維 RGB 空間,而像素中冗余的語義無意義信息被消除。具體地,AR-LDM 在擴散過程中使用潛在表示

d63b999a-751e-11ed-8abf-dac502259ad0.png

代替像素,最終輸出可以用 D(z) 解碼回像素空間。單獨的輕度感知壓縮階段僅消除難以察覺的細(xì)節(jié),使模型能夠以更低的訓(xùn)練和推理成本獲得具有競爭力的生成結(jié)果。

研究者使用歷史感知條件網(wǎng)絡(luò)將歷史字幕 - 圖像對編碼為多模態(tài)條件

d64a832e-751e-11ed-8abf-dac502259ad0.png

,以指導(dǎo)去噪過程

d659bcd6-751e-11ed-8abf-dac502259ad0.png

。條件網(wǎng)絡(luò)由 CLIP 和 BLIP 組成,分別負(fù)責(zé)當(dāng)前字幕編碼和先前字幕圖像編碼。BLIP 使用視覺語言理解和生成任務(wù)與大規(guī)模過濾干凈的 Web 數(shù)據(jù)進行預(yù)訓(xùn)練??傊珹R-LDM可以通過以下公式生成圖像d66996ec-751e-11ed-8abf-dac502259ad0.png

d6753844-751e-11ed-8abf-dac502259ad0.png

img

自適應(yīng) AR-LDM

對于漫畫等現(xiàn)實世界的應(yīng)用,有必要為新的(未見過的)角色保持一致性。受 Textual Inversion 和 DreamBooth 的啟發(fā),研究者添加了一個新的 token 來表示未見過的角色,并調(diào)整經(jīng)過訓(xùn)練的 AR-LDM 以泛化到特定的未見過的角色。

具體來說,新 token 的嵌入由類似的現(xiàn)有單詞初始化,如「man」或「woman」。研究者只需要角色的 4-5 張圖像組成一個故事作為訓(xùn)練數(shù)據(jù)集,并使用 1e-5 的相同學(xué)習(xí)率對經(jīng)過 100 個 epoch 的 AR-LDM 進行微調(diào)。他們發(fā)現(xiàn)微調(diào) AR-LDM 的整個參數(shù)(僅編碼器d68276d0-751e-11ed-8abf-dac502259ad0.png和解碼器 D 除外)獲得了更好的性能。

實驗結(jié)果

研究者使用三個數(shù)據(jù)集作為測試平臺,分別是 PororoSV、FlintstonesSV 和 VIST。這三個數(shù)據(jù)集中的每個故事都包含 5 個連續(xù)的幀。對于故事可視化,研究者從字幕中預(yù)測全部的 5 幀。對于故事連貫性,第一幀被指定為源幀,并參考源幀生成其余 4 幀。他們在 8 塊 NVIDIA A100-80GB GPU 上對 AR-LDM 訓(xùn)練了 50 個 epoch,用時兩天。

研究者使用兩種設(shè)置評估 AR-LDM,其一是使用自動度量 FID 分?jǐn)?shù)進行定量評估,其二是關(guān)于視覺質(zhì)量、相關(guān)性和一致性的大規(guī)模人工評估。

下表 2 展示了在 PororoSV 上的故事可視化結(jié)果,其中 AR-LDM 取得了重大進步,SOTA FID 分?jǐn)?shù)得分為 16.59,大大低于以前的方法。

d695e71a-751e-11ed-8abf-dac502259ad0.png

img

下圖 4a 中,AR-LDM 能夠生成高質(zhì)量、連貫的視覺故事,同時忠實地再現(xiàn)角色細(xì)節(jié)和背景。圖 4b 中,AR-LDM 可以通過自回歸生成保留場景,例如左側(cè)示例中最后兩幀的背景,以及右側(cè)示例中第三和第四幀中的塊。

d6ae2eb0-751e-11ed-8abf-dac502259ad0.png

img

研究者測試了 AR-LDM 的故事連貫性,結(jié)果如下表 1 所示。AR-LDM 在所有四個數(shù)據(jù)集上都獲得新的 SOTA FID 分?jǐn)?shù)。值得一提的是,AR-LDM 憑借大約一半的參數(shù)優(yōu)于 MEGA-StoryDALL·E。

d6d30550-751e-11ed-8abf-dac502259ad0.png

img

下圖 5 顯示了 FlintstonesSV 和 VIST-SIS 數(shù)據(jù)集上的更多示例,可以觀察到跨幀的場景一致性,例如左上角示例中第三幀和第四幀的窗戶,左下角示例中的海岸場景。

d6eecf06-751e-11ed-8abf-dac502259ad0.png

img

下圖 6 中,與其他方法相比,具有自回歸生成方式的 AR-LDM 可以更好地跨幀保留背景和場景視圖。

d82a9300-751e-11ed-8abf-dac502259ad0.png

img

下圖 7 中,所有帶下劃線的文本都指的是同一個角色(即源幀中戴粉色帽子的男人),而描述不一致。因此,AR-LDM 根據(jù)每一個描述生成三個不同的角色。在對 3-5 幅圖像進行微調(diào)后,自適應(yīng) AR-LDM 可以生成一致的角色,并如字幕所描述的那樣忠實地合成場景和角色。

d870976a-751e-11ed-8abf-dac502259ad0.png

img

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41370

    瀏覽量

    302752
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3834

    瀏覽量

    52291
  • 可視化
    +關(guān)注

    關(guān)注

    1

    文章

    1366

    瀏覽量

    22914

原文標(biāo)題:擴散模型再下一城! 故事配圖這個活可以交給 AI 了

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI Ceph 分布式存儲教程資料大模型學(xué)習(xí)資料2026

    。如何構(gòu)建高性能、高吞吐、高可擴展的 AI 分布式存儲系統(tǒng),已成為解鎖大模型基建能力的核心科技命題。這不僅關(guān)乎數(shù)據(jù)存得下、讀得快,更直接決定 GPU 集群的利用率與模型訓(xùn)練的最終效率
    發(fā)表于 05-01 17:35

    HM博學(xué)谷狂野AI模型第四期

    ,雖然能快速構(gòu)建原型,卻難以觸及智能的邊界。面對模型的幻覺、推理能力的瓶頸以及定制化需求的落空,單純的應(yīng)用層知識顯得蒼白無力。博學(xué)谷“狂野 AI模型第四期”正是為了打破這層技術(shù)天
    發(fā)表于 05-01 17:30

    Java轉(zhuǎn) AI高薪領(lǐng)域必備 從0到1打通生產(chǎn)級AI Agent開發(fā) 教程資料

    “出賣低級代碼勞動力”向“交付高級智能解決方案”的階級躍遷。在這個模型重塑千行百業(yè)的拐點上,誰能率先用工程化的手段將AI能力落地為商業(yè)價值,誰就能在下一輪財富分配中占據(jù)主導(dǎo)權(quán)。與其在
    發(fā)表于 04-29 17:08

    AI模型微調(diào)企業(yè)項目實戰(zhàn)課

    自主可控大模型:企業(yè)微調(diào)實戰(zhàn)課,筑牢未來 AI 底座 在人工智能席卷全球商業(yè)版圖的今天,企業(yè)對大模型(LLM)的態(tài)度已經(jīng)從“新奇觀望”轉(zhuǎn)變?yōu)椤叭鎿肀А薄H欢?,隨著應(yīng)用層面的不斷深入,
    發(fā)表于 04-16 18:48

    Token燒了幾十億,代碼還是團亂!AI原生開發(fā)該怎么管理?

    你與大模型聊天干活的記錄,或許可用于做次新的“MBTI”性格測試。當(dāng)駕馭工程的不少事兒都能交給 AI 工具去做,我們只需要“觀測”與“控制”,迎接“人人都是技術(shù)管理者”的時代。以前,
    發(fā)表于 04-14 19:50

    邊緣AI算力臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值

    ” 。 隨著DeepSeek、LLaMA等開源模型的輕量化演進,以及具身智能、工業(yè)質(zhì)檢對實時性的嚴(yán)苛要求,AI計算正在從云數(shù)據(jù)中心擴散到離數(shù)據(jù)源頭最近的物理世界。在這背景下,
    發(fā)表于 03-10 14:19

    模型 ai coding 比較

    框架:llm-coding-bench v1.0 統(tǒng)代碼執(zhí)行超時:10秒 統(tǒng)隨機種子:42 統(tǒng)裁判模型:DeepSeek-Chat(第三方交叉驗證) ? 綜合評分公式: scss
    發(fā)表于 02-19 13:43

    福田啟明星開創(chuàng)智慧新體驗

    在智慧物流加速滲透的當(dāng)下,輕卡作為運輸?shù)暮诵妮d體,其智能化水平直接決定著運輸效率與安全底線。福田啟明星直面?zhèn)鹘y(tǒng)輕卡在效率與安全上的瓶頸,通過架構(gòu)層面的原生智能革新,徹底改寫純電輕卡智能安全標(biāo)準(zhǔn),為智慧物流注入全新動能。
    的頭像 發(fā)表于 11-12 15:53 ?732次閱讀

    小蘿卜機器人的故事

    , “請給我聯(lián)網(wǎng)” 我的心都碎了, 公司倒閉APP失效, 小蘿卜成了孤兒, 現(xiàn)在的方案是, 用ESP32S3-M0, 替代原來芯片, 實現(xiàn)AI語音運動, 大模型接入, 視像頭連接APP, 0.91液晶屏
    發(fā)表于 10-23 05:24

    AI模型的配置AI模型該怎么做?

    STM32可以AI這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    福田卡文樂迪打造新能源新標(biāo)桿

    隨著新能源滲透率不斷提升,新能源產(chǎn)品已從“政策驅(qū)動”向“技術(shù)驅(qū)動”悄然改變。在物流“效率為王、成本至上”的競爭賽道上,面對“高效運輸”、“靈活裝載”與“重載可靠”的多重挑戰(zhàn),福田卡文樂迪以
    的頭像 發(fā)表于 09-30 14:25 ?955次閱讀

    AI芯片:科技探索與AGI愿景》—— 深入硬件核心的AGI指南

    AI芯片:科技探索與AGI愿景》書如同張詳盡的“藏寶”,為讀者指明了通往下一代人工智能的硬件之路。作者沒有停留在空洞的概念層面,而是
    發(fā)表于 09-17 09:29

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    的不同。隨著AI熱潮的興起,大腦的抽象模型已被提煉成各種的AI算法,并使用半導(dǎo)體芯片技術(shù)加以實現(xiàn)。 而大腦是個由無數(shù)神經(jīng)元通過突觸連接而成的復(fù)雜網(wǎng)絡(luò),是極其復(fù)雜和精密的。大腦在本質(zhì)上
    發(fā)表于 09-06 19:12

    在K230中,如何使用AI Demo中的object_detect_yolov8n,YOLOV8多目標(biāo)檢測模型?

    在K230的AI開發(fā)教程文檔中,可以看到有源碼的AI Demo,其中包括yolov8n模型,在倉庫里可以看到源碼 我想請問各位大佬,如
    發(fā)表于 08-07 06:48
    峨眉山市| 崇明县| 宁河县| 栾城县| 安溪县| 龙南县| 鄄城县| 呼和浩特市| 广元市| 隆安县| 呼玛县| 九龙城区| 芦山县| 开阳县| 广丰县| 清水河县| 六盘水市| 巴彦县| 吉木乃县| 永寿县| 灌南县| 额敏县| 平顺县| 东兰县| 甘德县| 珲春市| 新密市| 桃源县| 图片| 湾仔区| 香河县| 抚顺市| 大石桥市| 广灵县| 澳门| 恩平市| 若尔盖县| 防城港市| 华宁县| 缙云县| 酉阳|