日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何去解決文本到圖像生成的跨模態(tài)對比損失問題?

LiveVideoStack ? 來源:LiveVideoStack ? 作者:Google AI Blog ? 2021-06-15 10:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Google提出了一個跨模態(tài)對比學(xué)習(xí)框架來訓(xùn)練用于文本到圖像合成的 GAN 模型,用于研究解決生成的跨模態(tài)對比損失問題。

從文本到圖像的自動生成,如何訓(xùn)練模型僅通過一段文本描述輸入就能生成具體的圖像,是一項非常具有挑戰(zhàn)性的任務(wù)。

與其它指導(dǎo)圖像創(chuàng)建的輸入類型相比,描述性句子是一種更直觀、更靈活的視覺概念表達方式。強大的自動文本到圖像的生成系統(tǒng)可以成為快速、有效的內(nèi)容生產(chǎn)、制作工具,用于更多具有創(chuàng)造性的應(yīng)用當中。

在CVPR 2021中,Google提出了一個跨模態(tài)對比生成對抗網(wǎng)絡(luò)(XMC-GAN),訓(xùn)練用于文本到圖像合成的 GAN 模型,通過模態(tài)間與模態(tài)內(nèi)的對比學(xué)習(xí)使圖像和文本之間的互信息最大化,解決文本到圖像生成的跨模態(tài)對比損失問題。

poYBAGDIDJ-AfrniAADMgxcEq1k626.jpg

XMC-GAN 文本到圖像合成模型中的模態(tài)間和模態(tài)內(nèi)對比學(xué)習(xí)

XMC-GAN 被成功應(yīng)用于三個具有挑戰(zhàn)性的數(shù)據(jù)集:一個是MS-COCO 圖像描述集合,另外兩個是用Localized Narratives注釋的數(shù)據(jù)集,一個是包括MS-COCO 圖像(稱為LN-COCO) ,另一個描述開放圖像數(shù)據(jù) (LN-OpenImages)。結(jié)果顯示 XMC-GAN生成圖像所描繪的場景相比于使用其它技術(shù)生成的圖像質(zhì)量更高,在每個方面都達到了最先進的水平。

pYYBAGDIDI-AdQkNAAB3Ifj0XNA593.jpg

MS-COCO對圖像質(zhì)量和文本對齊的人工評估

此外,XMC-GAN還在 LN-OpenImages 上進行了一系列訓(xùn)練和評估,這相比于 MS-COCO 更具有挑戰(zhàn)性,由于數(shù)據(jù)集更大,圖像涵蓋主題范圍更加廣泛且復(fù)雜。

對于人類評估和定量指標,XMC-GAN 在多個數(shù)據(jù)集模型中相較之前有顯著的改進??梢陨膳c輸入描述非常匹配的高質(zhì)量圖像,包括更長,更詳細的敘述,同時端到端模型的復(fù)雜度也相對較為簡單,這代表了從自然語言描述生成圖像的創(chuàng)造性應(yīng)用的重大進步。

責任編輯:lq6

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42448
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    21

    文章

    2386

    瀏覽量

    84652

原文標題:XMC-GAN:從文本到圖像的跨模態(tài)對比學(xué)習(xí)

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    《多模態(tài)大模型 前沿算法與實戰(zhàn)應(yīng)用 第一季》精品課程簡介

    ,同時用路徑規(guī)劃模塊生成安全行駛軌跡。 三、全棧開發(fā)的關(guān)鍵挑戰(zhàn)與解決方案 1. 數(shù)據(jù)標注與對齊 不同模態(tài)的數(shù)據(jù)標注成本差異大(如圖像標注成本遠高于文本),可采用弱監(jiān)督學(xué)習(xí):
    發(fā)表于 05-01 17:46

    全面掌握ComfyUI系統(tǒng)教程|94節(jié)從入門進階實戰(zhàn)清單

    碼器)編碼器的精準調(diào)用。原始圖像通過編碼器轉(zhuǎn)化為潛空間張量,而之前生成的掩碼同樣被編碼為潛空間掩碼。在潛空間維度,通過 Denoise(噪強度)參數(shù)的控制,將背景區(qū)域的噪點強度設(shè)為最大,而主體區(qū)域設(shè)為
    發(fā)表于 03-29 16:17

    全球首個最大規(guī)模本體視觸覺多模態(tài)數(shù)據(jù)集白虎-VTouch發(fā)布

    全球首個最大規(guī)模本體視觸覺多模態(tài)數(shù)據(jù)集——白虎-VTouch(Vision-Based Tactile Sensor),總規(guī)模超過60,000分鐘。
    的頭像 發(fā)表于 01-29 14:41 ?831次閱讀

    使用Firebase AI Logic生成圖像模型的兩種新功能

    為您的應(yīng)用添加自定義圖像,能夠顯著改善和個性化用戶體驗,有效提高用戶參與度。本文將探討使用 Firebase AI Logic 生成圖像的兩種新功能: 其一是 Imagen 專屬編輯功能預(yù)覽版;其二
    的頭像 發(fā)表于 11-30 09:28 ?578次閱讀

    格靈深瞳多模態(tài)大模型Glint-ME讓圖文互搜更精準

    在電商、安防等場景下,圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的多模態(tài)表征方法相繼提出,過去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時理解文本、圖像、音頻乃至視頻,實現(xiàn)
    的頭像 發(fā)表于 11-02 15:56 ?1881次閱讀
    格靈深瞳多<b class='flag-5'>模態(tài)</b>大模型Glint-ME讓圖文互搜更精準

    亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型

    的統(tǒng)一嵌入模型,能以行業(yè)頂尖的準確率實現(xiàn)模態(tài)檢索。 當今,企業(yè)正不斷尋求解決方案,以期從文本、圖像、文檔、視頻、音頻等海
    的頭像 發(fā)表于 10-29 17:15 ?390次閱讀
    亞馬遜云科技上線Amazon Nova多<b class='flag-5'>模態(tài)</b>嵌入模型

    米爾RK3576部署端側(cè)多模態(tài)多輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

    細化需求,系統(tǒng)需實時調(diào)整響應(yīng)策略 1.2 多輪對話系統(tǒng)鳥瞰:三顆“核心”協(xié)同驅(qū)動RK3576 多模態(tài)交互對話方案基于 RKLLM 的核心運作,依賴于圖像視覺編碼器、大語言模型與對話管家這三大模塊的協(xié)同
    發(fā)表于 09-05 17:25

    淺析多模態(tài)標注對大模型應(yīng)用落地的重要性與標注實例

    ”的關(guān)鍵工序——多模態(tài)標注重要性日益凸顯。 一、什么是多模態(tài)標注? 多模態(tài)標注是指對文本、圖像、語音、視頻、點云等異構(gòu)數(shù)據(jù)進行
    的頭像 發(fā)表于 09-05 13:49 ?2832次閱讀

    基于米爾瑞芯微RK3576開發(fā)板的Qwen2-VL-3B模型NPU多模態(tài)部署評測

    案例:支持圖像文本交互 步驟 1:環(huán)境準備 步驟 2:模型的獲取、驗證與格式轉(zhuǎn)換 步驟 3:修改代碼并交叉編譯可執(zhí)行文件并上傳到板子上 步驟 4:上傳文件開發(fā)板 性能測試 Tips 多
    發(fā)表于 08-29 18:08

    中國科學(xué)院自動化研究所攜手中科曙光打造高性能工具鏈解決方案

    2019年起,中國科學(xué)院自動化研究所以語音、文本、圖像等單模態(tài)大模型的研究與應(yīng)用為基石,全力攻關(guān)全球首個千億參數(shù)多模態(tài)大模型。如今,相關(guān)產(chǎn)品已突破
    的頭像 發(fā)表于 08-11 11:08 ?1193次閱讀

    關(guān)于鴻蒙App上架中“AI文本生成模塊的資質(zhì)證明文件”的情況說明

    檢查結(jié)果為“通過”或?qū)徍藸顟B(tài)為“審核通過”。 那么對于這個問題,我也是嘗試解決……這里分享一下我了解的情況和方法 首先,這個政策雖然說是針對AI文本生成模塊,但實際上,針對的是所有調(diào)用了AI大模型
    發(fā)表于 06-30 18:37

    邊緣生成式AI面臨哪些工程挑戰(zhàn)?

    本文由TechSugar編譯自electronicdesign當大多數(shù)人想到人工智能(AI)時,他們通常能想到的是能夠生成文本、圖像或語音內(nèi)容的應(yīng)用。像ChatGPT這樣流行的文本應(yīng)
    的頭像 發(fā)表于 06-25 10:44 ?1345次閱讀
    邊緣<b class='flag-5'>生成</b>式AI面臨哪些工程挑戰(zhàn)?

    無法使用OpenVINO?在 GPU 設(shè)備上運行穩(wěn)定擴散文本圖像的原因?

    在OpenVINO? GPU 設(shè)備上使用圖像大小 (1024X576) 運行穩(wěn)定擴散文本圖像,并收到錯誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    利用NVIDIA 3D引導(dǎo)生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術(shù)突飛猛進,從早期模型會生成手指過多的人類圖像,到現(xiàn)在能創(chuàng)造出令人驚嘆的逼真視覺效果。即使取得了如此飛躍,仍然存在一個挑戰(zhàn):實現(xiàn)創(chuàng)意掌控。
    的頭像 發(fā)表于 06-05 09:24 ?1036次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過 Gemini API 訪問 Google 最先進的圖像生成模型 Imagen 3。該模型最初僅對付費用戶開放,不久后也將面向免費用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?1486次閱讀
    东光县| 会理县| 荃湾区| 铜陵市| 保山市| 大石桥市| 祥云县| 阜新市| 尼勒克县| 申扎县| 乌拉特后旗| 左贡县| 延长县| 固阳县| 丹江口市| 宝坻区| 河南省| 南木林县| 襄城县| 阳泉市| 湘潭县| 来安县| 沙洋县| 额尔古纳市| 开化县| 高密市| 赤城县| 阿拉尔市| 龙里县| 佛山市| 斗六市| 宣威市| 岗巴县| 玉田县| 安丘市| 江都市| 怀柔区| 大足县| 抚远县| 衡东县| 砚山县|