日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NüWA多模態(tài)模型支持八大視覺(jué)生成與編輯任務(wù)

微軟科技 ? 來(lái)源:微軟科技 ? 作者:微軟科技 ? 2022-03-11 09:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

小編說(shuō):“自然語(yǔ)言”正在越來(lái)越經(jīng)常地出現(xiàn)在我們的日常生活中。你有沒(méi)有想象過(guò),我們有一天可以使用自然語(yǔ)言對(duì)視覺(jué)內(nèi)容進(jìn)行編輯?微軟亞洲研究院最新推出的多模態(tài)模型 NüWA,不僅讓視覺(jué)內(nèi)容創(chuàng)造多了一條路,甚至還讓 Windows 經(jīng)典桌面有了更多的打開(kāi)方式。人類(lèi)對(duì)于信息的感知有五種途徑,包括視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)、觸覺(jué)和味覺(jué),其中視覺(jué)是接受信息的最主要渠道,也是創(chuàng)造力的源泉。在推動(dòng)人工智能發(fā)展的道路上,計(jì)算機(jī)視覺(jué)已經(jīng)成為一個(gè)重要的研究領(lǐng)域,尤其是近幾年視覺(jué)創(chuàng)作類(lèi)應(yīng)用的頻繁涌現(xiàn),讓創(chuàng)作變得越來(lái)越便捷,越來(lái)越多的用戶(hù)可以用這些工具制作和分享身邊的美好生活。與此同時(shí),視覺(jué)類(lèi)應(yīng)用的廣泛使用也促進(jìn)了計(jì)算機(jī)視覺(jué)領(lǐng)域的研究。

然而,盡管這些工具功能強(qiáng)大,但仍有不足之處:其一,它們需要?jiǎng)?chuàng)作者手動(dòng)收集和處理視覺(jué)素材,導(dǎo)致現(xiàn)有的大規(guī)模視覺(jué)數(shù)據(jù)中所包含的視覺(jué)知識(shí)無(wú)法自動(dòng)地有效利用。其二,這些工具往往是通過(guò)圖形界面與創(chuàng)作者交互,并非自然語(yǔ)言指令,因此對(duì)于一些用戶(hù)來(lái)說(shuō),具有一定的技術(shù)門(mén)檻,他們需要擁有豐富的使用經(jīng)驗(yàn)。在微軟亞洲研究院看來(lái),下一代可視化內(nèi)容創(chuàng)建工具應(yīng)該能夠利用大數(shù)據(jù)、AI 模型幫助用戶(hù)更便捷地進(jìn)行內(nèi)容創(chuàng)作,并使用自然語(yǔ)言作為更加友好的交互界面。

在這樣的理念下,微軟亞洲研究院在視頻生成預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行再創(chuàng)新,開(kāi)發(fā)了多模態(tài)的 NüWA(Neural visUal World creAtion)模型。通過(guò)自然語(yǔ)言指令,NüWA 可以實(shí)現(xiàn)文本、圖像、視頻之間的生成、轉(zhuǎn)換和編輯,幫助視覺(jué)內(nèi)容創(chuàng)作者降低技術(shù)門(mén)檻,提高創(chuàng)造力。同時(shí),開(kāi)發(fā)者也可以利用 NüWA 構(gòu)建基于 AI 的視覺(jué)內(nèi)容創(chuàng)造平臺(tái)。

支持八大視覺(jué)生成與編輯任務(wù)

NüWA 目前支持八大視覺(jué)生成和編輯任務(wù)。其中,支持圖像的四類(lèi)任務(wù)包括:文本到圖像,草圖到圖像,圖像補(bǔ)全,圖像編輯;支持視頻的四類(lèi)任務(wù)包括:文本到視頻,視頻草圖到視頻,視頻預(yù)測(cè),視頻編輯。下面,讓我們以 Windows 經(jīng)典桌面為例,試一下 NüWA 的幾個(gè)功能。

給定一張?jiān)紙D片;

讓 NüWA 將圖片補(bǔ)全為256x256(圖像補(bǔ)全);

讓 NüWA 在圖片的紅框位置處添加“一匹在草地上行走的馬”(圖像編輯);

讓 NüWA 將這張圖片生成為一個(gè)能“動(dòng)”起來(lái)的視頻(視頻預(yù)測(cè))。

NüWA-LIP:讓視覺(jué)編輯更精細(xì)

NüWA 模型已基本包含了視覺(jué)創(chuàng)作的核心流程,可在一定程度上輔助創(chuàng)作者提升效率,但在實(shí)際創(chuàng)作中,創(chuàng)作者還有很多多樣且高質(zhì)量的需求。為此,微軟亞洲研究院的研究員們?cè)?NüWA 的基礎(chǔ)之上更新迭代,于近日提出了 NüWA-LIP 模型,并且在視覺(jué)領(lǐng)域的典型任務(wù)——缺陷圖像修復(fù)中取得了新突破。盡管此前也有方法完成了類(lèi)似的圖像修復(fù),但是模型的創(chuàng)作卻比較隨意,無(wú)法符合創(chuàng)作者的意愿,而 NüWA LIP 幾乎可以按照給定的自然語(yǔ)言指令修復(fù)、補(bǔ)全成人們?nèi)庋劭山邮艿膱D像。下面,讓我們直觀感受一下 NüWA-LIP 神奇的圖像修復(fù)效果。圖2給出了兩個(gè)例子。第一個(gè)例子是希望模型可以按照“Racers riding four wheelers while a crowd watches”(一群人在看摩托車(chē)手騎四輪車(chē))來(lái)補(bǔ)全黑色區(qū)域。已有工作 GLIDE 雖然可以補(bǔ)全,但是可以看到邊界處有明顯的白線(xiàn),并且補(bǔ)全的區(qū)域比較模糊。NüWA 模型使用自回歸的方式從左到右依次掃描生成,邊界處相比于 GLIDE 更加自然。但是由于在補(bǔ)全黑色區(qū)域時(shí)看不到右側(cè)的車(chē)輪,因此標(biāo)準(zhǔn)的 NüWA 模型存在補(bǔ)全邊界銜接不對(duì)的問(wèn)題。NüWA-LIP 修復(fù)了 NüWA 這一不足,它會(huì)提前預(yù)看整個(gè)圖像,并創(chuàng)新地使用無(wú)損編碼技術(shù),然后再自回歸地生成,因此可以做到黑色區(qū)域邊界處銜接自然,并且補(bǔ)全區(qū)域也很清晰。

NüWA-Infinity:讓視覺(jué)創(chuàng)作趨于 “無(wú)限流”

除了圖像修復(fù)之外,微軟亞洲研究院在高分辨率、大圖像的橫向延展方面也進(jìn)行了持續(xù)研究,提出了 NüWA Infinity 模型。顧名思義,NüWA Infinity 可以根據(jù)給定的圖像生成無(wú)限連續(xù)的高清“大片”?!耙婚_(kāi)始 NüWA 能夠生成、編輯的圖像和視頻的分辨率相對(duì)較低,一般是256×256分辨率的小圖。我們希望通過(guò)模型可以生成更高清的大圖,形成更大的視覺(jué)沖擊,滿(mǎn)足不同創(chuàng)作者的實(shí)際需求。簡(jiǎn)單來(lái)說(shuō),NüWA Infinity 會(huì)根據(jù)圖像的不同層次內(nèi)容掃描每一幀窗口,不斷渲染形成高像素、連續(xù)的大圖,”微軟亞洲研究院研究員吳晨飛介紹說(shuō)。想知道 Windows 經(jīng)典桌面的右側(cè)是什么樣么?點(diǎn)擊下圖,NüWA-Infinity 為你“揭開(kāi)”神秘面紗。

段楠補(bǔ)充說(shuō),“表面看 NüWA Infinity 解決了之前 NüWA 生成圖片不高清,以及視頻幀數(shù)有限的問(wèn)題。但其實(shí) NüWA Infinity 從底層形成了一套生成機(jī)制,不僅可以對(duì)圖片進(jìn)行延展式的生成,也可以應(yīng)用于視頻預(yù)測(cè)創(chuàng)作,而這也是我們接下來(lái)要攻克的研究課題?!?/p>

自此,NüWA-LIP 讓機(jī)器接受語(yǔ)言指令自動(dòng)修圖成為了可能,而 NüWA-Infinity 則使得圖像生成質(zhì)量向高清、無(wú)限的真實(shí)世界邁進(jìn)了一大步。按照這樣的迭代創(chuàng)新步伐,未來(lái)創(chuàng)作者擁有一套趨于“無(wú)限流”的視覺(jué)創(chuàng)作輔助工具,指日可待。

段楠補(bǔ)充說(shuō),“表面看 NüWA Infinity 解決了之前 NüWA 生成圖片不高清,以及視頻幀數(shù)有限的問(wèn)題。但其實(shí) NüWA Infinity 從底層形成了一套生成機(jī)制,不僅可以對(duì)圖片進(jìn)行延展式的生成,也可以應(yīng)用于視頻預(yù)測(cè)創(chuàng)作,而這也是我們接下來(lái)要攻克的研究課題?!?/p>

自此,NüWA-LIP 讓機(jī)器接受語(yǔ)言指令自動(dòng)修圖成為了可能,而 NüWA-Infinity 則使得圖像生成質(zhì)量向高清、無(wú)限的真實(shí)世界邁進(jìn)了一大步。按照這樣的迭代創(chuàng)新步伐,未來(lái)創(chuàng)作者擁有一套趨于“無(wú)限流”的視覺(jué)創(chuàng)作輔助工具,指日可待。

NüWA 在八大任務(wù)中的效果

NüWA 多模態(tài)模型連鎖反應(yīng):或?qū)?lái)更多“殺手級(jí)”應(yīng)用

微軟亞洲研究院高級(jí)研究員段楠表示,“NüWA 是第一個(gè)多模態(tài)預(yù)訓(xùn)練模型。我們希望 NüWA 可以實(shí)現(xiàn)真實(shí)世界的視頻生成,但在訓(xùn)練過(guò)程中模型會(huì)產(chǎn)生大量的‘中間變量’,消耗巨大的顯存、計(jì)算等資源。因此,NüWA 團(tuán)隊(duì)與系統(tǒng)組的同事們聯(lián)手協(xié)作,為 NüWA 在系統(tǒng)架構(gòu)上設(shè)置了多種并行機(jī)制,如張量并行、管道并行和數(shù)據(jù)并行,使得我們的跨模態(tài)訓(xùn)練成為可能?!?/p>

未來(lái),隨著人工智能技術(shù)的發(fā)展,增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)等沉浸式的人機(jī)交互界面將會(huì)得到更廣泛的應(yīng)用,數(shù)字世界和物理世界的結(jié)合也將越來(lái)越緊密。而不同類(lèi)型的多模態(tài)內(nèi)容則是拉近虛擬空間與現(xiàn)實(shí)世界的強(qiáng)力膠,因此,虛擬內(nèi)容的創(chuàng)建、編輯和交互將至關(guān)重要。NüWA 提供的視覺(jué)內(nèi)容生成和編輯技術(shù),為這些應(yīng)用提供了無(wú)限的想象空間。當(dāng)多模態(tài)技術(shù)成為未來(lái)人工智能應(yīng)用發(fā)展的方向時(shí),多模態(tài)模型將會(huì)為學(xué)習(xí)、廣告、新聞、會(huì)議、娛樂(lè)、社交網(wǎng)絡(luò)、數(shù)字人、腦機(jī)交互等領(lǐng)域帶來(lái)更多的下一代“殺手級(jí)”應(yīng)用。

原文標(biāo)題:用一句話(huà),讓AI畫(huà)一匹馬是什么體驗(yàn)?

文章出處:【微信公眾號(hào):微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7349

    瀏覽量

    95060
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41370

    瀏覽量

    302750
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3834

    瀏覽量

    52291

原文標(biāo)題:用一句話(huà),讓AI畫(huà)一匹馬是什么體驗(yàn)?

文章出處:【微信號(hào):mstech2014,微信公眾號(hào):微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模態(tài)模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第一季》精品課程簡(jiǎn)介

    模態(tài)選擇 :根據(jù)任務(wù)需求自動(dòng)選擇最優(yōu)模態(tài)組合。例如在低光照?qǐng)鼍跋拢?b class='flag-5'>模型會(huì)優(yōu)先依賴(lài)激光雷達(dá)而非攝像頭進(jìn)行感知。 具身智能 :結(jié)合機(jī)器人實(shí)體,實(shí)現(xiàn)視覺(jué)
    發(fā)表于 05-01 17:46

    人工智能模態(tài)視覺(jué)模型開(kāi)發(fā)實(shí)戰(zhàn) - 2026必會(huì)

    和訓(xùn)練,模型可以逐漸提升對(duì)圖像的理解能力,實(shí)現(xiàn)對(duì)各種視覺(jué)任務(wù)的精準(zhǔn)處理。 此外,視覺(jué)模型的發(fā)展還得益于大規(guī)模數(shù)據(jù)集和強(qiáng)大計(jì)算資源的
    發(fā)表于 04-15 16:06

    商湯科技NEO-unify如何打造原生視覺(jué)語(yǔ)言理解與生成

    當(dāng)前,模態(tài)模型普遍采用“視覺(jué)編碼器(VE)用于理解,變分自編碼器(VAE)用于生成”的組合式設(shè)計(jì)。這套范式雖行之有效,卻也內(nèi)在割裂了感知與
    的頭像 發(fā)表于 03-10 14:37 ?442次閱讀
    商湯科技NEO-unify如何打造原生<b class='flag-5'>視覺(jué)</b>語(yǔ)言理解與<b class='flag-5'>生成</b>

    商湯開(kāi)源SenseNova-MARS:突破模態(tài)搜索推理天花板

    )、GPT-5.2(67.64 分)。 SenseNova-MARS是首個(gè)支持動(dòng)態(tài)視覺(jué)推理和圖文搜索深度融合的 Agentic VLM 模型,它能自己規(guī)劃步驟、調(diào)用工具,輕松搞定各種復(fù)雜任務(wù)
    的頭像 發(fā)表于 01-29 23:53 ?276次閱讀
    商湯開(kāi)源SenseNova-MARS:突破<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>搜索推理天花板

    商湯科技日日新V6.5榮獲2025年模態(tài)模型全國(guó)第一

    近日,權(quán)威大模型評(píng)測(cè)基準(zhǔn) SuperCLUE 發(fā)布《中文模態(tài)視覺(jué)語(yǔ)言模型測(cè)評(píng)基準(zhǔn)12月報(bào)告》,商湯日日新V6.5(SenseNova V6
    的頭像 發(fā)表于 01-06 14:44 ?966次閱讀
    商湯科技日日新V6.5榮獲2025年<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>全國(guó)第一

    模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng)的應(yīng)用與未來(lái)發(fā)展

    ? ? 模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng) ? ?北京華盛恒輝模態(tài)感知大模型驅(qū)動(dòng)的密閉
    的頭像 發(fā)表于 12-29 11:27 ?492次閱讀

    商湯科技正式發(fā)布并開(kāi)源全新模態(tài)模型架構(gòu)NEO

    商湯科技正式發(fā)布并開(kāi)源了與南洋理工大學(xué)S-Lab合作研發(fā)的全新模態(tài)模型架構(gòu) —— NEO,為日日新SenseNova 模態(tài)
    的頭像 發(fā)表于 12-08 11:19 ?1203次閱讀
    商湯科技正式發(fā)布并開(kāi)源全新<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>模型</b>架構(gòu)NEO

    亞馬遜云科技上線(xiàn)Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線(xiàn),這是一款專(zhuān)為Agentic RAG與語(yǔ)義搜索應(yīng)用打造的頂尖模態(tài)
    的頭像 發(fā)表于 10-29 17:15 ?395次閱讀
    亞馬遜云科技上線(xiàn)Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入<b class='flag-5'>模型</b>

    商湯日日新V6.5模態(tài)模型登頂全球權(quán)威榜單

    根據(jù)權(quán)威評(píng)測(cè)平臺(tái)OpenCompass模態(tài)模型學(xué)術(shù)榜單(Multi-modal Academic Leaderboard)最新數(shù)據(jù)顯示,商湯「日日新 V6.5」(SenseNova-V6.5
    的頭像 發(fā)表于 09-10 09:55 ?967次閱讀

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話(huà),6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    加載 → 圖片預(yù)處理 → 用戶(hù)交互 → 推理輸出”的核心流程,支持圖文一體的模態(tài)對(duì)話(huà),適配輪問(wèn)答、視覺(jué)問(wèn)答等典型場(chǎng)景。 具體運(yùn)行機(jī)制可拆
    發(fā)表于 09-05 17:25

    淺析模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ?在人工智能邁向AGI通用智能的關(guān)鍵道路上,大模型正從單一的文本理解者,演進(jìn)為能同時(shí)看、聽(tīng)、讀、想的“多面手”。驅(qū)動(dòng)這一進(jìn)化的核心燃料,正是高質(zhì)量的模態(tài)數(shù)據(jù),而將原始數(shù)據(jù)轉(zhuǎn)化為“機(jī)器可讀教材
    的頭像 發(fā)表于 09-05 13:49 ?2839次閱讀

    基于米爾瑞芯微RK3576開(kāi)發(fā)板的Qwen2-VL-3B模型NPU模態(tài)部署評(píng)測(cè)

    這類(lèi)模態(tài)模型支持圖像和文本交互)中,“視覺(jué) + 投影”(Vision + Projector)是
    發(fā)表于 08-29 18:08

    研華科技攜手創(chuàng)新奇智推出模態(tài)模型AI一體機(jī)

    這是一款基于研華高性能邊緣計(jì)算平臺(tái)MIC-733,深度集成創(chuàng)新奇智視覺(jué)模型模態(tài)模型的邊緣智能終端,通過(guò)創(chuàng)新的“
    的頭像 發(fā)表于 07-17 17:14 ?1097次閱讀
    研華科技攜手創(chuàng)新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>AI一體機(jī)

    NVIDIA助力圖靈新訊美推出企業(yè)級(jí)模態(tài)視覺(jué)模型融合解決方案

    中國(guó)推出企業(yè)級(jí)模態(tài)視覺(jué)模型融合解決方案,推動(dòng)先進(jìn) AI 模型在交通治理、工業(yè)質(zhì)檢、金融風(fēng)控等領(lǐng)域?qū)崿F(xiàn)高效識(shí)別、精準(zhǔn)預(yù)警和穩(wěn)定交付。
    的頭像 發(fā)表于 06-26 09:17 ?1554次閱讀

    商湯日日新SenseNova融合模態(tài)模型 國(guó)內(nèi)首家獲得最高評(píng)級(jí)的大模型

    近日,中國(guó)信息通信研究院(以下簡(jiǎn)稱(chēng)“中國(guó)信通院”)完成可信AI模態(tài)模型首輪評(píng)估。 商湯日日新SenseNova融合模態(tài)模型在所有
    的頭像 發(fā)表于 06-11 11:57 ?1591次閱讀
    武隆县| 高邑县| 余庆县| 慈溪市| 无棣县| 都昌县| 青田县| 南陵县| 遵义市| 文水县| 永安市| 故城县| 岳普湖县| 浮梁县| 和平县| 马边| 台北县| 堆龙德庆县| 清水县| 蕲春县| 克拉玛依市| 商南县| 太仓市| 疏勒县| 白银市| 商洛市| 项城市| 黎城县| 安康市| 廉江市| 木里| 满洲里市| 沅江市| 华池县| 疏附县| 澎湖县| 南川市| 东海县| 衡山县| 嘉鱼县| 永清县|