日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

麻省大學(xué)研發(fā)MakeItTalk:如何讓圖片開(kāi)口“說(shuō)話”

如意 ? 來(lái)源:新智元 ? 作者:佚名 ? 2020-10-20 16:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近,麻省大學(xué)Amherst分校的Yang Zhou博士和他的團(tuán)隊(duì)提出了一種具有深度結(jié)構(gòu)的新方法「MakeItTalk」。給定一個(gè)音頻語(yǔ)音信號(hào)和一個(gè)人像圖像作為輸入,模型便會(huì)生成說(shuō)話人感知的有聲動(dòng)畫(huà)圖。

富有表現(xiàn)力的動(dòng)畫(huà)誰(shuí)都想要!

面部動(dòng)畫(huà)在很多領(lǐng)域都是一項(xiàng)關(guān)鍵技術(shù),比如制作電影、視頻流、電腦游戲、虛擬化身等等。

盡管在技術(shù)上取得了無(wú)數(shù)的成就,但是創(chuàng)造逼真的面部動(dòng)畫(huà)仍然是計(jì)算機(jī)圖形學(xué)的挑戰(zhàn)。

一是整個(gè)面部表情包含了完整面部各部分之間的相互關(guān)系,面部運(yùn)動(dòng)和語(yǔ)音之間的協(xié)同是一項(xiàng)艱巨的任務(wù),因?yàn)槊娌縿?dòng)態(tài)在高維多重影像中占主導(dǎo)地位,其中頭部姿勢(shì)最為關(guān)鍵。

二是多個(gè)說(shuō)話人會(huì)有不同的說(shuō)話方式,控制嘴唇一致,不足以了解說(shuō)話的人的性格,還要表達(dá)不同的個(gè)性。

針對(duì)上述問(wèn)題,Yang Zhou博士和他的團(tuán)隊(duì)提出了一種具有深度結(jié)構(gòu)的新方法「 MakeItTalk」。

這是一種具有深度架構(gòu)的新方法,只需要一個(gè)音頻和一個(gè)面部圖像作為輸入,程序就會(huì)輸出一個(gè)逼真的「說(shuō)話的頭部動(dòng)畫(huà)」。

下面,我們就來(lái)看看,MakeItTalk的是如何讓圖片「說(shuō)話」的。

都給我開(kāi)口說(shuō)話!神奇的 MakeItTalk 是什么?

MakeItTalk是一個(gè)新的深度學(xué)習(xí)為基礎(chǔ)的架構(gòu),能夠識(shí)別面部標(biāo)志、下巴、頭部姿勢(shì)、眉毛、鼻子,并切能夠通過(guò)聲音的刺激使嘴唇發(fā)生變化。

模型以LSTM 和 CNN 為基礎(chǔ),可以根據(jù)說(shuō)話人的音調(diào)和內(nèi)容,讓面部表情和頭部產(chǎn)生隨動(dòng)。

本質(zhì)上, MakeItTalk將輸入音頻信號(hào)中的內(nèi)容和說(shuō)話人分離出來(lái),從產(chǎn)生的抽象表示中提取出對(duì)應(yīng)的動(dòng)畫(huà)。

而嘴唇和相鄰面部的協(xié)同也尤為重要。說(shuō)話者的信息被用來(lái)獲取其他面部表情和頭部動(dòng)作,而這些對(duì)于生成富有表現(xiàn)力的頭部動(dòng)畫(huà)是必需的。

MakeItTalk模型既可以生成逼真的人臉說(shuō)話圖像,也可以生成非逼真的卡通說(shuō)話圖像。

聲音+圖像=「開(kāi)口說(shuō)話」?MakeItTalk是如何做到的?

下面的圖表顯示了生成逼真的說(shuō)話頭像的完整方法和途徑:

(1)一個(gè)音頻剪輯和一個(gè)單一的面部圖像可以制作一個(gè)與音頻協(xié)調(diào)的,能感知說(shuō)話者的頭部動(dòng)畫(huà)。

(2)在訓(xùn)練階段,使用現(xiàn)成的人臉檢測(cè)器對(duì)輸入的視頻進(jìn)行預(yù)處理,提取標(biāo)記,從輸入的音頻中訓(xùn)練基礎(chǔ)模型,實(shí)現(xiàn)語(yǔ)音內(nèi)容轉(zhuǎn)動(dòng)畫(huà)和標(biāo)記的精確提取。

(3)為了獲得高精度的運(yùn)動(dòng),通過(guò)對(duì)輸入音頻信號(hào)的分離內(nèi)容和說(shuō)話人嵌入來(lái)檢測(cè)標(biāo)記點(diǎn)的估計(jì)。為此,采用語(yǔ)音轉(zhuǎn)換神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音內(nèi)容進(jìn)行提取,發(fā)現(xiàn)語(yǔ)音內(nèi)容。

(4)內(nèi)容與說(shuō)話者無(wú)關(guān),并且捕獲了嘴唇和相鄰部位的常見(jiàn)運(yùn)動(dòng),其中說(shuō)話內(nèi)容調(diào)節(jié)了動(dòng)作的特征和說(shuō)話者頭部動(dòng)作的剩余部分。

(5)嘴唇的大小和形狀隨著眼睛、鼻子和頭部的運(yùn)動(dòng)而擴(kuò)大,這取決于誰(shuí)說(shuō)了這個(gè)詞,也就是說(shuō)話人身份。

(6)最后,為了生成轉(zhuǎn)換后的圖像,MakeItTalk采用了兩種算法進(jìn)行標(biāo)記到圖像的合成:

對(duì)于非真實(shí)感的圖像,如畫(huà)布藝術(shù)或矢量藝術(shù),一個(gè)特定的畸變方法是在 Delaunay triangulation 的基礎(chǔ)上部署;

對(duì)于真實(shí)感圖像,構(gòu)建一個(gè)圖像到圖像的轉(zhuǎn)換網(wǎng)絡(luò)(與 pix2pix 相同) ,直接轉(zhuǎn)換自然人臉。

最后,混合所有的圖像幀和音頻共同生成頭部動(dòng)畫(huà)。

作者簡(jiǎn)介

該項(xiàng)目的作者本科畢業(yè)于上海交通大學(xué)電子工程系,然后在喬治亞理工學(xué)院獲得了碩士學(xué)位,現(xiàn)在是馬薩諸塞大學(xué)阿默斯特分校計(jì)算機(jī)圖形學(xué)科學(xué)研究小組的一名計(jì)算機(jī)科學(xué)博士生。

Yang Zhou在計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域工作。主要致力于用深度學(xué)習(xí)技術(shù)來(lái)幫助藝術(shù)家、造型師和動(dòng)畫(huà)師做出更好的設(shè)計(jì)。

如果也想給你的設(shè)計(jì)加點(diǎn)AI的基因,Yang Zhou的論文列表絕對(duì)是個(gè)不錯(cuò)的選擇,有很多關(guān)于動(dòng)畫(huà)生成和多模態(tài)深度學(xué)習(xí)的研究。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 音頻
    +關(guān)注

    關(guān)注

    31

    文章

    3230

    瀏覽量

    86403
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3835

    瀏覽量

    52293
  • 圖片
    +關(guān)注

    關(guān)注

    0

    文章

    203

    瀏覽量

    16618
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    2026AI互動(dòng)課:GKKAI變“主講”,PPT開(kāi)口說(shuō)話并答疑只是開(kāi)始?

    經(jīng)歷了一個(gè)漫長(zhǎng)的“拼湊時(shí)代”:教師們習(xí)慣于用A工具寫(xiě)教案,用B工具做圖片,再用數(shù)字人視頻工具拼湊出課件。然而,這種模式并未真正觸及教育的核心——講課與答疑這些高耗能環(huán)節(jié),依然嚴(yán)重依賴(lài)體力輸出。 近期,隨著以萌科 GKK,清華大學(xué)
    的頭像 發(fā)表于 04-28 14:37 ?76次閱讀

    ETHERNET IP轉(zhuǎn)MODBUS RTU:羅克韋爾對(duì)臺(tái)達(dá)“開(kāi)口說(shuō)話”的巴掌翻譯官

    ETHERNET IP轉(zhuǎn)MODBUS RTU:羅克韋爾對(duì)臺(tái)達(dá)“開(kāi)口說(shuō)話”的巴掌翻譯官 某化工廠的設(shè)備車(chē)間里,羅克韋爾PLC與臺(tái)達(dá)變頻器面面相覷——一個(gè)講著EtherNet/IP,一個(gè)只認(rèn)
    的頭像 發(fā)表于 04-14 14:21 ?158次閱讀
    ETHERNET IP轉(zhuǎn)MODBUS RTU:<b class='flag-5'>讓</b>羅克韋爾對(duì)臺(tái)達(dá)“<b class='flag-5'>開(kāi)口說(shuō)話</b>”的巴掌翻譯官

    語(yǔ)音芯片是如何機(jī)器“開(kāi)口說(shuō)話”的?一文讀懂語(yǔ)音芯片工作原理及選型指南

    在智能家居設(shè)備應(yīng)聲而動(dòng)、車(chē)載導(dǎo)航精準(zhǔn)報(bào)出路口、電子玩具發(fā)出悅耳聲音的每一個(gè)瞬間,你是否好奇:這些機(jī)器究竟是如何“開(kāi)口說(shuō)話”的?答案就藏在一枚枚看似不起眼卻功能強(qiáng)大的語(yǔ)音芯片之中。今天,我們就從
    的頭像 發(fā)表于 04-14 08:59 ?161次閱讀
    語(yǔ)音芯片是如何<b class='flag-5'>讓</b>機(jī)器“<b class='flag-5'>開(kāi)口說(shuō)話</b>”的?一文讀懂語(yǔ)音芯片工作原理及選型指南

    WT2003B單芯片:如何刷牙這件小事,變得不一樣!

    當(dāng)電動(dòng)牙刷學(xué)會(huì)"開(kāi)口說(shuō)話"——WT2003B單芯片如何刷牙這件小事,變得不一樣小伙伴們,又到了我們的#唯創(chuàng)WT語(yǔ)音芯片小講堂時(shí)間!今天我們要聊的,是一個(gè)每天都會(huì)發(fā)生在你浴室
    的頭像 發(fā)表于 03-26 18:04 ?238次閱讀
    WT2003B單芯片:如何<b class='flag-5'>讓</b>刷牙這件小事,變得不一樣!

    給設(shè)備裝個(gè) “麥克風(fēng)”:沉默的機(jī)器開(kāi)口說(shuō)話,數(shù)據(jù)全采集

    工業(yè)數(shù)字化轉(zhuǎn)型的核心,從來(lái)不是追求復(fù)雜技術(shù),而是數(shù)據(jù)產(chǎn)生價(jià)值。給設(shè)備裝“麥克風(fēng)”,本質(zhì)是打通設(shè)備與運(yùn)維人員的溝通通道,沉默的機(jī)器主動(dòng)傳遞運(yùn)行信號(hào),用精準(zhǔn)數(shù)據(jù)替代經(jīng)驗(yàn)判斷。
    的頭像 發(fā)表于 01-16 10:50 ?319次閱讀
    給設(shè)備裝個(gè) “麥克風(fēng)”:<b class='flag-5'>讓</b>沉默的機(jī)器<b class='flag-5'>開(kāi)口說(shuō)話</b>,數(shù)據(jù)全采集

    設(shè)備運(yùn)維管理平臺(tái)工廠設(shè)備高效運(yùn)轉(zhuǎn)

    、停機(jī)損失大”的惡性循環(huán)。對(duì)此,數(shù)之能提供設(shè)備運(yùn)維管理平臺(tái)解決方案,推動(dòng)工廠運(yùn)維從“被動(dòng)救火”向“主動(dòng)防控”全面升級(jí)。 從被動(dòng)搶修到主動(dòng)預(yù)防:設(shè)備"開(kāi)口說(shuō)話" 傳統(tǒng)運(yùn)維依賴(lài)人工巡檢與經(jīng)驗(yàn)判斷,故障響應(yīng)往往滯后。設(shè)備
    的頭像 發(fā)表于 01-06 14:02 ?309次閱讀
    設(shè)備運(yùn)維管理平臺(tái)<b class='flag-5'>讓</b>工廠設(shè)備高效運(yùn)轉(zhuǎn)

    釘釘正式開(kāi)源HarmonyOS圖片編輯組件

    近日,由釘釘團(tuán)隊(duì)自主研發(fā)的“HarmonyOS圖片編輯組件”正式上線OpenHarmony三方庫(kù)中心倉(cāng)并開(kāi)源。作為一款填補(bǔ)鴻蒙社區(qū)圖像處理領(lǐng)域空白的重量級(jí)組件,該方案基于HarmonyOS
    的頭像 發(fā)表于 01-05 09:58 ?699次閱讀

    芯知識(shí)|語(yǔ)音芯片是如何機(jī)器“開(kāi)口說(shuō)話”的?

    在智能音箱回應(yīng)你的詢問(wèn)、車(chē)載導(dǎo)航提示你轉(zhuǎn)彎、甚至醫(yī)療設(shè)備發(fā)出清晰提醒的瞬間,你是否曾好奇,這些機(jī)器是如何“開(kāi)口說(shuō)話”的?其背后的核心功臣,正是一枚枚精巧的語(yǔ)音芯片。它如同一個(gè)高度集成的“聲音翻譯官
    的頭像 發(fā)表于 12-29 09:05 ?469次閱讀
    芯知識(shí)|語(yǔ)音芯片是如何<b class='flag-5'>讓</b>機(jī)器“<b class='flag-5'>開(kāi)口說(shuō)話</b>”的?

    選擇開(kāi)口式互感器時(shí)要考慮哪些因素?

    選擇開(kāi)口式互感器需圍繞測(cè)量準(zhǔn)確性、安裝適配性、環(huán)境耐受性三大核心,確保其既能精準(zhǔn)采集數(shù)據(jù),又能安全穩(wěn)定運(yùn)行。
    的頭像 發(fā)表于 10-27 18:15 ?1499次閱讀

    語(yǔ)音播報(bào)芯片:產(chǎn)品“開(kāi)口說(shuō)話”的秘密

    個(gè)語(yǔ)音播報(bào),收款24元等等。不知道大家發(fā)現(xiàn)沒(méi)有會(huì)“說(shuō)話”的產(chǎn)品越來(lái)越多了,不僅僅是聲音播放,還可以進(jìn)行語(yǔ)音交互也就是大家說(shuō)的AI對(duì)話芯片,下面小編將會(huì)帶大家一起了解語(yǔ)音播報(bào)背后的那些芯片。 ? 機(jī)器發(fā)出固定聲音
    的頭像 發(fā)表于 09-28 09:28 ?748次閱讀
    語(yǔ)音播報(bào)芯片:<b class='flag-5'>讓</b>產(chǎn)品“<b class='flag-5'>開(kāi)口說(shuō)話</b>”的秘密

    二次元玩具 “開(kāi)口說(shuō)話”!N9400 芯片為你的周邊注入靈魂

    還在為二次元周邊玩具缺乏互動(dòng)感發(fā)愁?想手辦、盲盒、扭蛋自帶角色原聲卻被成本卡住?廣州九芯電子——深耕電子芯片15年的源頭工廠,帶著爆款語(yǔ)音播放芯片N9400來(lái)了!專(zhuān)為二次元玩具廠家量身定制,用硬核
    的頭像 發(fā)表于 08-13 14:03 ?935次閱讀
    <b class='flag-5'>讓</b>二次元玩具 “<b class='flag-5'>開(kāi)口說(shuō)話</b>”!N9400 芯片為你的周邊注入靈魂

    智能家居 “聲” 臨其境:NRK3301 芯片如何家電 “會(huì)說(shuō)話” 更 “懂人心”?

    打造的芯片,不僅家電“會(huì)說(shuō)話”,更能讓聲音交互精準(zhǔn)觸達(dá)生活需求。一顆芯片藏著的交互智慧NRK3301雖采用8腳緊湊設(shè)計(jì),卻搭載了超出同類(lèi)產(chǎn)品的硬核配置:支持MP
    的頭像 發(fā)表于 08-08 09:05 ?1009次閱讀
    智能家居 “聲” 臨其境:NRK3301 芯片如何<b class='flag-5'>讓</b>家電 “會(huì)<b class='flag-5'>說(shuō)話</b>” 更 “懂人心”?

    協(xié)議轉(zhuǎn)換魔法師”:Modbus轉(zhuǎn)Profinet網(wǎng)關(guān)如何變頻器“開(kāi)口說(shuō)話

    登場(chǎng)!它就像一位精通多種語(yǔ)言的翻譯官,能夠把Modbus協(xié)議的“方言”準(zhǔn)確地翻譯成Profinet協(xié)議的“官方語(yǔ)言”,變頻器和控制系統(tǒng)能夠愉快地交流起來(lái)。 想象一下,變頻器就像一個(gè)只會(huì)說(shuō)中文的“技術(shù)宅
    發(fā)表于 07-25 15:31

    南京工業(yè)大學(xué):仿生觸覺(jué)傳感系統(tǒng)機(jī)器人擁有“人類(lèi)指尖”般的細(xì)膩感知

    宏博士,聯(lián)合南開(kāi)大學(xué)、復(fù)旦大學(xué)、金陵科技學(xué)院等單位眾多合作者,在《Advanced Materials》發(fā)表重磅研究成果,研發(fā)出一種仿生紡織觸覺(jué)傳感器及系統(tǒng),首次在單一器件中實(shí)現(xiàn)靜態(tài)力與動(dòng)態(tài)振動(dòng)的高精度同步感知,
    的頭像 發(fā)表于 06-14 17:32 ?1067次閱讀
    南京工業(yè)<b class='flag-5'>大學(xué)</b>:仿生觸覺(jué)傳感系統(tǒng)<b class='flag-5'>讓</b>機(jī)器人擁有“人類(lèi)指尖”般的細(xì)膩感知

    會(huì)“說(shuō)話”的空氣管家:NRK3301加濕器音箱秒變智能生活中樞

    告別繁瑣操作,一句‘打開(kāi)加濕器’就能享受舒適濕度,NRK3301語(yǔ)音模塊加濕器音箱秒懂你的需求,智能生活從此開(kāi)口即來(lái)。
    的頭像 發(fā)表于 06-12 15:11 ?981次閱讀
    會(huì)“<b class='flag-5'>說(shuō)話</b>”的空氣管家:NRK3301<b class='flag-5'>讓</b>加濕器音箱秒變智能生活中樞
    天镇县| 新乡市| 黄石市| 八宿县| 惠来县| 玛曲县| 楚雄市| 武胜县| 米林县| 胶州市| 淳化县| 无极县| 永春县| 始兴县| 彝良县| 丰原市| 随州市| 邵东县| 剑川县| 赫章县| 澄迈县| 泾源县| 宜良县| 顺昌县| 冀州市| 西平县| 五寨县| 伊川县| 惠水县| 彰化市| 穆棱市| 双流县| 彭阳县| 隆尧县| 泰和县| 镇平县| 同德县| 龙门县| 海城市| 乐亭县| 莱州市|