日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

研究人員開(kāi)發(fā)出一個(gè)端到端的機(jī)器學(xué)習(xí)系統(tǒng)Audio2Face

DPVg_AI_era ? 來(lái)源:lq ? 2019-06-15 11:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

浙江大學(xué)和網(wǎng)易伏羲AI實(shí)驗(yàn)室的研究人員開(kāi)發(fā)出一個(gè)端到端的機(jī)器學(xué)習(xí)系統(tǒng)Audio2Face,可以從音頻中單獨(dú)生成實(shí)時(shí)面部動(dòng)畫(huà),同時(shí)考慮到音高和說(shuō)話(huà)風(fēng)格。

我們都知道動(dòng)畫(huà)里的人物說(shuō)話(huà)聲音都是由后期配音演員合成的。

但即使利用CrazyTalk這樣的軟件,也很難將電腦生成的嘴唇、嘴型等與配音演員進(jìn)行很好地匹配,尤其是當(dāng)對(duì)話(huà)時(shí)長(zhǎng)在數(shù)十甚至數(shù)百小時(shí)的情況下。

但不要?dú)怵H,動(dòng)畫(huà)師的福音來(lái)了——Audio2Face問(wèn)世!

Audio2Face是一款端到端的機(jī)器學(xué)習(xí)系統(tǒng),由浙江大學(xué)與網(wǎng)易伏羲AI實(shí)驗(yàn)室共同打造。

它可以從音頻中單獨(dú)生成實(shí)時(shí)的面部動(dòng)畫(huà),更厲害的是,它還能調(diào)節(jié)音調(diào)和說(shuō)話(huà)風(fēng)格。該成果已經(jīng)發(fā)布至arXiv:

arXiv地址:

https://arxiv.org/pdf/1905.11142.pdf

團(tuán)隊(duì)試圖構(gòu)建一個(gè)系統(tǒng),既要逼真又要低延遲

“我們的方法完全是基于音軌設(shè)計(jì)的,沒(méi)有任何其他輔助輸入(例如圖像),這就使得當(dāng)我們?cè)噲D從聲音序列中回歸視覺(jué)空間的過(guò)程將會(huì)越來(lái)越具有挑戰(zhàn)。”論文共同作者解釋道,“另一個(gè)挑戰(zhàn)是面部活動(dòng)涉及臉部幾何表面上相關(guān)區(qū)域的多重激活,這使得很難產(chǎn)生逼真且一致的面部變形。”

該團(tuán)隊(duì)試圖構(gòu)建一個(gè)同時(shí)滿(mǎn)足“逼真”(生成的動(dòng)畫(huà)必須反映可見(jiàn)語(yǔ)音運(yùn)動(dòng)中的說(shuō)話(huà)模式)和低延遲(系統(tǒng)必須能夠進(jìn)行近乎實(shí)時(shí)的動(dòng)畫(huà))要求的系統(tǒng)。他們還嘗試將其推廣,以便可以將生成的動(dòng)畫(huà)重新定位到其他3D角色。

他們的方法包括從原始輸入音頻中提取手工制作的高級(jí)聲學(xué)特征,特別是梅爾頻率倒譜系數(shù)(MFC),或聲音的短期功率譜的表示。然后深度相機(jī)與mocap工具Faceshift一起,捕捉配音演員的面部動(dòng)作并編制訓(xùn)練集。

深度相機(jī)示意圖

之后研究人員構(gòu)建了帶有51個(gè)參數(shù)的3D卡通人臉模型,控制了臉部的不同部位(例如,眉毛,眼睛,嘴唇和下巴)。最后,他們利用上述AI系統(tǒng)將音頻上下文映射到參數(shù),產(chǎn)生唇部和面部動(dòng)作。

1470個(gè)音頻樣本加持,機(jī)器學(xué)習(xí)模型的輸出“相當(dāng)可以”

團(tuán)隊(duì)使用一個(gè)訓(xùn)練語(yǔ)料庫(kù),其中包含兩個(gè)60分鐘、每秒30幀的女性和男性演員逐行閱讀劇本中臺(tái)詞的視頻,以及每個(gè)相應(yīng)視頻幀的1470個(gè)音頻樣本(每幀總共2496個(gè)維度)。

團(tuán)隊(duì)報(bào)告說(shuō),與ground truth相比,機(jī)器學(xué)習(xí)模型的輸出“相當(dāng)可以”。它設(shè)法在測(cè)試音頻上重現(xiàn)準(zhǔn)確的面部形狀,并且它一直“很好地”重新定位到不同的角色。此外,AI系統(tǒng)平均只需0.68毫秒即可從給定的音頻窗口中提取特征。

該團(tuán)隊(duì)指出,AI無(wú)法跟隨演員的眨眼模式,主要是因?yàn)檎Q叟c言語(yǔ)的相關(guān)性非常弱。不過(guò)從廣義上講,該框架可能為適應(yīng)性強(qiáng)、可擴(kuò)展的音頻到面部動(dòng)畫(huà)技術(shù)奠定基礎(chǔ),這些技術(shù)幾乎適用于所有說(shuō)話(huà)人和語(yǔ)言。

“評(píng)估結(jié)果顯示,我們的方法不僅可以從音頻中產(chǎn)生準(zhǔn)確的唇部運(yùn)動(dòng),還可以成功地消除說(shuō)話(huà)人隨時(shí)間變化的面部動(dòng)作,”他們寫(xiě)道。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    3025

    瀏覽量

    115678
  • 音頻
    +關(guān)注

    關(guān)注

    31

    文章

    3234

    瀏覽量

    86437
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    67

    文章

    8569

    瀏覽量

    137316

原文標(biāo)題:浙大研發(fā)AudioFace:隨心錄語(yǔ)音就能實(shí)時(shí)生成3D面部動(dòng)畫(huà)

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    為什么段式自動(dòng)駕駛很難落地?

    ,將感知、預(yù)測(cè)、規(guī)控等任務(wù)拆分為相互獨(dú)立的子系統(tǒng)。然而,隨著深度學(xué)習(xí)技術(shù)的突破,的新興技術(shù)架構(gòu)開(kāi)始占據(jù)討論的中心。 在這
    的頭像 發(fā)表于 03-08 09:44 ?1847次閱讀
    為什么<b class='flag-5'>一</b>段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動(dòng)駕駛很難落地?

    自動(dòng)駕駛為什么會(huì)出現(xiàn)黑盒現(xiàn)象?

    在自動(dòng)駕駛領(lǐng)域,(End-to-End)是指從感知環(huán)境的原始數(shù)據(jù)車(chē)輛實(shí)際控制指令,全部交給個(gè)
    的頭像 發(fā)表于 02-20 09:25 ?9608次閱讀
    自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>為什么會(huì)出現(xiàn)黑盒現(xiàn)象?

    借助谷歌LiteRT構(gòu)建下代高性能側(cè)AI

    自 2024 年 LiteRT 問(wèn)世以來(lái),我們直致力于將機(jī)器學(xué)習(xí)技術(shù)棧從其 TensorFlow Lite (TFLite) 基礎(chǔ)之上演進(jìn)為個(gè)
    的頭像 發(fā)表于 01-30 11:23 ?3594次閱讀
    借助谷歌LiteRT構(gòu)建下<b class='flag-5'>一</b>代高性能<b class='flag-5'>端</b>側(cè)AI

    格靈深瞳靈感實(shí)驗(yàn)室推出開(kāi)發(fā)平臺(tái)AI Edge Studio

    在AI定制化開(kāi)發(fā)過(guò)程中,開(kāi)發(fā)者往往遇到模型訓(xùn)練門(mén)檻高、邊緣部署難度大、項(xiàng)目難以實(shí)現(xiàn)閉環(huán)等
    的頭像 發(fā)表于 12-17 15:28 ?852次閱讀

    如何訓(xùn)練好自動(dòng)駕駛模型?

    [首發(fā)于智駕最前沿微信公眾號(hào)]最近有位小伙伴在后臺(tái)留言提問(wèn):算法是怎樣訓(xùn)練的?是模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和離線(xiàn)強(qiáng)化
    的頭像 發(fā)表于 12-08 16:31 ?1645次閱讀
    如何訓(xùn)練好自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型?

    智駕模擬軟件推薦——為什么選擇Keymotek的aiSim?

    隨著自動(dòng)駕駛技術(shù)的快速發(fā)展,車(chē)企和科技公司對(duì)于模擬測(cè)試平臺(tái)的需求越來(lái)越強(qiáng)。從L2/ADASL4/L5等級(jí)的自動(dòng)駕駛,虛擬模擬已經(jīng)成為其中的關(guān)鍵環(huán)。特別是對(duì)于「對(duì)
    的頭像 發(fā)表于 11-18 11:35 ?1044次閱讀

    自動(dòng)駕駛中“段式”和“二段式”有什么區(qū)別?

    攝像頭、毫米波雷達(dá)、激光雷達(dá)等信號(hào),便可以直接輸出轉(zhuǎn)向、油門(mén)、剎車(chē)或者軌跡指令。段式就是用個(gè)
    的頭像 發(fā)表于 10-24 09:03 ?1451次閱讀
    自動(dòng)駕駛中“<b class='flag-5'>一</b>段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么區(qū)別?

    NVIDIA開(kāi)源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開(kāi)源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應(yīng)用開(kāi)發(fā)者都可以構(gòu)建并部署帶有先進(jìn)動(dòng)畫(huà)的高精度角色。NVIDIA 開(kāi)源 Audio2Face 的訓(xùn)練框架,任何人都可以針對(duì)特定用例對(duì)現(xiàn)有模型進(jìn)行微
    的頭像 發(fā)表于 10-21 11:11 ?1047次閱讀
    NVIDIA開(kāi)源<b class='flag-5'>Audio2Face</b>模型及SDK

    自動(dòng)駕駛中常提的段式(單段)個(gè)啥?

    自動(dòng)駕駛技術(shù)的發(fā)展,催生出技術(shù)的應(yīng)用,段式
    的頭像 發(fā)表于 10-18 10:16 ?1913次閱讀

    文讀懂特斯拉自動(dòng)駕駛FSD從輔助的演進(jìn)

    、控制等環(huán)節(jié)各自負(fù)責(zé)不同的功能,各模塊用顯式代碼和規(guī)則來(lái)完成任務(wù)。隨著數(shù)據(jù)規(guī)模和算力增長(zhǎng),特斯拉開(kāi)始把更多功能放到機(jī)器學(xué)習(xí)模型里,尤其是從2024年推出的V12(標(biāo)注為“Supervised”)開(kāi)始,特斯拉開(kāi)始大幅度推進(jìn)“
    的頭像 發(fā)表于 10-11 09:13 ?1196次閱讀
    <b class='flag-5'>一</b>文讀懂特斯拉自動(dòng)駕駛FSD從輔助<b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的演進(jìn)

    自動(dòng)駕駛大模型為什么會(huì)有不確定性?

    。為了能讓自動(dòng)駕駛汽車(chē)做出正確、安全且符合邏輯的行駛動(dòng)作,大模型被提了出來(lái)。 大模型
    的頭像 發(fā)表于 09-28 09:20 ?1061次閱讀
    自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型為什么會(huì)有不確定性?

    發(fā)展趨勢(shì)下,云算力如何賦能智能駕駛技術(shù)躍遷?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著智能駕駛輔助系統(tǒng)的發(fā)展,汽車(chē)行業(yè)正在從傳統(tǒng)模塊化架構(gòu)向(End-to-End,E2E)模型邁進(jìn)。
    的頭像 發(fā)表于 09-08 09:16 ?1192次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>發(fā)展趨勢(shì)下,云算力如何賦能智能駕駛技術(shù)躍遷?

    Nullmax自動(dòng)駕駛最新研究成果入選ICCV 2025

    Nullmax 在段式核心技術(shù)上的深厚積累與創(chuàng)新實(shí)力,尤其在
    的頭像 發(fā)表于 07-05 15:40 ?2016次閱讀
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動(dòng)駕駛最新<b class='flag-5'>研究</b>成果入選ICCV 2025

    為什么自動(dòng)駕駛大模型有黑盒特性?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)落地,(End-to-End)大模型也成為行業(yè)研究與應(yīng)用的熱門(mén)方向。相較于傳統(tǒng)自動(dòng)駕駛系統(tǒng)
    的頭像 發(fā)表于 07-04 16:50 ?1067次閱讀
    為什么自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    為何成為各車(chē)企智駕布局的首要選擇?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在智能駕駛領(lǐng)域,技術(shù)的提出標(biāo)志著自動(dòng)駕駛系統(tǒng)在架構(gòu)設(shè)計(jì)上的次根本性轉(zhuǎn)變。從傳統(tǒng)的模塊化架構(gòu)將感知、決策
    的頭像 發(fā)表于 06-07 11:52 ?879次閱讀
    為何<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>成為各車(chē)企智駕布局的首要選擇?
    长海县| 永新县| 龙山县| 沙湾县| 松滋市| 阳西县| 秦安县| 桃园市| 黔江区| 宜兴市| 青铜峡市| 司法| 仙游县| 南涧| 神农架林区| 荔浦县| 克什克腾旗| 临清市| 浦县| 通山县| 科技| 株洲市| 漳州市| 梅河口市| 德化县| 阿拉善盟| 二连浩特市| 新密市| 伊金霍洛旗| 湖口县| 团风县| 凭祥市| 临湘市| 白沙| 高淳县| 宝丰县| 广德县| 上蔡县| 乡城县| 菏泽市| 无为县|