日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

一種AI算法,可以根據(jù)說話聲音來預測說話人將作出怎樣的肢體動作

DPVg_AI_era ? 來源:lq ? 2019-06-23 09:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來自UC Berkeley和MIT的研究人員開發(fā)了一種AI算法,可以根據(jù)說話聲音來預測說話人將作出怎樣的肢體動作。所預測的動作十分自然、流暢,本文帶來技術解讀。

人在說話的時候,常常伴隨著身體動作,不管是像睜大眼睛這樣細微的動作,還是像手舞足蹈這樣夸張的動作。

最近,來自UC Berkeley和MIT的研究人員開發(fā)了一種AI算法,可以根據(jù)說話聲音來預測說話人將作出怎樣的肢體動作。

研究人員稱,只需要音頻語音輸入,AI就能生成與聲音一致的手勢。具體來說,他們進行的是人的獨白到手勢和手臂動作的“跨模態(tài)轉換”(cross-modal translation)。相關論文發(fā)表在CVPR 2019上。

研究人員收集了10個人144小時的演講視頻,其中包括一名修女、一名化學教師和5名電視節(jié)目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演講視頻數(shù)據(jù)集

他們使用現(xiàn)有的算法生成代表說話者手臂和手位置的骨架圖形。然后他們用這些數(shù)據(jù)訓練了自己的算法,這樣AI就可以根據(jù)說話者的新音頻來預測手勢。

圖1:從語音到手勢的轉換的示例結果。由下往上:輸入音頻、由我們的模型預測的手臂和手的姿態(tài),以及由Caroline Chan等人在“Everybody Dance Now”論文中提出的方法合成的視頻片段。

研究人員表示,在定量比較中,生成的手勢比從同一說話者者隨機選擇的手勢更接近現(xiàn)實,也比從一種不同類型的算法預測的手勢更接近現(xiàn)實。

圖2:特定于說話者的手勢數(shù)據(jù)集

說話者的手勢也是獨特的,對一個人進行訓練并預測另一個人的手勢并不奏效。將預測到的手勢輸入到現(xiàn)有的圖像生成算法中,可以生成半真實的視頻。

研究團隊表示,他們的下一步是不僅根據(jù)聲音,還根據(jù)文字稿來預測手勢。該研究潛在的應用包括創(chuàng)建動畫角色、動作自如的機器人,或者識別假視頻中人的動作。

為了支持對手勢和語音之間關系的計算理解的研究,他們還發(fā)布了一個大型的個人特定手勢視頻數(shù)據(jù)集。

方法詳解:兩階段從語音預測視頻

給定原始語音,我們的目標是生成說話者相應的手臂和手勢動作。

我們分兩個階段來完成這項任務——首先,由于我們用于訓練的唯一信號是相應的音頻和姿勢檢測序列,因此我們使用L1回歸到2D關鍵點的序列堆棧來學習從語音到手勢的映射。

其次,為了避免回歸到所有可能的手勢模式的平均值,我們使用了一個對抗性鑒別器,以確保產(chǎn)生的動作相對于說話者的典型動作是可信的。

任何逼真的手勢動作都必須在時間上連貫流暢。我們通過學習表示整個話語的音頻編碼來實現(xiàn)流暢性,該編碼考慮了輸入語音的完整時間范圍s,并一次性(而不是遞歸地)預測相應姿勢的整個時間序列p。

我們的完全卷積網(wǎng)絡由一個音頻編碼器和一個1D UNet轉換架構組成的,如圖3所示。

圖3:語音到手勢的翻譯模型。

一個 convolutional audio encoder對2D譜圖進行采樣并將其轉換為1D信號。然后,平移模型G預測相應的2D姿勢序列堆棧。對真實數(shù)據(jù)姿勢的L1回歸提供了一個訓練信號,而一個對抗性辨別器D則確保預測的動作既具有時間一致性,又符合說話者的風格。

我們使用UNet架構進行轉換,因為它的bottleneck為網(wǎng)絡提供了過去和未來的時間上下文,而skip connections允許高頻時間信息通過,從而能夠預測快速移動。

定量和定性結果

圖4:我們訓練過的模型是特定于人的。對于每個說話者的音頻輸入(行),我們應用所有其他單獨訓練的說話者模型(列)。顏色飽和度對應于待測集上的L1損耗值(越低越好)。對于每一行,對角線上的項都是顏色最淺的,因為模型使用訓練對象的輸入語音效果最好。

表1:在測試集上使用L1損失的語音到手勢轉換任務的定量結果(越低越好)

圖5:語音到手勢轉換的定性結果。我們展示了Dr. Kubinec(講師)和Conan O’Brien(節(jié)目主持人)的輸入音頻頻譜圖和預測手勢。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音
    +關注

    關注

    3

    文章

    407

    瀏覽量

    40116
  • 鑒別器
    +關注

    關注

    0

    文章

    8

    瀏覽量

    8869
  • AI算法
    +關注

    關注

    0

    文章

    276

    瀏覽量

    13203

原文標題:你說話時的肢體動作,AI僅憑聲音就能預測 | CVPR 2019

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    語音芯片怎么樣寫入聲音?文講透語音播放芯片的聲音寫入之道

    為真實聲音的“芯”。語音芯片,又稱語音IC、VoiceIC,是一種能夠存儲、播放乃至識別語音信號的集成電路,其核心工作過程是將語音信號通過采樣轉化為數(shù)字信號,存儲于
    的頭像 發(fā)表于 04-24 10:04 ?151次閱讀
    語音芯片怎么樣寫入<b class='flag-5'>聲音</b>?<b class='flag-5'>一</b>文講透語音播放芯片的<b class='flag-5'>聲音</b>寫入之道

    語音芯片是如何讓機器“開口說話”的?文讀懂語音芯片工作原理及選型指南

    工作原理、主流類型到應用選型,為你全面解析這讓機器擁有“聲音”的核心元器件。、什么是語音芯片?語音芯片,顧名思義,是一種集成了語音處理功能的專用集成電路(IC),能
    的頭像 發(fā)表于 04-14 08:59 ?178次閱讀
    語音芯片是如何讓機器“開口<b class='flag-5'>說話</b>”的?<b class='flag-5'>一</b>文讀懂語音芯片工作原理及選型指南

    AI輔助編程設計之道:從Spec到Code工程實踐

    生成-發(fā)現(xiàn)問題-修改需求”的循環(huán),原本期望的效率提升,變成了另一種形式的消耗。 問題出在哪里? 、從模糊想法到可執(zhí)行代碼的距離 當開發(fā)者對AI說“幫我寫個串口調(diào)試工具”時,輸入的是
    發(fā)表于 03-16 13:33

    如何查看小智是否成功進入聲音設置?

    可以通過后臺頁面狀態(tài)、設備反饋、語音測試三方式,快速確認小智是否成功進入聲音設置并生效。 、后臺頁面直接查看(最準) 登錄小智AI后臺
    發(fā)表于 02-16 06:39

    歡迎使用中國香河英茂科工豆包智能體

    中國香河英茂科工 - 豆包智能體 創(chuàng)建分身,分兩AI智能分身(替你干活) 和數(shù)字分身(替你出鏡),零基礎也能快速上手。 ? 、AI
    發(fā)表于 02-14 07:22

    語音識別IC分類,語音識別芯片的工作原理

    語音識別芯片,也叫語音識別集成電路,是一種聲音存儲、播放、錄音及語音識別功能于體的專用芯片。語音識別IC的核心功能在于實現(xiàn)語音識別,即讓機器能夠“聽懂”人類的語音指令,并據(jù)此執(zhí)行相應操作,廣泛應用于
    的頭像 發(fā)表于 01-14 15:22 ?450次閱讀
    語音識別IC分類,語音識別芯片的工作原理

    芯知識|語音芯片是如何讓機器“開口說話”的?

    在智能音箱回應你的詢問、車載導航提示你轉彎、甚至醫(yī)療設備發(fā)出清晰提醒的瞬間,你是否曾好奇,這些機器是如何“開口說話”的?其背后的核心功臣,正是枚枚精巧的語音芯片。它如同個高度集成的“聲音
    的頭像 發(fā)表于 12-29 09:05 ?481次閱讀
    芯知識|語音芯片是如何讓機器“開口<b class='flag-5'>說話</b>”的?

    理論到操作實現(xiàn) 讓AI玩具機器等智能硬件在嘈雜環(huán)境中只聽我說話

    如何讓ai在嘈雜的環(huán)境中僅識別你的聲音呢?我們的方案即是使用聲紋進行分別
    的頭像 發(fā)表于 10-17 17:34 ?970次閱讀

    語音播報芯片:讓產(chǎn)品“開口說話”的秘密

    個語音播報,收款24元等等。不知道大家發(fā)現(xiàn)沒有會“說話”的產(chǎn)品越來越多了,不僅僅是聲音播放,還可以進行語音交互也就是大家說的AI對話芯片,下面小編將會帶大家
    的頭像 發(fā)表于 09-28 09:28 ?765次閱讀
    語音播報芯片:讓產(chǎn)品“開口<b class='flag-5'>說話</b>”的秘密

    如何進行聲音定位?

    文章主要介紹了如何利用一種簡單的TDOA算法進行聲音點位,并使用數(shù)據(jù)采集卡進行聲音定位的實驗。
    的頭像 發(fā)表于 09-23 15:47 ?2220次閱讀
    如何進行<b class='flag-5'>聲音</b>定位?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片

    可以被稱為第一人稱視角。 第一人稱視角:指個實體本身在觀察或經(jīng)歷事物時,所能夠看到或感知到的角度。 二、AI感知技術與芯片 具身智能3個層
    發(fā)表于 09-18 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    一種快速反應能力,是直接的感知;靈感是一種通過思考和探索獲得的創(chuàng)造性想法,是一種創(chuàng)意。 AI怎么模擬直覺與靈感呢?四、AI代替人類的假說
    發(fā)表于 09-17 11:45

    瑞芯微RK3576語音識別算法

    字符序列。與說話識別及說話確認不同,后者嘗試識別或確認發(fā)出語音的說話而非其中所包含的詞匯內(nèi)
    的頭像 發(fā)表于 08-15 15:13 ?2496次閱讀
    瑞芯微RK3576語音識別<b class='flag-5'>算法</b>

    智能家居 “聲” 臨其境:NRK3301 芯片如何讓家電 “會說話” 更 “懂人心”?

    打造的芯片,不僅讓家電“會說話”,更能讓聲音交互精準觸達生活需求。顆芯片藏著的交互智慧NRK3301雖采用8腳緊湊設計,卻搭載了超出同類產(chǎn)品的硬核配置:支持MP
    的頭像 發(fā)表于 08-08 09:05 ?1017次閱讀
    智能家居 “聲” 臨其境:NRK3301 芯片如何讓家電 “會<b class='flag-5'>說話</b>” 更 “懂人心”?

    艾為芯×AI大模型重塑會思考的電子玩伴

    圖1會說話的湯姆貓AI浪潮的掀起帶動了場關于童年陪伴的智能進化。AI童伴——會說話的湯姆貓,正引領著童年陪伴的全新變革。湯姆貓能夠與孩子進
    的頭像 發(fā)表于 05-19 18:38 ?746次閱讀
    艾為芯×<b class='flag-5'>AI</b>大模型重塑會思考的電子玩伴
    漯河市| 屯昌县| 普兰县| 南昌县| 罗甸县| 哈巴河县| 湖南省| 曲周县| 抚顺县| 新野县| 从化市| 宜春市| 孝感市| 兴仁县| 红桥区| 乌兰浩特市| 巴林左旗| 日喀则市| 合水县| 浙江省| 太原市| 泗阳县| 盘山县| 安新县| 县级市| 荔波县| 上蔡县| 长垣县| 仙居县| 翼城县| 新竹市| 吉隆县| 霍林郭勒市| 喀什市| 冀州市| 环江| 志丹县| 汉川市| 抚松县| 安泽县| 华宁县|