日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

僅憑聲音,AI 就能“腦補”你的臉!測試結果精度可以達到 90.25%

5RJg_mcuworld ? 來源:YXQ ? 2019-04-08 10:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導語】之前我們?yōu)榇蠹医榻B過一項非常酸爽的研究“Talking Face Generation”:給定音頻或視頻后(輸入),可以讓任意一個人的面部特征與輸入的音視頻信息保持一致,也就是說出輸入的這段話。當時就想到了“楊超越的聲音+高曉松的臉”這樣的神仙搭配。不過,近期一項新研究再度抓到了筆者的眼睛!在最新的研究中,研究者僅需要音頻信息就生成了人臉... ...如此鬼畜的操作,此乃頭一次見??!接下來就為大家介紹一下這項工作!

音頻和圖像是人類最常用的兩種信號傳輸模式,圖像傳達的信息非常直觀,而語音包含的信息其實比我們想象的要更豐富,包括說話人的身份,性別和情緒狀態(tài)等等。從這兩個信號中提取的特征通常是高度相關的,可以讓人僅聆聽聲音就可以想象他的視覺外觀。WAV2PIX 的工作就是僅利用語音輸入,來生成說話者的人臉圖像。其實這就是一個跨模態(tài)的視覺生成任務。

談到這項研究的貢獻,主要有三點:

提出了一個能夠直接從原始的語音信號生成人臉的條件GAN:WAV2PIX;

提供了一個在語音和人臉兩方面綜合質量很高的一個數(shù)據(jù)集:Youtubers

實驗證明論文的方法可以生成真實多樣的人臉。

論文收集了大V用戶(Youtubers)上傳到 Youtube 的演講視頻,這些視頻通常具有高質量的說話環(huán)境、表達方式、人臉特征等。Youtubers 數(shù)據(jù)集主要由兩部分組成:一個是自動生成的數(shù)據(jù)集和一個手動處理后的高質量的子集。

主要的預處理工作:

音頻最初下載的是高級音頻編碼(AAC)格式,44100 Hz,立體聲。因此轉換為 WAV 格式,并重新采樣到 16 kHz,每個樣例占 16 位并轉換為單聲道。

采用基于 Haar 特征的人臉檢測器來檢測正臉。僅采納置信度高的幀

保存檢測出來的那幀圖像及前后兩秒的語音幀,以及一個標簽(identity)。

方法介紹

研究主要由三個模塊構成:一個是語音編碼器,一個是圖片生成網絡,一個是圖片判別網絡。

語音編碼器(Speech Encoder):已有的方法大多數(shù)是手工提取音頻特征,并不是針對生成網絡的任務進行優(yōu)化的,而 SEGAN 提出了一種在波形上用于語音處理的方法。因此作者在已有的工作 SEGAN 上進行修改。修改為具有 6 層一維網絡,并且每層的 kernel 大小是 15x15,步長為 4,然后每層卷積網絡后面使用 LeakyReLU 激活函數(shù),網絡的輸入通道是 1。輸入 16kHZ 下1 秒的語音片段,上述的卷積網絡可以得到一個 4x1024 的張量,然后采用三個全連接網絡將特征數(shù)量從 4x1024 降到 128。作為生成器網絡的輸入。

圖片生成器(Image Generator Network):輸入是語音編碼器的 128 向量。采用二維轉置卷積、插值、dropout 等方式將輸入轉為 64x64x3 或者 128x128x3 的張量。在 G 的損失函數(shù)中添加了一個輔助損失用于保持說話人的標簽(Identity)。

圖片判別器(Image Discriminator Network):判別器由幾層步長為 2,kernel 大小是 4x4 的卷積網絡組成,并使用譜歸一化和 LeakyReLU 激活函數(shù)。當張量為 4x4 時,作者拼接了語音的輸入,并采用最后一層網絡來計算 D 網絡的分數(shù)。

實驗過程

訓練:將手動處理后的數(shù)據(jù)集作為訓練集,采用數(shù)據(jù)增強等手動。值得注意的是,在處理時將每張圖像復制了 5 次,并將其與 4 秒音頻里面隨機采樣的 5 個不同的1秒音頻塊進行匹配。因此總共有 24K 左右的圖像-音頻對用于模型訓練。其它超參數(shù)采用參考的文獻設置。

評估:下圖給出了可視化的結果,雖然生成的圖像都比較模糊,但基本可以觀察到人的面部特征,并且有不同的面部表情。

作者進一步微調了一個預訓練的 VGG-FACE Descriptor 網絡,用于量化測試結果,在作者提供的數(shù)據(jù)集上,可以達到 76.81% 的語音識別準確率和 50.08% 的生成圖像準確率。

為了評估模型生成圖像的真實程度,作者定義了一個 68 個人臉關鍵點的精度檢測分數(shù)。如下圖所示,測試結果精度可以達到 90.25%。表明在大多數(shù)情況下生成的圖像保留了基本的面部特征。

感興趣的小伙伴們可以下載閱讀研究一下~

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音
    +關注

    關注

    3

    文章

    407

    瀏覽量

    40104
  • AI
    AI
    +關注

    關注

    91

    文章

    41472

    瀏覽量

    302795

原文標題:僅用語音,AI 就能“腦補”你的臉! | 技術頭條

文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    快問快答:氣密性檢測精度的真相,為什么的氣密測試結果不穩(wěn)定?

    ,而是聚焦整機穩(wěn)定性與實際工況適配性。I.為什么的氣密檢測結果不穩(wěn)定?問題不全在傳感器質量工程師最頭疼的場景:早上測試,產品合格。下午再測,同一個產品變成不合格
    的頭像 發(fā)表于 03-19 15:16 ?209次閱讀
    快問快答:氣密性檢測<b class='flag-5'>精度</b>的真相,為什么<b class='flag-5'>你</b>的氣密<b class='flag-5'>測試</b><b class='flag-5'>結果</b>不穩(wěn)定?

    如何查看小智是否成功進入聲音設置?

    可以通過后臺頁面狀態(tài)、設備反饋、語音測試三種方式,快速確認小智是否成功進入聲音設置并生效。 一、后臺頁面直接查看(最準) 登錄小智AI后臺
    發(fā)表于 02-16 06:39

    使用NORDIC AI的好處

    ,時延更低,系統(tǒng)在網絡不穩(wěn)定甚至離線時也能繼續(xù)工作。[Edge AI 概述] 提升隱私與可靠性 原始傳感器數(shù)據(jù)(如運動、生理信號等)可以留在本地,只上傳推理結果,有利于隱私與數(shù)據(jù)安全。 本地決策
    發(fā)表于 01-31 23:16

    是德科技打造機接口無線共存測試解決方案

    之前,我們曾寫過有關機接口的微信文章介紹過機接口技術。近一個月來機接口市場又熱鬧起來啦!
    的頭像 發(fā)表于 01-21 11:00 ?2545次閱讀
    是德科技打造<b class='flag-5'>腦</b>機接口無線共存<b class='flag-5'>測試</b>解決方案

    有哪些方法可以排除電磁干擾對測試結果的影響?

    排除電磁干擾對測試結果的影響,核心是 **“隔離干擾源→切斷耦合路徑→強化抗干擾能力→數(shù)據(jù)校驗過濾”** 的全流程防護,結合電能質量監(jiān)測裝置的測試場景(如溫度補償效果驗證、精度校準),
    的頭像 發(fā)表于 11-06 15:30 ?2075次閱讀

    說說壓控溫晶振VCTCXO

    壓控溫晶振是壓控溫晶體振蕩器的簡稱,英文縮寫符號為VCTCXO,VC代表壓控,TC代表溫。壓控溫晶振的優(yōu)點在于其高精度、頻率穩(wěn)定性、
    的頭像 發(fā)表于 09-18 17:23 ?1104次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+神經形態(tài)計算、類芯片

    AI芯片不僅包括深度學細AI加速器,還有另外一個主要列別:類芯片。類芯片是模擬人腦神經網絡架構的芯片。它結合微電子技術和新型神經形態(tài)器件,模仿人腦神經系統(tǒng)機選原理進行設計,實現(xiàn)類似
    發(fā)表于 09-17 16:43

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內容總覽

    、集成芯片、分子器件與分子憶阻器,以及打印類芯片等。 第五章至第八章分別探討用化學或生物方法實現(xiàn)AI、AI在科學發(fā)現(xiàn)中創(chuàng)新應用、實現(xiàn)神經形態(tài)計算與類芯片的創(chuàng)新方法,以及具身智能芯片
    發(fā)表于 09-05 15:10

    壓控溫晶振可以直接替代溫晶振嗎

    壓控溫晶振(VC-TCXO)在某些情況下可以替代溫晶振(TCXO),但需根據(jù)具體應用需求決定。以下是關鍵因素分析:
    的頭像 發(fā)表于 08-25 15:56 ?1738次閱讀
    壓控溫<b class='flag-5'>補</b>晶振<b class='flag-5'>可以</b>直接替代溫<b class='flag-5'>補</b>晶振嗎

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    1. 項目概述 本項目旨在開發(fā)并部署一個高精度的深度學習模型,用于自動鑒別一張圖片是由AI生成(如Stable Diffusion, DALL-E, Midjourney等工具生成)還是真實的畫家
    發(fā)表于 08-21 13:59

    關于NanoEdge AI用于n-Class的問題求解

    我想請教一下關于NanoEdge AI用于n-Class的問題。我使用NanoEdge AI的n-Class模式,訓練好模型,設計了3個分類,使用PC端的模擬工具測試過,模型可以正常對
    發(fā)表于 08-11 06:44

    待機功耗測試的“隱秘陷阱”:為什么測試結果可能不準確?

    本文導讀在家電、LED等行業(yè),待機功耗測試看似簡單——選擇一臺高精度設備即可。但實際上,許多工程師都在無意中踩中測試“陷阱”:插排上的小紅燈、接線方式的選擇、量程檔位的設定...這些細節(jié)影響著
    的頭像 發(fā)表于 07-22 11:37 ?1089次閱讀
    待機功耗<b class='flag-5'>測試</b>的“隱秘陷阱”:為什么<b class='flag-5'>你</b>的<b class='flag-5'>測試</b><b class='flag-5'>結果</b>可能不準確?

    PCB仿真結果天下無敵,板廠加工讓一敗涂地

    見過不少很會仿真高速過孔的高手,仿真結果very good,加工出來測試性能差5倍。的仿真方法的確沒什么問題,只是選的PCB板廠配不上
    的頭像 發(fā)表于 07-21 15:56 ?621次閱讀
    PCB仿真<b class='flag-5'>結果</b>天下無敵,板廠加工讓<b class='flag-5'>你</b>一敗涂地

    請問STM32C0的adc精度可以達到多少?

    STM32C0的adc精度可以達到多少?
    發(fā)表于 06-09 06:46

    請問STM32C0的adc精度可以達到多少?

    STM32C0的adc精度可以達到多少?
    發(fā)表于 06-05 07:53
    钦州市| 察雅县| 张家界市| 三都| 天津市| 高唐县| 黄梅县| 萝北县| 遂溪县| 浦北县| 通榆县| 莎车县| 海淀区| 永登县| 云龙县| 乐至县| 霍州市| 汝城县| 蓝山县| 龙岩市| 梁山县| 沙田区| 南投县| 南岸区| 湘乡市| 乌拉特后旗| 乌拉特中旗| 铜陵市| 神池县| 鞍山市| 弥渡县| 白银市| 平罗县| 阳信县| 襄城县| 岱山县| 高青县| 湛江市| 慈溪市| 临桂县| 马公市|