日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

聽音辯貌?MIT最新研究!準確率驚人

MqC7_CAAI_1981 ? 來源:YXQ ? 2019-05-26 10:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

只聽聲音,就能知道一個人長什么樣?

是的。

大名鼎鼎的麻省理工CSAIL(人工智能實驗室),最近就發(fā)布了這樣一個令人驚訝的研究。只需要聽6秒的聲音片段,AI就能推斷出說話者的容貌。

詳細解釋之前,咱們一起試試先。

聽聽下面這段錄音,一共有六段。你能想象出來,說話的人長什么樣么?

怎么樣?你行么?

MIT研究人員,設(shè)計和訓(xùn)練的神經(jīng)網(wǎng)絡(luò)Speech2Face,就能通過短短的語音片段,推測出說話者的年齡、性別、種族等等多重屬性,然后重建說話人的面部。

下面就是AI聽聲識臉,給出的結(jié)果:

左邊一列是真實的照片,右邊一列是神經(jīng)網(wǎng)絡(luò)根據(jù)聲音推斷出來的長相。

講真,這個效果讓我們佩服。

這篇論文也入圍了今年的學(xué)術(shù)頂級會議CVPR 2019。

當然這個研究也會引發(fā)一些隱私方面的擔(dān)憂。不過研究團隊在論文中特別聲明,這個神經(jīng)網(wǎng)絡(luò)不追求完全精確還原單一個體的臉部圖像。

不同的語言也有影響。論文中舉了一個案例,同一男子分別說中文和英文,AI卻分別還原出了不同的面孔樣貌。當然,這也跟口音、發(fā)聲習(xí)慣等相關(guān)。

另外,研究團隊也表示,目前這套系統(tǒng)對還原白人和東亞人的面孔效果更好。可能由于印度和黑人的數(shù)據(jù)較少,還原效果還有待進一步提高。

原理

從聲音推斷一個人的長相不是一種玄學(xué),平時我們在打電話時會根據(jù)對方的聲音腦補出相貌特征。

這是因為,年齡、性別、嘴巴形狀、面部骨骼結(jié)構(gòu),所有這些都會影響人發(fā)出的聲音。此外,語言、口音、速度通常會體現(xiàn)出一個的民族、地域、文化特征。

AI正是根據(jù)語音和相貌的關(guān)聯(lián)性做出推測。

為此,研究人員提取了幾百萬個YouTube視頻,通過訓(xùn)練,讓深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)聲音和面部的相關(guān)性,找到說話的人一些基本特征,比如年齡、性別、種族等,并還原出相貌。

而且在這個過程中,不需要人類標記視頻,由模型自我監(jiān)督學(xué)習(xí)。這就是文章中所說的Speech2Face模型。

將電話另一端通過卡通人物的方式顯示在你的手機上,可能是Speech2Face未來的一種實際應(yīng)用。

模型結(jié)構(gòu)

Speech2Face模型是如何還原人臉的,請看下圖:

給這個網(wǎng)絡(luò)輸入一個復(fù)雜的聲譜圖,它將會輸出4096-D面部特征,然后使用預(yù)訓(xùn)練的面部解碼器將其還原成面部的標準圖像。

訓(xùn)練模塊在圖中用橙色部分標記。在訓(xùn)練過程中,Speech2Face模型不會直接用人臉圖像與原始圖像進行對比,而是與原始圖像的4096-D面部特征對比,省略了恢復(fù)面部圖像的步驟。

在訓(xùn)練完成后,模型在推理過程中才會使用面部解碼器恢復(fù)人臉圖像。

訓(xùn)練過程使用的是AVSpeech數(shù)據(jù)集,它包含幾百萬個YouTube視頻,超過10萬個人物的語音-面部數(shù)據(jù)。

在具體細節(jié)上,研究使用的中每個視頻片段開頭最多6秒鐘的音頻,并從中裁剪出人臉面部趨于,調(diào)整到224×224像素。

從原始圖像提取特征重建的人臉,以及從聲音推測的人臉

之前,也有人研究過聲音推測面部特征,但都是從人的聲音預(yù)測一些屬性,然后從數(shù)據(jù)庫中獲取最適合預(yù)測屬性的圖像,或者使用這些屬性來生成圖像。

然而,這種方法存在局限性,需要有標簽來監(jiān)督學(xué)習(xí),系統(tǒng)的魯棒性也較差。

由于人臉圖像中面部表情、頭部姿態(tài)、遮擋和光照條件的巨大變化,想要獲得穩(wěn)定的輸出結(jié)果,Speech2Face人臉模型的設(shè)計和訓(xùn)練變得非常重要。

一般從輸入語音回歸到圖像的簡單方法不起作用,模型必須學(xué)會剔除數(shù)據(jù)中許多不相關(guān)的變化因素,并隱含地提取人臉有意義的內(nèi)部表示。

為了解決這些困難,模型不是直接得到人臉圖像,而是回歸到人臉的低維中間表示。更具體地說,是利用人臉識別模型VGG-Face,并從倒數(shù)第二層的網(wǎng)絡(luò)提取一個4096-D面部特征。

模型的pipeline由兩個主要部分組成:

1、語音編碼器

語音編碼器模塊是一個CNN,將輸入的語音聲譜圖轉(zhuǎn)換成偽人臉特征,并預(yù)測面部的低維特征,隨后將其輸入人臉解碼器以重建人臉圖像。

2、面部解碼器

面部解碼器的輸入為低維面部特征,并以標準形式(正面和中性表情)產(chǎn)生面部圖像。

在訓(xùn)練過程中,人臉解碼器是固定的,只訓(xùn)練預(yù)測人臉特征的語音編碼器。語音編碼器是作者自己設(shè)計和訓(xùn)練的模型,而面部解碼器使用的是前人提出的模型。

將實驗結(jié)果更進一步,Speech2Face還能用于人臉檢索。把基于語音的人臉預(yù)測結(jié)果與數(shù)據(jù)庫中的人臉進行比較,系統(tǒng)將給出5個最符合的人臉照片。

不足之處

若根據(jù)語言來預(yù)測種族,那么一個人說不同的語言會導(dǎo)致不同的預(yù)測結(jié)果嗎?

研究人員讓一個亞洲男性分別說英語和漢語,結(jié)果分別得到了2張不同的面孔。

模型有時候也能正確預(yù)測結(jié)果,比如讓一個亞洲小女孩說英文,雖然恢復(fù)出的圖像和本人有很大差距,但仍可以看出黃種人的面部特征。

研究人員表示,這個小女孩并沒有明顯的口音特征,所以他們的模型還要進一步檢查來確定對語言的依賴程度。

在其他一些情況下,模型也會“翻車”。比如:變聲期之前的兒童,會導(dǎo)致模型誤判性別發(fā)生錯誤;口音與種族特征不匹配;將老人識別為年輕人,或者是年輕人識別為老人。

作者團隊

這個研究的作者,大部分來自MIT CSAIL。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • MIT
    MIT
    +關(guān)注

    關(guān)注

    3

    文章

    254

    瀏覽量

    25043
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5612

    瀏覽量

    124669

原文標題:MIT腦洞研究!只聽6秒語音,就知道你長什么樣,效果好得不敢信

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    景區(qū)客流統(tǒng)計攝像頭一體機(太陽能供電),助力景區(qū)提質(zhì)增效!

    變焦鏡頭 攝像頭一體機支持自動變焦鏡頭,在后臺就能調(diào)整焦距和光圈,確保更好地覆蓋景區(qū)出入口、索道等區(qū)域,讓人體特征的捕捉更加精準,從而大幅提升識別的準確率,準確率高達99%以上。此外,自動變焦鏡頭,對安裝時的高度和角
    的頭像 發(fā)表于 05-07 16:52 ?245次閱讀
    景區(qū)客流統(tǒng)計攝像頭一體機(太陽能供電),助力景區(qū)提質(zhì)增效!

    瑞芯微(EASY EAI)RV1126B 車牌識別

    1.車牌識別檢測簡介EAI-LPR是一個高性能中文車牌識別框架,識別速度快。準確率高,在出入口場景下,準確率可達98%;支持多種車牌類型,包括單行藍牌、單行黃牌、新能源車牌、教練車牌等,還可有限支持
    的頭像 發(fā)表于 04-03 09:54 ?719次閱讀
    瑞芯微(EASY EAI)RV1126B 車牌識別

    源表應(yīng)用拓展:四探針法測電阻

    在半導(dǎo)體工業(yè)和研究領(lǐng)域,準確測量半導(dǎo)體材料的電阻對于優(yōu)化器件設(shè)計和生產(chǎn)工藝至關(guān)重要。四探針法(Four-Point Probe)作為一種經(jīng)典的電學(xué)測量方法,被廣泛應(yīng)用于半導(dǎo)體材料的電阻
    的頭像 發(fā)表于 03-16 17:18 ?427次閱讀
    源表應(yīng)用拓展:四探針法測電阻<b class='flag-5'>率</b>

    軟通動力助力國家融擔(dān)基金打造代償補償審核新范式

    日均處理影像超5000份,手寫識別準確率95%,印章識別準確率97%,版式迭代近乎“零影響”——這是軟通動力為國家融擔(dān)基金數(shù)字化平臺打造的代償補償智能輔助審核體系交出的真實成績。
    的頭像 發(fā)表于 02-27 11:52 ?597次閱讀

    利用Solido Design Environment準確預(yù)測SRAM晶圓良

    。本研究開發(fā)出新型良建模方法,將隨機離散缺陷注入 SRAM 良預(yù)測。實踐表明,基于Solido Design Environment (Solido DE) 的新型位失效預(yù)測方法與硅實測數(shù)據(jù)幾乎完全吻合。
    的頭像 發(fā)表于 02-02 10:20 ?604次閱讀
    利用Solido Design Environment<b class='flag-5'>準確</b>預(yù)測SRAM晶圓良<b class='flag-5'>率</b>

    靠聽診器查故障?這套系統(tǒng)靠 “聽聲紋”,準確率 96%

    老技工的聽診器承載經(jīng)驗傳承,但工業(yè)智能化時代,更需精準前置的科技手段。聲振溫協(xié)同監(jiān)測系統(tǒng)的價值,不僅是96%的診斷準確率,更在于將故障預(yù)警從“事后”推向“事前”,實現(xiàn)運維模式從被動搶修到主動預(yù)防的轉(zhuǎn)變。
    的頭像 發(fā)表于 01-21 16:38 ?790次閱讀
    靠聽診器查故障?這套系統(tǒng)靠 “聽聲紋”,<b class='flag-5'>準確率</b> 96%

    亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型

    專為Agentic RAG與語義搜索量身打造,以行業(yè)頂尖的準確率實現(xiàn)跨模態(tài)檢索 北京2025年10月29日 /美通社/ -- 亞馬遜云科技宣布,Amazon Nova Multimodal
    的頭像 發(fā)表于 10-29 17:15 ?396次閱讀
    亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型

    構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議

    通過實踐,本文總結(jié)了構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議,這些建議將會在構(gòu)建高準確率輕量級CNN神經(jīng)網(wǎng)絡(luò)模型方面提供幫助。 1)避免單層神經(jīng)網(wǎng)絡(luò):我們清楚神經(jīng)網(wǎng)絡(luò)本身是需要不斷抽象出更高級別的紋理
    發(fā)表于 10-28 08:02

    除了準確率,電能質(zhì)量在線監(jiān)測裝置在諧波源識別方面還有哪些重要指標?

    除了識別準確率,電能質(zhì)量在線監(jiān)測裝置在諧波源識別方面的核心價值還依賴于 識別效率、定位精度、抗干擾能力、場景適配性 等關(guān)鍵指標,這些指標直接決定裝置能否在復(fù)雜現(xiàn)場環(huán)境中 “快速找對、精準定位、穩(wěn)定
    的頭像 發(fā)表于 10-22 16:22 ?1108次閱讀

    電能質(zhì)量在線監(jiān)測裝置識別諧波源的準確率有多高?

    電能質(zhì)量在線監(jiān)測裝置識別諧波源的準確率受電網(wǎng)結(jié)構(gòu)、監(jiān)測方案、設(shè)備性能等多重因素影響,呈現(xiàn)顯著的 場景化差異 。根據(jù)行業(yè)研究與工程實踐,其準確率通常在 **65%~95%** 之間波動,具體可分為以下
    的頭像 發(fā)表于 10-22 16:18 ?1018次閱讀

    精準匹配哈爾濱零碳標準!安科瑞EMS3.0實現(xiàn)碳排放數(shù)據(jù)準確率≥98%

    數(shù)據(jù)100%在線采集(參照《黑龍江省零碳園區(qū)建設(shè)指南》2025版)。 2. 地域化挑戰(zhàn) 嚴寒氣候限制:冬季光伏日均有效發(fā)電時長≤3小時,棄光高達40%。 重工業(yè)負荷特性:裝備制造/食品加工園區(qū)沖擊性負荷(如冷庫壓縮機)導(dǎo)致峰谷差達1:4,需量電費占比超35%。 供熱碳
    的頭像 發(fā)表于 08-18 16:39 ?601次閱讀
    精準匹配哈爾濱零碳標準!安科瑞EMS3.0實現(xiàn)碳排放數(shù)據(jù)<b class='flag-5'>準確率</b>≥98%

    Text2SQL準確率暴漲22.6%!3大維度全拆

    摘要 技術(shù)背景:Text2SQL 是將自然語言查詢轉(zhuǎn)為 SQL 的任務(wù),經(jīng)歷了基于規(guī)則、神經(jīng)網(wǎng)絡(luò)、預(yù)訓(xùn)練語言模型、大語言模型四個階段。當前面臨提示優(yōu)化、模型訓(xùn)練、推理時增強三大難題,研究
    的頭像 發(fā)表于 08-14 11:17 ?848次閱讀
    Text2SQL<b class='flag-5'>準確率</b>暴漲22.6%!3大維度全拆

    提升識別,降低功耗,安信可雷達模組賦能智能門鎖/門禁

    絲滑? 現(xiàn)在,很多智能門鎖已經(jīng)開始用上了新的“感知技術(shù)”—— 毫米波雷達 。智能門鎖在國內(nèi)的滲透持續(xù)上升,但實際使用中仍存在不少“隱形痛點”: 誤識別與延遲開鎖 人臉識別在夜間或遮擋場景下準確率下降,存在“看不到就不反應(yīng)
    的頭像 發(fā)表于 07-22 17:22 ?771次閱讀
    提升識別<b class='flag-5'>率</b>,降低功耗,安信可雷達模組賦能智能門鎖/門禁

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】+ 02 + 基礎(chǔ)功能測試

    、基礎(chǔ)功能測試 1.人臉表情情緒檢測 通過開發(fā)板自帶的應(yīng)用程序?qū)崪y發(fā)現(xiàn)識別準確率非常的高(但需在離人臉較近的地方進行識別,如果識別距離過遠會導(dǎo)致識別結(jié)果不準確的問題)。 2.找色塊功能 通過
    發(fā)表于 07-19 22:50
    汪清县| 广东省| 都昌县| 肇源县| 泸州市| 房产| 伽师县| 海原县| 新田县| 湖口县| 东台市| 岑巩县| 莱芜市| 池州市| 金川县| 上杭县| 陕西省| 大庆市| 青阳县| 巫溪县| 亚东县| 阿城市| 平原县| 鄢陵县| 长葛市| 荥阳市| 南靖县| 建阳市| 漠河县| 迁安市| 阿拉尔市| 临夏县| 自贡市| 阳新县| 淮阳县| 河曲县| 绥宁县| 仁布县| 闻喜县| 光泽县| 綦江县|