日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

張康康 ? 2018-10-25 19:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者 | Video++極鏈科技AI實驗室張奕

整理 | 包包

背景

聲音和圖像是視頻中最重要的兩類基礎(chǔ)信息,能反映視頻中出現(xiàn)的主要內(nèi)容。以往大量的視頻內(nèi)容分析研究都是基于聲音和視覺特征來展開,其中很多研究工作會基于聲音視覺多模態(tài)特征來進行語義建模。人們清楚地意識到聲音和視覺特征直接存在著某種對應(yīng)關(guān)系,因為當(dāng)某種語義內(nèi)容在視頻中出現(xiàn)時,其相應(yīng)的視覺圖像和聲音必然相伴出現(xiàn),那么該如何利用這個對應(yīng)關(guān)系來幫助我們進行視頻語義內(nèi)容分析與識別呢?

讓我們先來看看當(dāng)前機器學(xué)習(xí)與視頻分析研究的痛點。機器學(xué)習(xí)按照對樣本的標(biāo)注要求不同可分為有監(jiān)督和無監(jiān)督兩大類。隨著深度學(xué)習(xí)的興起,基于大量標(biāo)注樣本訓(xùn)練的深度網(wǎng)絡(luò)模型在各領(lǐng)域中都取得了遠超其它模型的準(zhǔn)確率,確立了主流地位。但是這一方法最大的缺點是需要大量的標(biāo)注樣本,樣本標(biāo)注是一項很高成本的工作,需要耗費大量的人力資源,使人工智能成為真正基于“人工”的智能。在視頻內(nèi)容分析領(lǐng)域,為了達到識別視頻內(nèi)容的目的,也需要對視頻進行大量的樣本標(biāo)注,這些標(biāo)注包括目標(biāo)、語義在時間空間上出現(xiàn)的位置、類別標(biāo)簽等,非常繁瑣。如何能夠減少對標(biāo)注數(shù)據(jù)的依賴一直是一個機器學(xué)習(xí)的重要研究方向。

回到先前的問題,既然視頻中的視覺和聲音之間存在著對應(yīng)關(guān)系,那么是否可以用這個對應(yīng)關(guān)系來解決數(shù)據(jù)的標(biāo)注問題,從而減少對人工標(biāo)注的依賴呢?DeepMind大膽的提出了這一設(shè)想,通過視覺和聲音的對應(yīng)實現(xiàn)它們之間的互標(biāo)注,不需要人工標(biāo)注,就可以獲得大量的帶有自標(biāo)注對應(yīng)關(guān)系的聲音視覺樣本,提供給深度網(wǎng)絡(luò)進行訓(xùn)練,從而實現(xiàn)視頻中相關(guān)事件的檢測識別。

方法


1540455999859b7947c71c8



數(shù)據(jù)

以上網(wǎng)絡(luò)通過如下的方式產(chǎn)生正負樣本對:負樣本對來自于兩段不同視頻中隨機選取的圖像幀和聲音片段,正樣本對來自于聲音片段和同一視頻中對應(yīng)該聲音時間中點處的圖像幀。訓(xùn)練數(shù)據(jù)集規(guī)模為40萬段時長為10秒的視頻,來自于Flickr-SoundNet和Kinetics-Sounds數(shù)據(jù)集。

實驗結(jié)果

15404559963591c914eb0d8


154045599801135808fe0c8


作者還給出了訓(xùn)練聲音視覺對應(yīng)網(wǎng)絡(luò)中得到的視覺子網(wǎng)絡(luò)和聲音子網(wǎng)絡(luò)模型在視覺分類和聲音分類任務(wù)中的性能,并與現(xiàn)有算法進行了比較。在聲音分類benchmark數(shù)據(jù)集ESC-50和DCASE上本文的聲音子網(wǎng)絡(luò)取得了最好的結(jié)果,如表2所示。圖像分類在benchmark數(shù)據(jù)集ImageNet上本文的視覺子網(wǎng)絡(luò)取得了與當(dāng)前最好的自監(jiān)督學(xué)習(xí)算法相同的結(jié)果,如表3所示。

1540455996666443d1b9635


1540455997609c368b67ebf


通過以上網(wǎng)絡(luò)和學(xué)習(xí)方式,究竟學(xué)到了什么內(nèi)容?作者給出了直觀的實例,選取視覺子網(wǎng)絡(luò)pool4層響應(yīng)最高的各類的5個樣本(圖3),并將對應(yīng)的conv_2層響應(yīng)熱力圖顯示出來(圖4),可見網(wǎng)絡(luò)能夠在視覺概念相關(guān)區(qū)域獲得高響應(yīng),表明學(xué)習(xí)是有效的,并且該網(wǎng)絡(luò)對聲音源具有定位能力。



結(jié)論與討論

本文利用聲音視覺對應(yīng)關(guān)系提出了一種深度網(wǎng)絡(luò),可免除對樣本的標(biāo)注,通過自監(jiān)督學(xué)習(xí),實現(xiàn)視頻內(nèi)容的檢測分類。實驗表明其在聲音分類上的效果超越其他算法,在圖像分類上的效果與以往最佳自監(jiān)督算法持平。

本文算法在聲音分類上的優(yōu)異表現(xiàn)表明,視覺特征在聲音特征的相關(guān)性使其在描述聲音特征中起到了幫助作用。同時本文算法在圖像分類上的表現(xiàn)也表明聲音特征對圖像特征描述也存在有效的幫助。目前視覺特征僅采用了聲音片段對應(yīng)的圖像序列中的一個采樣幀作為輸入,尚無法完全反映聲音和圖像之間在時間上的對應(yīng)關(guān)系,如能利用聲音對應(yīng)的整個圖像序列作為視覺輸入,將可能進一步利用聲音和視覺之間的并發(fā)性,提升模型效果。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    67

    文章

    8567

    瀏覽量

    137266
  • 視頻分析
    +關(guān)注

    關(guān)注

    0

    文章

    47

    瀏覽量

    11225
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    淺析激光焊膏在電子互連領(lǐng)域中的應(yīng)用

    激光焊膏作為一種先進的焊接材料,在電子互連領(lǐng)域中展現(xiàn)出了顯著的應(yīng)用優(yōu)勢和廣闊的發(fā)展前景。以下從激光焊膏的原理、優(yōu)勢、應(yīng)用領(lǐng)域及發(fā)展趨勢等方面,對其在電子互連領(lǐng)域中的應(yīng)用進行淺析
    的頭像 發(fā)表于 04-29 09:15 ?108次閱讀

    高性能18位SAR ADC——LTC2377-18的全方位解析

    高性能18位SAR ADC——LTC2377-18的全方位解析 在電子設(shè)計領(lǐng)域,模數(shù)轉(zhuǎn)換器(ADC)是連接模擬世界和數(shù)字世界的橋梁,其性能的優(yōu)劣直接影響到整個系統(tǒng)的精度和可靠性。今天,我們就來
    的頭像 發(fā)表于 03-31 15:35 ?158次閱讀

    高性能18位SAR ADC:LTC2379 - 18的技術(shù)剖析與應(yīng)用指南

    高性能18位SAR ADC:LTC2379 - 18的技術(shù)剖析與應(yīng)用指南 在電子設(shè)計領(lǐng)域,模數(shù)轉(zhuǎn)換器(ADC)的性能往往決定了整個系統(tǒng)的精度和速度。LTC2379 - 18作為一款低噪聲、低功耗
    的頭像 發(fā)表于 03-31 15:35 ?155次閱讀

    深入剖析LTC2364 - 18:高性能18位SAR ADC的卓越之選

    深入剖析LTC2364 - 18:高性能18位SAR ADC的卓越之選 在電子設(shè)計領(lǐng)域,高性能的模數(shù)轉(zhuǎn)換器(ADC)是實現(xiàn)精確數(shù)據(jù)采集的關(guān)鍵。今天,我將為大家詳細介紹一款優(yōu)秀的18位逐次逼近寄存器
    的頭像 發(fā)表于 03-30 17:10 ?472次閱讀

    NVIDIA攜手Google DeepMind與EMBL發(fā)布全球最大蛋白質(zhì)復(fù)合物數(shù)據(jù)集

    NVIDIA、Google DeepMind、歐洲分子生物學(xué)實驗室下屬歐洲生物信息學(xué)研究所(EMBL-EBI)以及首爾大學(xué) Steinegger 實驗室,對 AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫
    的頭像 發(fā)表于 03-25 09:39 ?372次閱讀

    地平線11篇論文強勢入選CVPR 2026

    論文收錄結(jié)果。地平線憑借深厚的技術(shù)積淀與前瞻的科研布局,共有11篇論文成功入選,覆蓋端到端自動駕駛、3D重建、世界模型、具身智能等多個核心領(lǐng)域,充分彰顯地平線在前沿技術(shù)領(lǐng)域的頂尖研發(fā)水平。
    的頭像 發(fā)表于 03-18 15:18 ?869次閱讀
    地平線11篇<b class='flag-5'>論文</b>強勢入選CVPR 2026

    小鵬汽車與北京大學(xué)研究論文成功入選AAAI 2026

    近日,AAAI 2026公布了論文錄用結(jié)果,該會議是人工智能領(lǐng)域的國際頂級會議之一。據(jù)悉,AAAI 2026共收到23,680份論文投稿,其中4,167篇論文被錄用,錄用率僅為17.6%。
    的頭像 發(fā)表于 01-04 11:22 ?809次閱讀
    小鵬汽車與北京大學(xué)研究<b class='flag-5'>論文</b>成功入選AAAI 2026

    Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026

    11月8日,全球人工智能頂會 AAAI 2026 公布論文錄用結(jié)果,Nullmax 研發(fā)團隊的端到端軌跡規(guī)劃論文成功入選。該論文創(chuàng)新提出一種由粗到精的軌跡預(yù)測框架——DiffRefiner,能夠?qū)崿F(xiàn)更為靈活、精準(zhǔn)的軌跡預(yù)測。
    的頭像 發(fā)表于 11-12 10:53 ?1128次閱讀

    智芯公司榮獲ICEPT 2025優(yōu)秀論文

    近日,第26屆電子封裝技術(shù)國際會議(ICEPT 2025)在上海舉行。智芯公司提交的論文“WBLGA SiP High-Reliability and High-Thermal
    的頭像 發(fā)表于 08-26 11:22 ?1416次閱讀

    你發(fā)文,我獎勵!Aigtek安泰電子新周期論文獎勵活動正式開啟!

    Aigtek論文獎勵活動為了回饋廣大工程師長久以來對Aigtek安泰電子的深厚信賴,也為了鼓勵更多科研工作者用自主創(chuàng)新技術(shù)探索科學(xué)領(lǐng)域的無限可能,Aigtek安泰電子新周期論文獎勵活動正式上線,誠邀
    的頭像 發(fā)表于 07-31 19:07 ?883次閱讀
    你發(fā)文,我獎勵!Aigtek安泰電子新周期<b class='flag-5'>論文</b>獎勵活動正式開啟!

    格靈深瞳六篇論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結(jié)果,格靈深瞳團隊共有6篇論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?1757次閱讀

    理想汽車八篇論文入選ICCV 2025

    近日,ICCV 2025(國際計算機視覺大會)公布論文錄用結(jié)果,理想汽車共有8篇論文入選,其中5篇來自自動駕駛團隊,3篇來自基座模型團隊。ICCV作為計算機視覺領(lǐng)域的頂級學(xué)術(shù)會議,每兩年舉辦一次
    的頭像 發(fā)表于 07-03 13:58 ?1345次閱讀

    同步電機失步淺析

    純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:同步電機失步淺析.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第一時間告知,刪除內(nèi)容!
    發(fā)表于 06-20 17:42

    基于STM32藍牙控制小車系統(tǒng)設(shè)計(硬件+源代碼+論文)下載

    基于STM32藍牙控制小車系統(tǒng)設(shè)計(硬件+源代碼+論文)推薦下載!
    發(fā)表于 05-29 21:45

    云知聲四篇論文入選自然語言處理頂會ACL 2025

    近日,第63屆國際計算語言學(xué)年會ACL 2025(Annual Meeting of the Association for Computational Linguistics,簡稱ACL)論文接收
    的頭像 發(fā)表于 05-26 14:15 ?1485次閱讀
    云知聲四篇<b class='flag-5'>論文</b>入選自然語言處理頂會ACL 2025
    马公市| 黎城县| 邮箱| 前郭尔| 舒兰市| 景宁| 台北县| 浦东新区| 叶城县| 潼关县| 灌南县| 陆川县| 宜川县| 闸北区| 绥德县| 牡丹江市| 丹巴县| 翁牛特旗| 涟源市| 孝昌县| 临潭县| 遂川县| 宣化县| 天津市| 隆尧县| 白河县| 昌平区| 太和县| 梁河县| 炎陵县| 曲阜市| 呈贡县| 巴彦淖尔市| 酉阳| 泗洪县| 米泉市| 澄城县| 延寿县| 舟山市| 林甸县| 土默特左旗|