日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí):理論和關(guān)注機制的進展

機器視覺 ? 來源:CSDN ? 作者:xtyang315 ? 2022-05-13 10:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、深度學(xué)習(xí):理論和關(guān)注機制的進展(Yoshua Bengio)

二、深度語義學(xué)習(xí) (Xiaodong He)

三、深度神經(jīng)網(wǎng)絡(luò)GPU(Julie Bernauer)

四、深度視覺Keynote(Rahul Sukthankar)

五、學(xué)習(xí)和理解視覺表示(Andrea Vedaldi)

六、用于目標(biāo)檢測的可變深度卷積神經(jīng)網(wǎng)絡(luò)(Xiaogang Wang)

一直自稱研究方向是“機器視覺、機器學(xué)習(xí)和深度學(xué)習(xí)”,然而除了做過幾個相關(guān)的項目以外,感覺自己對這個領(lǐng)域并沒有足夠深入的認(rèn)識和理解。趁著這個假期我要好好補補課了。今天先來看一些high level的內(nèi)容,看看深度學(xué)習(xí)近期的最近進展以及其在機器視覺問題中的應(yīng)用。學(xué)習(xí)資料來源于2015年CVPR的Deep Learning in Computer Vision Workshop 里invited speaker的slides,介紹了理論、應(yīng)用、實現(xiàn)等方面的內(nèi)容,應(yīng)該是干貨滿滿的。對于每一個talk,我會把內(nèi)容框架記錄下來(可以check一下對這些點是否有一定了解?),并記下一些個人覺得有趣的點。

一、深度學(xué)習(xí):理論和關(guān)注機制的進展(Yoshua Bengio)

顧名思義,Bengio的talk主要講了兩個部分:理論進展和attention mechanism。理論進展介紹了:

分布式表示的“指數(shù)級”優(yōu)點

深度的“指數(shù)級”優(yōu)點

非凸優(yōu)化和局部最小值

編碼器的概率解釋

Attention 機制則介紹了在機器翻譯、語音、圖像、視頻和記憶單元中的應(yīng)用。

分布式表示和深度的優(yōu)點Bengio之前的talk里已經(jīng)講過不少次了。簡單的說,雖然類似local partition的方法可以得到有用的表示,淺層(2層)的神經(jīng)網(wǎng)絡(luò)也可近似任意的函數(shù),但是分布式表示和深度的引入可以使特征表示和模型變得更加緊湊(compact),達到exponentially more statistically efficient的效果。

接下來提到了在深度學(xué)習(xí)中凸性質(zhì)(convexity)可能并不是必要的。因為在高維空間中,鞍點(saddle point)的存在是主要問題,而局部最小值通常都會很接近全局最小值了。這部分的內(nèi)容比較陌生,有興趣可以看看最近的論文。

Attention 機制方面,講了很多最新的進展。有很多相關(guān)的paper都非常有趣,我要找個時間好好看看這個系列了。一個基本的思路是:我們給每一層引入一個額外的輸入,這個輸入反應(yīng)的是之前的一個加權(quán),來表示它們的關(guān)注程度。在所謂的soft-attention中,這個加權(quán)的值可以直接通過BP訓(xùn)練得到。記下幾句有趣的話:
- They (Attention mechanism) could be interesting for speech recognition and video, especially if we used them tocapture multiple time scales
- They could be used to help deal withlong-term dependencies, allowing some states to last for arbitrarily long

二、深度語義學(xué)習(xí) (Xiaodong He)

來自微軟研究院的報告,主要內(nèi)容:

學(xué)習(xí)文本的語義性(semantic)表示

知識庫和問答系統(tǒng)

多模態(tài)(圖片——文本)語義模型

講座開始引入了一點有趣的motivation:一般我們測試機器是否能夠理解圖片(其實就是訓(xùn)練對了),方法是給圖片標(biāo)記標(biāo)簽然后計算其錯誤率。然而對于含有豐富內(nèi)容的復(fù)雜場景來說,很難定義所有fine-grained的類別。因此,用自然語言的描述來測試對圖片的理解是比較好的方式。

從 Word2Vec 到 Sent2Vec:Deep Structured Semantic Model (DSSM),雖然我們不知道該如何標(biāo)記一個句子的語義,但我們知道哪些句子的語義是比較接近的,因此文章通過優(yōu)化一個基于相似性的目標(biāo)函數(shù)來訓(xùn)練模型,使具有相近語義的句子產(chǎn)生距離相近的向量。接著還介紹了很多模型的細(xì)節(jié)和變種(卷積DSSM、遞歸DSSM),在此就不贅述了。

Deep Multimodal Similarity Model (DMSM):將目標(biāo)函數(shù)中兩個句子的相似性改成句子和圖片的相似性,便可以將DSSM擴展為一個多模態(tài)的模型。

09c15960-d260-11ec-bce3-dac502259ad0.png

MSR系統(tǒng)解決圖片–>語言問題:

圖片詞語檢測(Image word detection)

句子生成(Language generation)

全局語義性重排序(Global semantic re-ranking)

其中圖片詞語檢測用了CNN+MIL(Multiple Instance Learning)的方法,個人對此比較感興趣,文章在此。

三、深度神經(jīng)網(wǎng)絡(luò)和GPU(Julie Bernauer)

換個口味,我們來看看NVIDIA關(guān)于深度學(xué)習(xí)和GPU的結(jié)合。總的來說,內(nèi)容上跟NVIDIA官網(wǎng)上介紹深度學(xué)習(xí)的slides沒什么不同。主要介紹了GPU有什么好處、GPU有多牛,還有一些支持GPU的庫和工具。

一張比較好的圖:

09e39f02-d260-11ec-bce3-dac502259ad0.png

有用的工具:

Lasagne:基于theano上的開源庫,能方便搭建一個深度網(wǎng)絡(luò)。(Keras用得不太爽,可以試試這個)

四、深度視覺Keynote(Rahul Sukthankar)

來看看來自google的報告。這個talk里面的內(nèi)容都不太熟悉,但是看起來都非常有意思。主要內(nèi)容有:

用Peer Presssure方法來找high value mistake

結(jié)合深度學(xué)習(xí)和其他機器學(xué)習(xí)方法來更好解決視覺問題

首先來看看Peer Pressure。這是Rahul組最近的一個工作:The Virtues of Peer Pressure: A Simple Method for Discovering High-Value Mistakes。所謂“high-value mistake”,指的是那些我們認(rèn)為訓(xùn)練好的模型可以準(zhǔn)確預(yù)測的樣本,結(jié)果它卻“犯傻”了。因此這些樣本也叫做“hard positive”,難以答對的樣子。

從頭說起,深度神經(jīng)網(wǎng)絡(luò)雖然有很多成功的應(yīng)用,但同時也被發(fā)現(xiàn)很容易犯愚蠢的錯誤(比如上述的high-value mistake)。因此作者提出了Peer Pressure:集成+對抗訓(xùn)練(emsembles+adversarial training)的方法,來找到這些錯誤。簡單來說就是,有一組訓(xùn)練于同樣數(shù)據(jù)但是初始化或者結(jié)構(gòu)不同的NN分類器(稱作peers),如果一個樣本出現(xiàn)其中一個NN輸出與其它都不一致的情況(其它NN淡然都是一致的了),那么它應(yīng)該就是high-value mistake。尋找這類錯誤當(dāng)然是有價值的啦:(1)它可以用在發(fā)掘無標(biāo)簽的數(shù)據(jù)中(2)可以用來合成新的hard positive樣本。

接下來提到將上述的方法應(yīng)用到視頻當(dāng)中,找出anchor frame附近的hard positive 幀,用來訓(xùn)練更好的模型。其中具有semantic consistency的幀是通過Dense Trajectory來確定的。感覺挺有意思,可惜沒找到相應(yīng)的paper,那就上張圖吧。

0a499e56-d260-11ec-bce3-dac502259ad0.png

五、學(xué)習(xí)和理解視覺表示(Andrea Vedaldi)

來自牛津大學(xué)的報告,題目看起來還是很吸引人的。大綱如下(略有失望,好像就是講CNN的):

黑盒:一個將CNN用于圖片文字識別的例子

架構(gòu):卷積和紋理

可視化:CNN所知道的圖片

性質(zhì):對比CNN和視覺幾何

第一個例子用CNN做OCR,感覺并不是很有趣。一個challenge是它的類別特別多(90k個類,對應(yīng)90k個單詞)。他們解決的辦法是增量地訓(xùn)練網(wǎng)絡(luò),即先只訓(xùn)練5k個類,再逐步添加5k個新的類。。。效果好像還不錯。

第二部分講分辨紋理。提出用CNN的卷積層加上Fisher Vector(替換全連接層)來做,效果不錯不錯的。

第三部分可視化,看看就好。

第四部分還不錯,講的是圖像變換對特征表示的影響。除去語義層面上的影響(特征的不變性跟任務(wù)相關(guān)),我們通常希望圖像的特征表示不受圖像變換的影響,如翻轉(zhuǎn)和仿射變換。

類內(nèi)差異大,包括:部分出現(xiàn)(part existence)、顏色、遮擋、變形

0a68b372-d260-11ec-bce3-dac502259ad0.png

0ac6f1c6-d260-11ec-bce3-dac502259ad0.png

六、用于目標(biāo)檢測的可變深度卷積神經(jīng)網(wǎng)絡(luò)(Xiaogang Wang)

最后一個talk,講的是我最近比較關(guān)注的目標(biāo)檢測問題,主要介紹他們的DeepID-Net。

第一部分他們的工作,用深度學(xué)習(xí)進行行人識別。其中著重講了通過設(shè)計大小可變的卷積核來實現(xiàn)部分檢測器(Part detector),對于行人識別應(yīng)該是重要的一部分。

第二部分講更general的目標(biāo)檢測問題。首先介紹目標(biāo)檢測的困難有(經(jīng)篩選):

對比了他們的DeepID-Net和RCNN:

0b03452c-d260-11ec-bce3-dac502259ad0.png

后面詳細(xì)的介紹了他們模型的每個環(huán)節(jié)??傮w來說,感覺每個環(huán)節(jié)都比較tricky,暫時也看不到有什么insight,故先略過了。之后專門研究object detection時可能還會重新看看他們的工作。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器視覺
    +關(guān)注

    關(guān)注

    166

    文章

    4832

    瀏覽量

    126553
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5610

    瀏覽量

    124659

原文標(biāo)題:學(xué)習(xí)筆記 ——深度學(xué)習(xí)和機器視覺

文章出處:【微信號:www_51qudong_com,微信公眾號:機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    深度學(xué)習(xí)為什么還是無法處理邊緣場景?

    [首發(fā)于智駕最前沿微信公眾號]雖然自動駕駛車輛已經(jīng)完成了數(shù)百萬公里的行駛測試,深度學(xué)習(xí)也已被普遍應(yīng)用,但依然會在一些看似簡單的場景中犯下低級錯誤。比如在遇到一些從未見到過的邊緣場景時,系統(tǒng)可能會
    的頭像 發(fā)表于 05-04 10:16 ?2151次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>為什么還是無法處理邊緣場景?

    人工智能-Python深度學(xué)習(xí)進階與應(yīng)用技術(shù):工程師高培解讀

    深度學(xué)習(xí)的工程化落地,早已不是紙上談兵的事。從卷積神經(jīng)網(wǎng)絡(luò)到Transformer,從目標(biāo)檢測到大模型私有化部署,技術(shù)棧不斷延伸,工程師面臨的知識體系也越來越龐雜?,F(xiàn)根據(jù)中際賽威工程師培訓(xùn)老師的一份
    的頭像 發(fā)表于 04-21 11:01 ?393次閱讀
    人工智能-Python<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>進階與應(yīng)用技術(shù):工程師高培解讀

    深度學(xué)習(xí)驅(qū)動的超構(gòu)表面設(shè)計進展及其在全息成像中的應(yīng)用

    當(dāng)前,深度學(xué)習(xí)技術(shù)與超構(gòu)表面(metasurface)全息成像技術(shù)的融合,有力推動了光學(xué)成像領(lǐng)域的發(fā)展。得益于超構(gòu)表面對光波特性的精準(zhǔn)調(diào)控,全息成像技術(shù)經(jīng)處理后可生成對應(yīng)的三維圖像。因此,二者的結(jié)合
    的頭像 發(fā)表于 04-09 13:55 ?174次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>驅(qū)動的超構(gòu)表面設(shè)計<b class='flag-5'>進展</b>及其在全息成像中的應(yīng)用

    機器學(xué)習(xí)深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時間,機器學(xué)習(xí)深度學(xué)習(xí)中都存在一些我們需要時刻關(guān)注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切
    的頭像 發(fā)表于 01-07 15:37 ?369次閱讀
    機器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個常見錯誤與局限性

    穿孔機頂頭檢測儀 機器視覺深度學(xué)習(xí)

    LX01Z-DG626穿孔機頂頭檢測儀采用深度學(xué)習(xí)技術(shù),能夠?qū)崿F(xiàn)頂頭狀態(tài)的在線實時檢測,頂頭丟失報警,頂頭異常狀態(tài)報警等功能,響應(yīng)迅速,異常狀態(tài)視頻回溯,檢測頂頭溫度,配備吹掃清潔系統(tǒng),維護周期長
    發(fā)表于 12-22 14:33

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業(yè)優(yōu)化版(第9系列),滿足產(chǎn)線端設(shè)備算力限制,模型推理速度提升300%。 LabVIEW生態(tài)整合 作為工業(yè)自動化領(lǐng)域主流開發(fā)環(huán)境,LabVIEW與深度學(xué)習(xí)的集成
    發(fā)表于 12-04 09:28

    如何深度學(xué)習(xí)機器視覺的應(yīng)用場景

    深度學(xué)習(xí)視覺應(yīng)用場景大全 工業(yè)制造領(lǐng)域 復(fù)雜缺陷檢測:處理傳統(tǒng)算法難以描述的非標(biāo)準(zhǔn)化缺陷模式 非標(biāo)產(chǎn)品分類:對形狀、顏色、紋理多變的產(chǎn)品進行智能分類 外觀質(zhì)量評估:基于學(xué)習(xí)的外觀質(zhì)量標(biāo)準(zhǔn)判定 精密
    的頭像 發(fā)表于 11-27 10:19 ?353次閱讀

    如何在機器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    圖 1:基于深度學(xué)習(xí)的目標(biāo)檢測可定位已訓(xùn)練的目標(biāo)類別,并通過矩形框(邊界框)對其進行標(biāo)識。 在討論人工智能(AI)或深度學(xué)習(xí)時,經(jīng)常會出現(xiàn)“神經(jīng)網(wǎng)絡(luò)”、“黑箱”、“標(biāo)注”等術(shù)語。這些概
    的頭像 發(fā)表于 09-10 17:38 ?1079次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>神經(jīng)網(wǎng)絡(luò)

    邊聊安全 | 安全芯片的守護神:BIST機制深度解析

    BIST機制深度解析寫在前面:在安全芯片的設(shè)計與驗證過程中,工程師常會遇到一個關(guān)鍵概念——BIST(Built-InSelf-Test,內(nèi)置自檢測)。初次接觸這一術(shù)語時,許多人容易將其簡單理解為
    的頭像 發(fā)表于 09-05 16:17 ?29次閱讀
    邊聊安全 | 安全芯片的守護神:BIST<b class='flag-5'>機制</b>的<b class='flag-5'>深度</b>解析

    深度學(xué)習(xí)對工業(yè)物聯(lián)網(wǎng)有哪些幫助

    深度學(xué)習(xí)作為人工智能的核心分支,通過模擬人腦神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu),能夠自動從海量工業(yè)數(shù)據(jù)中提取復(fù)雜特征,為工業(yè)物聯(lián)網(wǎng)(IIoT)提供了從數(shù)據(jù)感知到智能決策的全鏈路升級能力。以下從技術(shù)賦能、場景突破
    的頭像 發(fā)表于 08-20 14:56 ?1252次閱讀

    自動駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4393次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    上海光機所在激光燒蝕曲面元件理論研究中取得新進展

    圖1 激光燒蝕曲面元件示意圖 近期,中國科學(xué)院上海光學(xué)精密機械研究所高功率激光元件技術(shù)與工程部魏朝陽研究員團隊,在激光燒蝕曲面元件理論研究中取得新進展。研究首次闡明激光燒蝕過程中曲面元件對形貌
    的頭像 發(fā)表于 07-15 09:58 ?693次閱讀
    上海光機所在激光燒蝕曲面元件<b class='flag-5'>理論</b>研究中取得新<b class='flag-5'>進展</b>

    當(dāng)深度學(xué)習(xí)遇上嵌入式資源困境,特征空間如何破局?

    多層神經(jīng)網(wǎng)絡(luò)的非線性變換擬合規(guī)律,理論上幾乎可以描述和模擬一切規(guī)律,但實際上該過程效率極低 —— 其計算復(fù)雜度往往呈指數(shù)級增長。這一特性使得深度學(xué)習(xí)與端側(cè)設(shè)備的資源約束存在根本性矛盾,導(dǎo)致其在端側(cè) AI 實施過程中屢屢碰壁。 ?
    發(fā)表于 07-14 14:50 ?1331次閱讀
    當(dāng)<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>遇上嵌入式資源困境,特征空間如何破局?

    中國科學(xué)院西安光機所在計算成像可解釋性深度學(xué)習(xí)重建方法取得進展

    圖1 MDFP-Net網(wǎng)絡(luò)結(jié)構(gòu) 近日,中國科學(xué)院西安光機所空間光學(xué)技術(shù)研究室在計算成像可解釋性深度學(xué)習(xí)重建方法研究取得創(chuàng)新性進展。相關(guān)研究成果發(fā)表于計算機視覺與圖形學(xué)領(lǐng)域國際著名期刊
    的頭像 發(fā)表于 06-09 09:27 ?839次閱讀
    中國科學(xué)院西安光機所在計算成像可解釋性<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>重建方法取得<b class='flag-5'>進展</b>

    深度學(xué)習(xí)賦能:正面吊車載箱號識別系統(tǒng)的核心技術(shù)

    支撐。 深度學(xué)習(xí)驅(qū)動的智能識別 傳統(tǒng)OCR技術(shù)易受光線、污損或箱體圖案干擾,而新一代識別系統(tǒng)通過深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)和注意力機制,實現(xiàn)了復(fù)雜場景下的高精度動態(tài)識別: - 抗干擾優(yōu)
    的頭像 發(fā)表于 05-07 10:10 ?691次閱讀
    塔城市| 南丰县| 铜山县| 墨玉县| 旅游| 黔江区| 修水县| 肇源县| 游戏| 呼图壁县| 兴化市| 河北区| 汉中市| 镇宁| 文成县| 台南县| 江川县| 松桃| 喀喇沁旗| 天台县| 石台县| 乐东| 沾益县| 邹城市| 安吉县| 积石山| 昭平县| 奉化市| 福贡县| 太湖县| 吴堡县| 盘锦市| 金堂县| 永康市| 武胜县| 吉隆县| 景洪市| 东安县| 通山县| 墨竹工卡县| 满城县|