大屁股在线,一起操在线视频

一年一度的CVPR在鹽湖城開(kāi)幕啦！最新的消息：

今年的最佳論文，授予了來(lái)自斯坦福大學(xué)和 UC Berkeley 的 Amir R. Zamir等人的“Taskonomy: Disentangling Task Transfer Learning”。

最佳學(xué)生論文則被來(lái)自CMU的Hanbyul Joo等人憑借“Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies”摘得。

同時(shí)，也要恭喜昨天剛被我“門(mén)”蹭熱度的Kaiming大神榮獲PAMI 年輕學(xué)者獎(jiǎng).

除了明星獎(jiǎng)項(xiàng)的揭曉，會(huì)議第一天最吸引人的除了workshop外就是一個(gè)個(gè)專題tutorial了：

周一的會(huì)議共開(kāi)設(shè)了11個(gè)專題tutorial，我們下面就為大家介紹其中一些有趣的tutorial。

一些已經(jīng)放出來(lái)的tutorials slides下載見(jiàn)附件:

https://pan.baidu.com/s/1yv8orYTbsYLNnlTlCVc_Pw

機(jī)器學(xué)習(xí)的可解釋性對(duì)于研究人員來(lái)說(shuō)有著十分重要的作用，它除了可以幫助我們理解模型運(yùn)行的機(jī)理外，還能幫助我們有的放矢地提高模型的表現(xiàn)甚至啟發(fā)我們開(kāi)發(fā)新的模型。Tutorial：Interpretable Machine Learning for Computer Vision就為我們帶來(lái)了這方面的內(nèi)容。

這個(gè)tutorial著眼于復(fù)雜的機(jī)器學(xué)習(xí)模型在計(jì)算機(jī)視覺(jué)方面的應(yīng)用。計(jì)算機(jī)視覺(jué)在物體識(shí)別、標(biāo)注和視覺(jué)問(wèn)答等方面有著廣泛的應(yīng)用，但很多時(shí)候深度學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)的運(yùn)作機(jī)理對(duì)我們來(lái)說(shuō)還像黑箱一樣無(wú)法清晰透徹的了解。隨著近年來(lái)模型的深度加深，我們理解模型及其預(yù)測(cè)結(jié)果的過(guò)程變得日益困難。

這一tutorial將通過(guò)模型的可解釋性廣泛回顧計(jì)算機(jī)視覺(jué)的各個(gè)研究領(lǐng)域，除了介紹可解釋性的基本知識(shí)及其重要性外，還將就目前對(duì)于模型和數(shù)據(jù)的可視化及可解釋性的研究方法進(jìn)行回顧。

Tutorial包含了四個(gè)演講，分別是：

來(lái)自谷歌大腦的Been Kim帶來(lái)了“機(jī)器學(xué)習(xí)中可解釋的介紹”；

來(lái)自FAIR的Laurens van der Maaten作的“利用t分布隨機(jī)鄰近嵌入方法用于視覺(jué)模型理解的準(zhǔn)則”；

來(lái)自MIT的周博磊帶來(lái)的：“重新審視深度網(wǎng)絡(luò)中單一單位(Single Units )的重要性”；

最后是來(lái)自牛津大學(xué)的Andrea Vedaldi帶來(lái)的“利用自然原像、有意義擾動(dòng)和矢量嵌入來(lái)理解深度網(wǎng)絡(luò)”。

https://interpretablevision.github.io/

除了這個(gè)tutorial之外還有一個(gè)類似的tutorial：Interpreting and Explaining Deep Models in Computer Vision。

這一tutorial就視覺(jué)領(lǐng)域的可解釋性進(jìn)行了概覽，提供了如何在實(shí)踐中使用這些技術(shù)的例子，并對(duì)不同的技術(shù)進(jìn)行了分類。其主要內(nèi)容如下：

可解釋性的定義；

理解深度表示的技術(shù)和解釋DNN中個(gè)體預(yù)測(cè)；

定量評(píng)測(cè)可解釋性的方法；

實(shí)踐中應(yīng)用可解釋性；

利用可解釋模型在復(fù)雜系統(tǒng)中得到新的見(jiàn)解。

另一個(gè)有趣的tutorial是：Computer Vision for Robotics and Driving，這一tutorial主要由來(lái)自谷歌大腦的Anelia Angelova和來(lái)自多倫多大學(xué)的Sanja Fidler進(jìn)行講解，主要講解了計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)在機(jī)器人（以及自動(dòng)駕駛）方面的發(fā)展、應(yīng)用和新的研究機(jī)會(huì)。

機(jī)器人視覺(jué)的特殊性主要在于數(shù)據(jù)和任務(wù)上，首先輸入數(shù)據(jù)是多模態(tài)（多傳感器）數(shù)據(jù)，而輸出則需要三維數(shù)據(jù)（很多情況下是稀疏的）。在實(shí)際情況中，需要在實(shí)時(shí)性、啟發(fā)式理解、環(huán)境交互方面有著良好的表現(xiàn)。

這一領(lǐng)域中新的研究機(jī)會(huì)主要在以下幾個(gè)方面：

多傳感器、多輸入、數(shù)據(jù)相關(guān)性的研究；

結(jié)構(gòu)化特征的使用和學(xué)習(xí)；

自監(jiān)督學(xué)習(xí)；

聯(lián)合感知、規(guī)劃和行為；

主動(dòng)感知技術(shù)；

同時(shí)就機(jī)器人在三維空間中的學(xué)習(xí)問(wèn)題和自動(dòng)駕駛中的深度學(xué)習(xí)問(wèn)題進(jìn)行了深入的報(bào)告。希望研究機(jī)器人或者感興趣的朋友們可以從中獲得需要的信息。

除此之外，對(duì)于發(fā)展勢(shì)頭越來(lái)越旺的非監(jiān)督學(xué)習(xí)谷歌大腦和谷歌Research聯(lián)合推出了一個(gè)tutorial：Unsupervised Visual Learning。

這一tutorial從非監(jiān)督學(xué)習(xí)的各種優(yōu)點(diǎn)談起，從新的特征表示到擅長(zhǎng)處理的特定問(wèn)題，從加速學(xué)習(xí)過(guò)程到減少樣本使用量等各個(gè)方面進(jìn)行了展開(kāi)。隨后利用一個(gè)報(bào)告詳細(xì)闡述了如何從視頻（時(shí)序相關(guān)）和圖像（空間相關(guān)）數(shù)據(jù)中學(xué)習(xí)特征表示，并在另一個(gè)報(bào)告中延伸了如何從真實(shí)世界的3D數(shù)據(jù)中進(jìn)行學(xué)習(xí)，包括特征、深度的學(xué)習(xí)以及特征點(diǎn)的匹配問(wèn)題。最后闡述了自監(jiān)督學(xué)習(xí)在機(jī)器人中的應(yīng)用，并用了三個(gè)例子進(jìn)行了闡述：

從深度信息中進(jìn)行在線自監(jiān)督學(xué)習(xí)；

用于抓取的自監(jiān)督學(xué)習(xí)過(guò)程；

模仿學(xué)習(xí)；

幾何和三維重建是計(jì)算機(jī)視覺(jué)的重要部分，今年也有多個(gè)相關(guān)的tutorial進(jìn)行了深入地探討。

首先來(lái)自印度理學(xué)院的Venu Madhav Govindu介紹了基于Motion Averaging的方法進(jìn)行大規(guī)模三維重建的方法，其tutorial系統(tǒng)的介紹了基于李群的方法，并歸納了不同的motion averaging方法，同時(shí)還對(duì)算法進(jìn)行了最佳實(shí)踐。這一tutorial旨在幫助研究人員們?cè)谛颅h(huán)境中使用這一方法用于大規(guī)模SFM以及三維稠密建模。

另一個(gè)tutorial則從優(yōu)化方面介紹了一種基于L無(wú)窮的最小化方法來(lái)解決一系列L2最小化所面臨的問(wèn)題。這一tutorial講解了基于L-infinity的幾何視覺(jué)優(yōu)化方法，通過(guò)數(shù)學(xué)和算法概念以及應(yīng)用來(lái)深入理解如何使用這種新的優(yōu)化概念。

在感知層面，多視角視覺(jué)數(shù)據(jù)分析tutorial主要著重于常見(jiàn)的多視角視覺(jué)數(shù)據(jù)的分析及其主要的應(yīng)用，包括多視角聚類、分類和零樣本學(xué)習(xí)，并討論了目前和未來(lái)將要面對(duì)的挑戰(zhàn)。

另一個(gè)相關(guān)的tutorial著重于超快的3D感知、重建和理解，將在22號(hào)舉辦。對(duì)于3D環(huán)境的捕捉、重建了理解使得人們需要建立高質(zhì)量的傳感器和高效的算法。研究人員們建立了一套高幀率的深度傳感器系統(tǒng)，超快的幀率（~1000fps）使得幀間移動(dòng)大幅減少，同時(shí)使得多傳感器的融合變得簡(jiǎn)單。基于此研發(fā)出了高效的重建、跟蹤和理解算法。Tutorial介紹了從零開(kāi)發(fā)這一傳感器的來(lái)龍去脈。

對(duì)于視覺(jué)本質(zhì)的理解Tutorial：A Crash Course on Human Vision

從low,Mid,High level提供了不同層次的理解。它講解了人類的視覺(jué)系統(tǒng)，并提供了認(rèn)識(shí)了理解視覺(jué)系統(tǒng)的方法，以助于前沿計(jì)算機(jī)視覺(jué)的研究。Tutorial分為兩個(gè)部分，首先從Low-level開(kāi)始，講述了光的物理本質(zhì)、視網(wǎng)膜的生理構(gòu)成，以及顏色、感受野、V1過(guò)程和運(yùn)動(dòng)感知；第二部分從感知深度和大小、視覺(jué)注意力和以及以及識(shí)別等方面及進(jìn)行了闡述。

最后一個(gè)關(guān)于人類行為識(shí)別的Tutorial：Human Activity Recognition。這一領(lǐng)域的研究熱點(diǎn)主要集中在一下幾個(gè)方面：

行為可靠的時(shí)空定位；

行為的端到端模型；

群體行為識(shí)別；

行為預(yù)測(cè)；

大規(guī)模數(shù)據(jù)集和卷積模型的的建立；

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴