欧美色免费播,日韩热女中出精品

悉尼大學(xué)教授、澳大利亞科學(xué)院院士、優(yōu)必選首席科學(xué)家陶大成博士指出，人類具有感知、推理、學(xué)習(xí)和行為四個方面的智能，AI的終極目標(biāo)就是讓機(jī)器具備和人類一樣的智能。在9月20日的AI WORLD 2018 世界人工智能峰會上，陶大程博士介紹了他的團(tuán)隊在這四個方向上取得的重大進(jìn)展。

悉尼大學(xué)教授、澳大利亞科學(xué)院院士、優(yōu)必選人工智能首席科學(xué)家陶大程博士在9月20日的AI WORLD 2018世界人工智能峰會上發(fā)表《AI破曉：機(jī)遇與挑戰(zhàn)》的主題演講。

陶大程表示，人工智能的目標(biāo)是在機(jī)器上實現(xiàn)類似人的智能。人有四個方面的智能：Perceiving、Learning、Reasoning和Behaving。他的演講圍繞這四個方面展開。

Perceiving包含了很多方面：物體檢測、目標(biāo)跟蹤、場景分割、關(guān)鍵點檢測、人臉圖像分析等等。但是高性能perceiving還依賴于高質(zhì)量的數(shù)據(jù)輸入。如果輸入圖像或者視頻受到噪聲、湍流、模糊、霧、低分辨率等因素的影響，就需要提升數(shù)據(jù)質(zhì)量。

在learning方面，陶大程博士介紹了多視角學(xué)習(xí)、多標(biāo)簽學(xué)習(xí)、adversarial domain generalisation、tag disentangled GAN等等。尤其是遺傳對抗生成網(wǎng)絡(luò)（Evolutionary GAN）有效的解決了傳統(tǒng)GAN網(wǎng)絡(luò)學(xué)習(xí)的兩個痛點：

（1）訓(xùn)練不穩(wěn)定性。

（2）模型塌縮。這個工作也被麻省理工學(xué)院技術(shù)評論（MIT Technology Review）評選為熱點論文（The Best of the Physics arXiv）。

另外受到信息論中數(shù)據(jù)處理不等式的啟發(fā)，陶博士和他的學(xué)生們在理論上解釋了深度學(xué)習(xí)中兩個備受關(guān)注的問題：（1）為什么模型復(fù)雜度非常高的深度神經(jīng)網(wǎng)絡(luò)，不會發(fā)生過擬合？（2）深度神經(jīng)網(wǎng)絡(luò)是越深越好嗎？

最后，陶大程博士介紹了優(yōu)必選悉尼大學(xué)人工智能研究院在reasoning和behaving方面的一些進(jìn)展。他的團(tuán)隊最近在visual question answering（VQA，看圖回答問題）和visual dialog（看圖對話）的國際比賽中都取得了非常不錯的成績。

目前陶大程博士的團(tuán)隊努力在人形機(jī)器人上實現(xiàn)示教學(xué)習(xí)（imitation learning），希望不久的將來能夠?qū)崿F(xiàn)：機(jī)器人通過攝像機(jī)來理解人的行為，模仿人的行為，并且最終有效的和人進(jìn)行互動。

以下是新智元整理的陶大成教授的演講內(nèi)容：

非常感謝新智元邀請我來跟大家分享一下，過去這兩年我們在人工智能領(lǐng)域里做的一些工作。

首先請大家看這張照片。我這里想問大家一個問題，這張照片中有多少人？回答這個問題不難，但是要花很多時間。我們?nèi)绻粋€個人的去數(shù)，那么大約用一個小時的時間，我們可以知道這里有差不多900多個人。

如果用我們的人臉檢測技術(shù)，在有GPU顯卡的臺式機(jī)上，只用三秒鐘就可以得到差不多的結(jié)果。這看起來是個很簡單的任務(wù)，但對于計算機(jī)來說并不總是那么一帆風(fēng)順。2017年，我們的算法大概能檢測七百多張人臉，然后到八百多個，到現(xiàn)在九百多，接近人的效果。另外我們發(fā)現(xiàn)，用計算機(jī)檢測到的人臉實際上還有助于人去發(fā)現(xiàn)一些人剛開始沒有看到的人臉。這也從一特別的角度說明了，人工智能能夠擴(kuò)展人的智能。

人工智能的目標(biāo)：在機(jī)器上實現(xiàn)類似人的智能

什么是人工智能？人工智能就是機(jī)器所展示出來的智能，所以可以叫做“機(jī)器智能”，以區(qū)別人所展現(xiàn)出來的智能。人有四個方面的智能：Perceiving、Learning、Reasoning、以及Behaving。人工智能的目標(biāo)就是讓機(jī)器實現(xiàn)、模擬人的智能。我們期待有一天，機(jī)器也能夠像人一樣去感知世界，去學(xué)習(xí)、推理，去做出相應(yīng)的一些反應(yīng)。因此，我們需要讓人工智能具有這四個方面的能力。

這個視頻展示了我們在人工智能領(lǐng)域里面的一些核心技術(shù)，包括目標(biāo)檢測、（單、多）目標(biāo)跟蹤、目標(biāo)分割、特征點檢測、人體姿態(tài)估計、表情分析、年齡估計、單攝像機(jī)深度估計等。

為什么今天大家都在談人工智能？因為我們有大數(shù)據(jù)，有超強(qiáng)的計算服務(wù)器，因此相對于很久之前，我們現(xiàn)在有能力有效地去訓(xùn)練超大規(guī)模的模型。雖然很久之前，多層神經(jīng)網(wǎng)絡(luò)已經(jīng)出現(xiàn)，但是受制于數(shù)據(jù)和計算能力，一直沒有能夠得到很好的推廣。更重要的是，我們目前有大量的來自產(chǎn)業(yè)界、學(xué)術(shù)界、以及政府部門的實際需求。這些真正促成了今天的人工智能的再一次爆發(fā)。產(chǎn)業(yè)界的迫切需求也極大地推動了學(xué)術(shù)界對人工智能的投入。

今天，我講介紹一下我們在perceiving（感知）、learning（學(xué)習(xí)）、reasoning（推理）和 behaving（行為）四個方面的進(jìn)展。

感知任務(wù)基礎(chǔ)：物體檢測與目標(biāo)跟蹤

物體檢測是perceiving中的一項基本任務(wù)。現(xiàn)有的兩階段目標(biāo)檢測器取得了非常好的效果。首先生成區(qū)域候選框，然后對這些候選框進(jìn)行調(diào)整。調(diào)整過程會更新后續(xù)框的坐標(biāo)并預(yù)測物體的類別。但是，不準(zhǔn)確的候選框有可能會導(dǎo)致不正確的檢測結(jié)果。

為了解決這個問題，我們提出了基于上下文的調(diào)整算法。具體的講，我們發(fā)現(xiàn)對于一個檢測框，它周圍的檢測框常常提供了對于要檢測物體的補(bǔ)充性信息。

因此，我們嘗試從周圍檢測框提取有用的上下文信息用來改進(jìn)現(xiàn)有的調(diào)整算法。在我們提出的方法里，我們會基于一個加權(quán)過程來融合提取出來的上下文信息。最后，利用融合后的上下文信息以及相應(yīng)的視覺特征，我們提出的基于上下文的候選框調(diào)整算法能實質(zhì)性地改進(jìn)現(xiàn)有的調(diào)整算法。

舉個例子，如圖所示，其中一個鶴的候選框都不是很理想：藍(lán)色、黃色、紅色三個框，每一個框都只包含了鶴的一部分信息。通過我們提出的基于上下文的候選框調(diào)整算法能有效的把包含鶴的不同的部分的候選框的信息整合起來，形成一個完整的候選框。

有了完整的候選框，可以有效的提升檢測率。

目標(biāo)跟蹤是perceiving中的另一個非?；镜娜蝿?wù)。單目標(biāo)跟蹤的困難來自于物體在運動過程中，形態(tài)由于geometry/photometry、camera viewpoint和illumination的變化、以及部分遮擋會發(fā)生強(qiáng)烈的變化。多目標(biāo)跟蹤更為困難，除了單目標(biāo)跟蹤遇到的困難，還需要區(qū)分物體的數(shù)量，以及不同的id。

因此在非受控的環(huán)境中做長序列的跟蹤非常困難。由于深度學(xué)習(xí)在目標(biāo)跟蹤中的使用，目前tracker的性能已經(jīng)得到了很大的提升。這主要是由于深度學(xué)習(xí)能夠有效的給出被跟蹤物體的本源表征，因此對于各種變化、遮擋都有很好的對抗能力。這個籃球球場中的多球員跟蹤就是很好的例子。

感知任務(wù)進(jìn)階：解決單目深度估計的病態(tài)問題

單目深度估計是一個病態(tài)問題，因此極具挑戰(zhàn)性。這個任務(wù)期望從單張場景圖中還原出像素級的深度值，且在3D場景幾何理解中扮演著關(guān)鍵角色。為什么這是一個病態(tài)問題呢？舉個例子，假設(shè)三維空間中有一條線，然后我們可以把它投射到一個平面上。在投射的平面上，我們可以看到一條直線，但是我們無法確認(rèn)，在原始的三維空間中，這條線是直線還是曲線？可是實際中，我們卻可以根據(jù)圖像的信息來估計深度信息。

比如這張圖中，人的身高在原始圖像中，大約是三厘米，但是你絕對不會認(rèn)為這個人的身高在三維實際空間中就是三里面。根據(jù)常識，我們都知道，成年男子身高大概在175到180厘米左右。

根據(jù)簡單的幾何變換，我們就能夠估計到這個人到攝像機(jī)的距離。圖像中還有很多的信息能夠幫助我們估計像素的深度信息，比如陰影、色彩的變化、layout、地面等等。關(guān)鍵的問題是，我們應(yīng)該如何設(shè)計特征，然后用合理的統(tǒng)計模型來估計每一個像素的深度。

很久之前，研究人員用handcrafted特征結(jié)合MRF（馬爾科夫隨機(jī)場）來完成這個任務(wù)。雖然傳統(tǒng)的MRF模型的預(yù)測效果不令人滿意，但是已經(jīng)存在的結(jié)果告訴大家這個問題不是完全不可解決的。

最近的方法通過探索深度神經(jīng)網(wǎng)絡(luò)（DCNN）的多層次情景語義信息在這個問題上取得了顯著的進(jìn)步。然而，這些方法預(yù)測出的深度值任然是非常不準(zhǔn)確的。

幾個可能的原因是：（1）由于深度分布的極端復(fù)雜性，在標(biāo)準(zhǔn)的回歸范例下學(xué)習(xí)深度分布是很困難的。（2）之前的工作在建模時都忽略了深度值之間的有序關(guān)系。（3）圖像級和多尺度信息目前還沒有被充分發(fā)掘。

受這些現(xiàn)象的啟發(fā)，我們首先將深度估計問題轉(zhuǎn)化到離散范例上來解決，其次通過提出一個順序回歸約束以此為深度預(yù)測引入排序機(jī)制，最后設(shè)計一個有效的多尺度深度網(wǎng)絡(luò)來實現(xiàn)更好的情景語義信息學(xué)習(xí)。我們的模型（DORN）不僅在四個非常有挑戰(zhàn)的數(shù)據(jù)集（KITTI, ScanNet, Make3D 和 NYU Depth v2）上的效果遠(yuǎn)超同行，并且贏得了 Robust Vision Challenge 2018深度估計項目的第一名。

目標(biāo)姿勢估計與預(yù)測

預(yù)測一組語義關(guān)鍵點，例如人類身體關(guān)節(jié)或鳥類部位，是圖像理解領(lǐng)域中重要的一項技術(shù) 。物體的關(guān)鍵點助于對齊對象并揭示它們之間的細(xì)微差別，同時也是計算機(jī)領(lǐng)會人類姿態(tài)的一項關(guān)鍵技術(shù)。盡管這項技術(shù)近年來取得了重大進(jìn)展，但由于物體外觀差異大，姿勢變化和遮擋等情況，關(guān)鍵點預(yù)測仍然是一項重大挑戰(zhàn)。

目前基于CNN的關(guān)鍵點定位方法使用置信度圖監(jiān)督關(guān)鍵點檢測器, 但由于不同圖片中關(guān)鍵點的檢測難易程度不同，使用同等程度置信度圖可能會不利于關(guān)鍵點檢測器的學(xué)習(xí)。

為了解決關(guān)鍵點定位的魯棒性問題，我們提出了一個粗細(xì)監(jiān)督網(wǎng)絡(luò)（CFN）深層卷積網(wǎng)絡(luò)的方法。該方法使用全卷積網(wǎng)絡(luò)，利用幾個不同深度的分支來獲得分層特征表示。并根據(jù)其感受野不同，使用粗細(xì)不同的監(jiān)督信息。最后聯(lián)合所有分層特征信息來實現(xiàn)目標(biāo)關(guān)鍵點的精確定位。我們通過鳥類部位定位和人體姿態(tài)估計的不同任務(wù)實驗證明了該方法的有效性和通用性。

要想成功的完成剛才說的這些perceiving的任務(wù)，我們都需要假設(shè)我們所獲取到的圖像都是高質(zhì)量的。但是在實際問題中，我們獲取到的圖象有可能會受到一些影響，導(dǎo)致數(shù)據(jù)質(zhì)量比較差。因此我們要解決圖像質(zhì)量評估，根據(jù)圖像質(zhì)量評估的結(jié)果，我們還要有有效的模型對圖像的質(zhì)量進(jìn)行提升，比如denoise、deblur、去除介質(zhì)湍流的影響、提升低分辨率圖像的分辨率、去霧，等等。

最近很多人都有一種感覺：深度學(xué)習(xí)一統(tǒng)天下。要解決實際問題，就是想辦法把不同的網(wǎng)絡(luò)層堆積起來、把網(wǎng)絡(luò)不斷加深，然后調(diào)參就好了。事實上，沒有這么簡單。要有效的解決實際問題，不僅我們要理解深度學(xué)習(xí)、知道該如何有效的調(diào)參，還有熟悉傳統(tǒng)的統(tǒng)計機(jī)器學(xué)習(xí)、經(jīng)典的計算機(jī)視覺，更要對問題有深刻的理解，知道如何構(gòu)建有效的學(xué)習(xí)模型，當(dāng)然是深度的學(xué)習(xí)模型。

在learning這個方向上，我們也做了很多工作：快速矩陣分解、多視角學(xué)習(xí)、多任務(wù)學(xué)習(xí)、多標(biāo)簽學(xué)習(xí)、遷移學(xué)習(xí)、有標(biāo)簽噪聲的學(xué)習(xí)、生成對抗網(wǎng)絡(luò)、深度學(xué)習(xí)理論，等等。時間原因，我簡單的介紹一下，我們最近在多視角學(xué)習(xí)、生成對抗網(wǎng)絡(luò)和深度學(xué)習(xí)理論上的一些工作。

多視角學(xué)習(xí)：面向決策策略的“盲人摸象”

大家都知道盲人摸象的故事，實際上我們做決策的時候，跟盲人是一樣的，因為我們所獲取到的信息也是不完整的。那么我們在做覺得時候，也就是根據(jù)已有的信息作出的最優(yōu)策略。因此，對于同樣的事情，每一個人所作出的決定可能也不相同。

多視角學(xué)習(xí)對于現(xiàn)今的智能系統(tǒng)非常重要，這是因為智能系統(tǒng)中都安裝了大量的傳感器，比如，現(xiàn)在的無人車安裝了激光雷達(dá)、毫米波雷達(dá)、攝像機(jī)、IMU等等。每個傳感器都只能夠感知環(huán)境中的部分信息，那么我們就需要把不同的傳感的信息融合起來，幫助我們做最后的決策。

假設(shè)存在一個oracle space，那么每個傳感器就可以被建模成對oracle space的一個線性或者非線形投影。如果我們有大量的傳感器，那么我們就能夠獲取大量的投影信息。我們可以證明，如果說我們有足夠多的不同的投影信息，我們就能夠以非常高的概率去重構(gòu)這個oracle space。有了這個oracle space，我們就可以有效的做決策了。

請大家看一下最左邊的這張圖像。你第一眼看到了什么？大多說人一定會說是船。然后你還會注意到船上有人。對不對？這個現(xiàn)象提示我們，這樣的順序信息對于我們進(jìn)行多標(biāo)簽學(xué)習(xí)會非常有幫助。通過增強(qiáng)學(xué)習(xí)，我們可以有效的學(xué)習(xí)這個順序，來提升增強(qiáng)學(xué)習(xí)的效率。

我們今天所面臨的學(xué)習(xí)問題可能是這樣的一個情況：訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自不同的傳感器或者信息域。這就是domain generalization要解決的問題。因為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自不同的域，我們就需要找尋一些特征：這些特征在訓(xùn)練數(shù)據(jù)上和測試數(shù)據(jù)上，對于完成我們的規(guī)定任務(wù)來說都是有效的。

人可以很輕松的做到這一點：我兒子3歲的時候，我給他看過長頸鹿的卡通畫片。當(dāng)我?guī)游飯@的時候，他可能很輕松的認(rèn)出真正的長頸鹿。可是在這之前，他從來沒有見過實際場景中的長頸鹿。我們當(dāng)然希望計算機(jī)也具備類似的能力。這里我們利用GAN網(wǎng)絡(luò)（對抗生成網(wǎng)絡(luò)）能夠有效地學(xué)習(xí)這樣的不變特征。

我們提出了一個端到端的條件對抗域自適應(yīng)深度學(xué)習(xí)模型來學(xué)習(xí)域不變的特征，該模型同時衡量分布P(Y)和條件概率分布P(X|Y)的不變性。該網(wǎng)絡(luò)框架包括了四個部分。第一部分AlexNet用來學(xué)習(xí)域不變的特征。第二部分是圖像分類網(wǎng)絡(luò)，用來保證學(xué)習(xí)的特征具有良好的類別區(qū)分性。

特征的域不變性質(zhì)利用類別先驗歸一化域分類網(wǎng)絡(luò)和類別條件域分類網(wǎng)絡(luò)保證。其中類別先驗歸一化域分類網(wǎng)絡(luò)用來匹配不同域的類別先驗歸一化分布，該網(wǎng)絡(luò)的主要目的是消除不同域之間的變化。其次，類別條件域分類網(wǎng)絡(luò)用來保證對于每一類的分布匹配。這樣就能夠保證不同域的聯(lián)合概率分布是匹配的。在不同標(biāo)準(zhǔn)數(shù)據(jù)集上得到的實驗結(jié)果證明了我們方法的有效性，并且要比現(xiàn)有方法有顯著的提高。

TD-GAN新框架，解決深度學(xué)習(xí)的可解釋性問題

最近大家開始關(guān)注學(xué)習(xí)的可解釋性。我們用GAN網(wǎng)絡(luò)可以學(xué)到特征來生成我們需要的數(shù)據(jù)。可是這些特征的含義是什么？我們并不清楚。

通過模仿人類理解世界的方式，我們希望計算機(jī)能夠從這個復(fù)雜的世界中學(xué)習(xí)到抽象的概念，并根據(jù)這些概念創(chuàng)造新的東西。因此，我們需要計算機(jī)能夠從真實世界圖像中提取到可分解的特征，例如照片中人物的身份，拍攝角度，光照條件等等。這個就是tag disentanglement。有了可分解的特征，我們也能很好的解釋我們學(xué)習(xí)到的特征到底是什么物理含義。

我們提出了一個新的框架（TD-GAN），用于從單個輸入圖像中提取可分解的特征，并通過調(diào)整所學(xué)特征來重新渲染圖像。從某種程度上說，TD-GAN提供了一個可以理解現(xiàn)實世界中圖像的深度學(xué)習(xí)框架。

網(wǎng)絡(luò)所學(xué)習(xí)到的可分解的特征，實際上對應(yīng)于圖像中所描述主體的不同屬性。與人類理解世界的方式相似，學(xué)習(xí)可分解的特征有助于機(jī)器解釋并重構(gòu)現(xiàn)實世界的圖像。因此，TD-GAN能夠根據(jù)用戶指定的信息合成高質(zhì)量的輸出圖像。

TD-GAN可應(yīng)用于（1）數(shù)據(jù)增強(qiáng)，即通過合成新的圖像以用于其他深度學(xué)習(xí)算法的訓(xùn)練與測試，（2）生成給定對象連續(xù)姿態(tài)的圖像，以用于三維模型重建，以及（3）通過解析，概括來增強(qiáng)現(xiàn)有創(chuàng)作，并創(chuàng)造充滿想象力的新繪畫。

學(xué)習(xí)和操控現(xiàn)實世界數(shù)據(jù)（如圖像）的概率分布是統(tǒng)計和機(jī)器學(xué)習(xí)的主要目標(biāo)之一。而近些年提出的深度生成對抗網(wǎng)絡(luò)（GAN）就是學(xué)習(xí)復(fù)雜數(shù)據(jù)概率概率分布的常用方法。

生成對抗網(wǎng)絡(luò)在許多生成相關(guān)的任務(wù)上取得了令人信服的表現(xiàn)，例如圖像生成，圖像“翻譯”和風(fēng)格變換。但是，現(xiàn)有算法仍面臨許多訓(xùn)練困難。例如，大多數(shù)GAN需要仔細(xì)平衡生成器和判別器之間的能力。不適合的參數(shù)設(shè)置會降低GAN的性能，甚至難以產(chǎn)生任何合理的輸出。

在過去相當(dāng)長的一段時間內(nèi)，很多研究人員都在研究不同的損失函數(shù)對于GAN的影響，(并且大家認(rèn)為不同的損失函數(shù)具有不同的優(yōu)勢和劣勢，并可能導(dǎo)致不同的訓(xùn)練問題)。因此很多不同的損失函數(shù)被引入到了GAN的訓(xùn)練學(xué)習(xí)中，比如minimax、least squares等等，來提升GAN的性能。

對于不同的任務(wù)、不同的數(shù)據(jù)，不同的損失函數(shù)都取得了一定的效果。后來Google的研究人員通過大量實驗發(fā)現(xiàn)，雖然不同的損失函數(shù)在不同的任務(wù)上或數(shù)據(jù)上或許會有不同的表現(xiàn)，但是總體平均的效果卻相差不多。

這就告訴我們：現(xiàn)有生成對抗網(wǎng)絡(luò)的損失函數(shù)具有不同的優(yōu)點和缺點，其預(yù)定義的對抗優(yōu)化策略可能導(dǎo)致生成對抗網(wǎng)絡(luò)訓(xùn)練時的不穩(wěn)定。受自然演化啟發(fā)，我們設(shè)計了一個用于訓(xùn)練生成對抗網(wǎng)絡(luò)的演化框架。在每次迭代期間，生成器經(jīng)歷不同的突變以產(chǎn)生多種后代。然后，給定當(dāng)前學(xué)習(xí)到的判別器，我們評估由更新的后代產(chǎn)生樣本的質(zhì)量和多樣性。最后，根據(jù)“適者生存”的原則，去除表現(xiàn)不佳的后代，保留剩余的表現(xiàn)良好的發(fā)生器并用于進(jìn)一步對抗訓(xùn)練。

基于的進(jìn)化模型的生成對抗網(wǎng)絡(luò)克服了個體對抗訓(xùn)練方法所存在的固有局限性，極大的穩(wěn)定了生成對抗網(wǎng)絡(luò)的訓(xùn)練過程病提升了生成效果。實驗證明，所提出的E-GAN實現(xiàn)了令人信服的圖像生成性能，并減少了現(xiàn)有GAN固有的訓(xùn)練問題。

這個工作，被MIT Technology Review評為熱點論文（one of “The Best of the PhysicsarXiv”）。

我們都知道，深度神經(jīng)網(wǎng)絡(luò)有一個特點，就是參數(shù)空間大，模型復(fù)雜度高。傳統(tǒng)的統(tǒng)計學(xué)習(xí)理論認(rèn)為，參數(shù)空間越大，模型復(fù)雜度越高，那么它對訓(xùn)練數(shù)據(jù)的擬合能力就越強(qiáng)，但是泛化能力會變得越差。

Universal approximation theorem已經(jīng)證明了傳統(tǒng)的、有一個隱層的，多層感知機(jī)能夠擬合任何數(shù)據(jù)。舉個例子，這樣的模型完全可以擬合ImageNet這樣的數(shù)據(jù)。如果這樣，為什么我們還要不斷的增加網(wǎng)絡(luò)的深度，從最初的六層的AlexNet，到后來的152層的ResNet，甚至還有人用幾百層的網(wǎng)絡(luò)？因為我們都知道，這個單隱層的模型只有機(jī)會取得很小的訓(xùn)練誤差，但是泛化能力卻非常差。也就是說，測試效果并不好。

對于一個機(jī)器學(xué)習(xí)模型，如果它的訓(xùn)練誤差遠(yuǎn)小于測試誤差，那么它就發(fā)生了過擬合。在現(xiàn)有的統(tǒng)計學(xué)習(xí)理論框架下，對于神經(jīng)網(wǎng)絡(luò)，有兩個尚未解決的問題：首先，為什么模型復(fù)雜度非常高的深度神經(jīng)網(wǎng)絡(luò)，不會發(fā)生過擬合？其次，深度神經(jīng)網(wǎng)絡(luò)是越深越好嗎？

利用信息論中的信息處理不等式，我們最近的工作得到了這樣一個有趣的結(jié)論：深度神經(jīng)網(wǎng)絡(luò)的泛化誤差會隨著層數(shù)的增加而指數(shù)衰減。這樣的結(jié)論告訴我們，在保證訓(xùn)練誤差足夠小的前提下，原則上網(wǎng)絡(luò)是越深越好。

推理與行為任務(wù)：看圖對話與看圖問答

關(guān)于reasoning和behaving，我們也做了一些工作。這里我提一下模仿學(xué)習(xí)、視覺問題回答和視覺對話。

目前任何機(jī)器人主要的交互方式是通過設(shè)定的程序和參數(shù)。但是目前的機(jī)器人已經(jīng)安裝了攝像機(jī)，那么我們希望不愿的將來，機(jī)器人可以通過觀察人的動作、模仿人的動作，來達(dá)到學(xué)習(xí)的效果。

看圖問答旨在以問答的交互方式解決視覺內(nèi)容細(xì)粒度內(nèi)容理解。給定任意圖片，用戶針對圖像內(nèi)容使用自然語言進(jìn)行提問，算法提供準(zhǔn)確的自然語言的答案。一個典型的視覺問答框架主要包含視覺特征細(xì)粒度表達(dá)、視覺注意力學(xué)習(xí)、多模態(tài)特征細(xì)粒度融合三個模塊。

針對三個關(guān)鍵模塊，我們都提出了更為有效的方式。這樣的模型對于機(jī)器人和人的交互，也是非常重要的。在視覺問答的標(biāo)準(zhǔn)數(shù)據(jù)集VQA v2的實時排行榜，我們的方法取得了目前業(yè)界最好水平。

比看圖問答更為復(fù)雜的一個相關(guān)任務(wù)是visual dialog（看圖對話）。與看圖問答任務(wù)相比，看圖對話有兩個挑戰(zhàn)：第一是對話歷史問題，也就是上下文指代關(guān)系。第二是如何區(qū)分相似的答案。我們在最近的比賽中有效的考慮了這兩個問題，并且取得了很好的效果。

最后，我請大家看一下這張照片?，F(xiàn)在，我不問你這里有多少人了，而是問你這些人在干什么。我想，你瞬間就可以告訴我，這些人在看比賽。這張照片和演講一開始的那張照片的內(nèi)容是完全不一樣的。那張照片就是大家在照集體照?？墒?strong>對于計算機(jī)來說，要回答出這兩張照片有什么不同還很困難，至少需要堆積大量的數(shù)據(jù)進(jìn)行訓(xùn)練，才能夠去回答這樣非常簡單的問題。

這樣的智能是我們需要的人工智能嗎？顯然不是，我們希望未來我們的計算機(jī)能夠在很多方面跟人具有共同的特性。因此，我們要讓計算機(jī)有更好的推理和行為能力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4844

瀏覽量
108280
人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50440

瀏覽量
267444

原文標(biāo)題：悉尼大學(xué)陶大程：遺傳對抗生成網(wǎng)絡(luò)有效解決GAN兩大痛點

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

傳統(tǒng)GAN網(wǎng)絡(luò)學(xué)習(xí)的兩個痛點怎么解決？

評論

搜索歷史

傳統(tǒng)GAN網(wǎng)絡(luò)學(xué)習(xí)的兩個痛點怎么解決？

評論

傳統(tǒng)GAN網(wǎng)絡(luò)學(xué)習(xí)的兩個痛點怎么解決？