日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

傳統(tǒng)GAN網(wǎng)絡(luò)學(xué)習(xí)的兩個痛點怎么解決?

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-10-08 09:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

悉尼大學(xué)教授、澳大利亞科學(xué)院院士、優(yōu)必選首席科學(xué)家陶大成博士指出,人類具有感知、推理、學(xué)習(xí)和行為四個方面的智能,AI的終極目標(biāo)就是讓機(jī)器具備和人類一樣的智能。在9月20日的AI WORLD 2018 世界人工智能峰會上,陶大程博士介紹了他的團(tuán)隊在這四個方向上取得的重大進(jìn)展。

悉尼大學(xué)教授、澳大利亞科學(xué)院院士、優(yōu)必選人工智能首席科學(xué)家陶大程博士在9月20日的AI WORLD 2018世界人工智能峰會上發(fā)表《AI破曉:機(jī)遇與挑戰(zhàn)》的主題演講。

陶大程表示,人工智能的目標(biāo)是在機(jī)器上實現(xiàn)類似人的智能。人有四個方面的智能:Perceiving、Learning、Reasoning和Behaving。他的演講圍繞這四個方面展開。

Perceiving包含了很多方面:物體檢測、目標(biāo)跟蹤、場景分割、關(guān)鍵點檢測、人臉圖像分析等等。但是高性能perceiving還依賴于高質(zhì)量的數(shù)據(jù)輸入。如果輸入圖像或者視頻受到噪聲、湍流、模糊、霧、低分辨率等因素的影響,就需要提升數(shù)據(jù)質(zhì)量。

在learning方面,陶大程博士介紹了多視角學(xué)習(xí)、多標(biāo)簽學(xué)習(xí)、adversarial domain generalisation、tag disentangled GAN等等。尤其是遺傳對抗生成網(wǎng)絡(luò)(Evolutionary GAN)有效的解決了傳統(tǒng)GAN網(wǎng)絡(luò)學(xué)習(xí)的兩個痛點:

(1)訓(xùn)練不穩(wěn)定性。

(2)模型塌縮。這個工作也被麻省理工學(xué)院技術(shù)評論(MIT Technology Review)評選為熱點論文(The Best of the Physics arXiv)。

另外受到信息論中數(shù)據(jù)處理不等式的啟發(fā),陶博士和他的學(xué)生們在理論上解釋了深度學(xué)習(xí)中兩個備受關(guān)注的問題:(1)為什么模型復(fù)雜度非常高的深度神經(jīng)網(wǎng)絡(luò),不會發(fā)生過擬合?(2)深度神經(jīng)網(wǎng)絡(luò)是越深越好嗎?

最后,陶大程博士介紹了優(yōu)必選悉尼大學(xué)人工智能研究院在reasoning和behaving方面的一些進(jìn)展。他的團(tuán)隊最近在visual question answering(VQA,看圖回答問題)和visual dialog(看圖對話)的國際比賽中都取得了非常不錯的成績。

目前陶大程博士的團(tuán)隊努力在人形機(jī)器人上實現(xiàn)示教學(xué)習(xí)(imitation learning),希望不久的將來能夠?qū)崿F(xiàn):機(jī)器人通過攝像機(jī)來理解人的行為,模仿人的行為,并且最終有效的和人進(jìn)行互動。

以下是新智元整理的陶大成教授的演講內(nèi)容:

非常感謝新智元邀請我來跟大家分享一下,過去這兩年我們在人工智能領(lǐng)域里做的一些工作。

首先請大家看這張照片。我這里想問大家一個問題,這張照片中有多少人?回答這個問題不難,但是要花很多時間。我們?nèi)绻粋€個人的去數(shù),那么大約用一個小時的時間,我們可以知道這里有差不多900多個人。

如果用我們的人臉檢測技術(shù),在有GPU顯卡的臺式機(jī)上,只用三秒鐘就可以得到差不多的結(jié)果。這看起來是個很簡單的任務(wù),但對于計算機(jī)來說并不總是那么一帆風(fēng)順。2017年,我們的算法大概能檢測七百多張人臉,然后到八百多個,到現(xiàn)在九百多,接近人的效果。另外我們發(fā)現(xiàn),用計算機(jī)檢測到的人臉實際上還有助于人去發(fā)現(xiàn)一些人剛開始沒有看到的人臉。這也從一特別的角度說明了,人工智能能夠擴(kuò)展人的智能。

人工智能的目標(biāo):在機(jī)器上實現(xiàn)類似人的智能

什么是人工智能?人工智能就是機(jī)器所展示出來的智能,所以可以叫做“機(jī)器智能”,以區(qū)別人所展現(xiàn)出來的智能。人有四個方面的智能:Perceiving、Learning、Reasoning、以及Behaving。人工智能的目標(biāo)就是讓機(jī)器實現(xiàn)、模擬人的智能。我們期待有一天,機(jī)器也能夠像人一樣去感知世界,去學(xué)習(xí)、推理,去做出相應(yīng)的一些反應(yīng)。因此,我們需要讓人工智能具有這四個方面的能力。

這個視頻展示了我們在人工智能領(lǐng)域里面的一些核心技術(shù),包括目標(biāo)檢測、(單、多)目標(biāo)跟蹤、目標(biāo)分割、特征點檢測、人體姿態(tài)估計、表情分析、年齡估計、單攝像機(jī)深度估計等。

為什么今天大家都在談人工智能?因為我們有大數(shù)據(jù),有超強(qiáng)的計算服務(wù)器,因此相對于很久之前,我們現(xiàn)在有能力有效地去訓(xùn)練超大規(guī)模的模型。雖然很久之前,多層神經(jīng)網(wǎng)絡(luò)已經(jīng)出現(xiàn),但是受制于數(shù)據(jù)和計算能力,一直沒有能夠得到很好的推廣。更重要的是,我們目前有大量的來自產(chǎn)業(yè)界、學(xué)術(shù)界、以及政府部門的實際需求。這些真正促成了今天的人工智能的再一次爆發(fā)。產(chǎn)業(yè)界的迫切需求也極大地推動了學(xué)術(shù)界對人工智能的投入。

今天,我講介紹一下我們在perceiving(感知)、learning(學(xué)習(xí))、reasoning(推理)和 behaving(行為)四個方面的進(jìn)展。

感知任務(wù)基礎(chǔ):物體檢測與目標(biāo)跟蹤

物體檢測是perceiving中的一項基本任務(wù)。現(xiàn)有的兩階段目標(biāo)檢測器取得了非常好的效果。首先生成區(qū)域候選框,然后對這些候選框進(jìn)行調(diào)整。調(diào)整過程會更新后續(xù)框的坐標(biāo)并預(yù)測物體的類別。但是,不準(zhǔn)確的候選框有可能會導(dǎo)致不正確的檢測結(jié)果。

為了解決這個問題,我們提出了基于上下文的調(diào)整算法。具體的講,我們發(fā)現(xiàn)對于一個檢測框,它周圍的檢測框常常提供了對于要檢測物體的補(bǔ)充性信息。

因此,我們嘗試從周圍檢測框提取有用的上下文信息用來改進(jìn)現(xiàn)有的調(diào)整算法。在我們提出的方法里,我們會基于一個加權(quán)過程來融合提取出來的上下文信息。最后,利用融合后的上下文信息以及相應(yīng)的視覺特征,我們提出的基于上下文的候選框調(diào)整算法能實質(zhì)性地改進(jìn)現(xiàn)有的調(diào)整算法。

舉個例子,如圖所示,其中一個鶴的候選框都不是很理想:藍(lán)色、黃色、紅色三個框,每一個框都只包含了鶴的一部分信息。通過我們提出的基于上下文的候選框調(diào)整算法能有效的把包含鶴的不同的部分的候選框的信息整合起來,形成一個完整的候選框。

有了完整的候選框,可以有效的提升檢測率。

目標(biāo)跟蹤是perceiving中的另一個非?;镜娜蝿?wù)。單目標(biāo)跟蹤的困難來自于物體在運動過程中,形態(tài)由于geometry/photometry、camera viewpoint和illumination的變化、以及部分遮擋會發(fā)生強(qiáng)烈的變化。多目標(biāo)跟蹤更為困難,除了單目標(biāo)跟蹤遇到的困難,還需要區(qū)分物體的數(shù)量,以及不同的id。

因此在非受控的環(huán)境中做長序列的跟蹤非常困難。由于深度學(xué)習(xí)在目標(biāo)跟蹤中的使用,目前tracker的性能已經(jīng)得到了很大的提升。這主要是由于深度學(xué)習(xí)能夠有效的給出被跟蹤物體的本源表征,因此對于各種變化、遮擋都有很好的對抗能力。這個籃球球場中的多球員跟蹤就是很好的例子。

感知任務(wù)進(jìn)階:解決單目深度估計的病態(tài)問題

單目深度估計是一個病態(tài)問題,因此極具挑戰(zhàn)性。這個任務(wù)期望從單張場景圖中還原出像素級的深度值,且在3D場景幾何理解中扮演著關(guān)鍵角色。為什么這是一個病態(tài)問題呢?舉個例子,假設(shè)三維空間中有一條線,然后我們可以把它投射到一個平面上。在投射的平面上,我們可以看到一條直線,但是我們無法確認(rèn),在原始的三維空間中,這條線是直線還是曲線?可是實際中,我們卻可以根據(jù)圖像的信息來估計深度信息。

比如這張圖中,人的身高在原始圖像中,大約是三厘米,但是你絕對不會認(rèn)為這個人的身高在三維實際空間中就是三里面。根據(jù)常識,我們都知道,成年男子身高大概在175到180厘米左右。

根據(jù)簡單的幾何變換,我們就能夠估計到這個人到攝像機(jī)的距離。圖像中還有很多的信息能夠幫助我們估計像素的深度信息,比如陰影、色彩的變化、layout、地面等等。關(guān)鍵的問題是,我們應(yīng)該如何設(shè)計特征,然后用合理的統(tǒng)計模型來估計每一個像素的深度。

很久之前,研究人員用handcrafted特征結(jié)合MRF(馬爾科夫隨機(jī)場)來完成這個任務(wù)。雖然傳統(tǒng)的MRF模型的預(yù)測效果不令人滿意,但是已經(jīng)存在的結(jié)果告訴大家這個問題不是完全不可解決的。

最近的方法通過探索深度神經(jīng)網(wǎng)絡(luò)(DCNN)的多層次情景語義信息在這個問題上取得了顯著的進(jìn)步。然而,這些方法預(yù)測出的深度值任然是非常不準(zhǔn)確的。

幾個可能的原因是:(1)由于深度分布的極端復(fù)雜性,在標(biāo)準(zhǔn)的回歸范例下學(xué)習(xí)深度分布是很困難的。(2)之前的工作在建模時都忽略了深度值之間的有序關(guān)系。(3)圖像級和多尺度信息目前還沒有被充分發(fā)掘。

受這些現(xiàn)象的啟發(fā),我們首先將深度估計問題轉(zhuǎn)化到離散范例上來解決,其次通過提出一個順序回歸約束以此為深度預(yù)測引入排序機(jī)制,最后設(shè)計一個有效的多尺度深度網(wǎng)絡(luò)來實現(xiàn)更好的情景語義信息學(xué)習(xí)。我們的模型(DORN)不僅在四個非常有挑戰(zhàn)的數(shù)據(jù)集(KITTI, ScanNet, Make3D 和 NYU Depth v2)上的效果遠(yuǎn)超同行,并且贏得了 Robust Vision Challenge 2018深度估計項目的第一名。

目標(biāo)姿勢估計與預(yù)測

預(yù)測一組語義關(guān)鍵點,例如人類身體關(guān)節(jié)或鳥類部位,是圖像理解領(lǐng)域中重要的一項技術(shù) 。物體的關(guān)鍵點助于對齊對象并揭示它們之間的細(xì)微差別,同時也是計算機(jī)領(lǐng)會人類姿態(tài)的一項關(guān)鍵技術(shù)。盡管這項技術(shù)近年來取得了重大進(jìn)展,但由于物體外觀差異大,姿勢變化和遮擋等情況,關(guān)鍵點預(yù)測仍然是一項重大挑戰(zhàn)。

目前基于CNN的關(guān)鍵點定位方法使用置信度圖監(jiān)督關(guān)鍵點檢測器, 但由于不同圖片中關(guān)鍵點的檢測難易程度不同,使用同等程度置信度圖可能會不利于關(guān)鍵點檢測器的學(xué)習(xí)。

為了解決關(guān)鍵點定位的魯棒性問題,我們提出了一個粗細(xì)監(jiān)督網(wǎng)絡(luò)(CFN)深層卷積網(wǎng)絡(luò)的方法。該方法使用全卷積網(wǎng)絡(luò),利用幾個不同深度的分支來獲得分層特征表示。并根據(jù)其感受野不同,使用粗細(xì)不同的監(jiān)督信息。最后聯(lián)合所有分層特征信息來實現(xiàn)目標(biāo)關(guān)鍵點的精確定位。我們通過鳥類部位定位和人體姿態(tài)估計的不同任務(wù)實驗證明了該方法的有效性和通用性。

要想成功的完成剛才說的這些perceiving的任務(wù),我們都需要假設(shè)我們所獲取到的圖像都是高質(zhì)量的。但是在實際問題中,我們獲取到的圖象有可能會受到一些影響,導(dǎo)致數(shù)據(jù)質(zhì)量比較差。因此我們要解決圖像質(zhì)量評估,根據(jù)圖像質(zhì)量評估的結(jié)果,我們還要有有效的模型對圖像的質(zhì)量進(jìn)行提升,比如denoise、deblur、去除介質(zhì)湍流的影響、提升低分辨率圖像的分辨率、去霧,等等。

最近很多人都有一種感覺:深度學(xué)習(xí)一統(tǒng)天下。要解決實際問題,就是想辦法把不同的網(wǎng)絡(luò)層堆積起來、把網(wǎng)絡(luò)不斷加深,然后調(diào)參就好了。事實上,沒有這么簡單。要有效的解決實際問題,不僅我們要理解深度學(xué)習(xí)、知道該如何有效的調(diào)參,還有熟悉傳統(tǒng)的統(tǒng)計機(jī)器學(xué)習(xí)、經(jīng)典的計算機(jī)視覺,更要對問題有深刻的理解,知道如何構(gòu)建有效的學(xué)習(xí)模型,當(dāng)然是深度的學(xué)習(xí)模型。

在learning這個方向上,我們也做了很多工作:快速矩陣分解、多視角學(xué)習(xí)、多任務(wù)學(xué)習(xí)、多標(biāo)簽學(xué)習(xí)、遷移學(xué)習(xí)、有標(biāo)簽噪聲的學(xué)習(xí)、生成對抗網(wǎng)絡(luò)、深度學(xué)習(xí)理論,等等。時間原因,我簡單的介紹一下,我們最近在多視角學(xué)習(xí)、生成對抗網(wǎng)絡(luò)和深度學(xué)習(xí)理論上的一些工作。

多視角學(xué)習(xí):面向決策策略的“盲人摸象”

大家都知道盲人摸象的故事,實際上我們做決策的時候,跟盲人是一樣的,因為我們所獲取到的信息也是不完整的。那么我們在做覺得時候,也就是根據(jù)已有的信息作出的最優(yōu)策略。因此,對于同樣的事情,每一個人所作出的決定可能也不相同。

多視角學(xué)習(xí)對于現(xiàn)今的智能系統(tǒng)非常重要,這是因為智能系統(tǒng)中都安裝了大量的傳感器,比如,現(xiàn)在的無人車安裝了激光雷達(dá)、毫米波雷達(dá)、攝像機(jī)、IMU等等。每個傳感器都只能夠感知環(huán)境中的部分信息,那么我們就需要把不同的傳感的信息融合起來,幫助我們做最后的決策。

假設(shè)存在一個oracle space,那么每個傳感器就可以被建模成對oracle space的一個線性或者非線形投影。如果我們有大量的傳感器,那么我們就能夠獲取大量的投影信息。我們可以證明,如果說我們有足夠多的不同的投影信息,我們就能夠以非常高的概率去重構(gòu)這個oracle space。有了這個oracle space,我們就可以有效的做決策了。

請大家看一下最左邊的這張圖像。你第一眼看到了什么?大多說人一定會說是船。然后你還會注意到船上有人。對不對?這個現(xiàn)象提示我們,這樣的順序信息對于我們進(jìn)行多標(biāo)簽學(xué)習(xí)會非常有幫助。通過增強(qiáng)學(xué)習(xí),我們可以有效的學(xué)習(xí)這個順序,來提升增強(qiáng)學(xué)習(xí)的效率。

我們今天所面臨的學(xué)習(xí)問題可能是這樣的一個情況:訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自不同的傳感器或者信息域。這就是domain generalization要解決的問題。因為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自不同的域,我們就需要找尋一些特征:這些特征在訓(xùn)練數(shù)據(jù)上和測試數(shù)據(jù)上,對于完成我們的規(guī)定任務(wù)來說都是有效的。

人可以很輕松的做到這一點:我兒子3歲的時候,我給他看過長頸鹿的卡通畫片。當(dāng)我?guī)游飯@的時候,他可能很輕松的認(rèn)出真正的長頸鹿。可是在這之前,他從來沒有見過實際場景中的長頸鹿。我們當(dāng)然希望計算機(jī)也具備類似的能力。這里我們利用GAN網(wǎng)絡(luò)(對抗生成網(wǎng)絡(luò))能夠有效地學(xué)習(xí)這樣的不變特征。

我們提出了一個端到端的條件對抗域自適應(yīng)深度學(xué)習(xí)模型來學(xué)習(xí)域不變的特征,該模型同時衡量分布P(Y)和條件概率分布P(X|Y)的不變性。該網(wǎng)絡(luò)框架包括了四個部分。第一部分AlexNet用來學(xué)習(xí)域不變的特征。第二部分是圖像分類網(wǎng)絡(luò),用來保證學(xué)習(xí)的特征具有良好的類別區(qū)分性。

特征的域不變性質(zhì)利用類別先驗歸一化域分類網(wǎng)絡(luò)和類別條件域分類網(wǎng)絡(luò)保證。其中類別先驗歸一化域分類網(wǎng)絡(luò)用來匹配不同域的類別先驗歸一化分布,該網(wǎng)絡(luò)的主要目的是消除不同域之間的變化。其次,類別條件域分類網(wǎng)絡(luò)用來保證對于每一類的分布匹配。這樣就能夠保證不同域的聯(lián)合概率分布是匹配的。在不同標(biāo)準(zhǔn)數(shù)據(jù)集上得到的實驗結(jié)果證明了我們方法的有效性,并且要比現(xiàn)有方法有顯著的提高。

TD-GAN新框架,解決深度學(xué)習(xí)的可解釋性問題

最近大家開始關(guān)注學(xué)習(xí)的可解釋性。我們用GAN網(wǎng)絡(luò)可以學(xué)到特征來生成我們需要的數(shù)據(jù)。可是這些特征的含義是什么?我們并不清楚。

通過模仿人類理解世界的方式,我們希望計算機(jī)能夠從這個復(fù)雜的世界中學(xué)習(xí)到抽象的概念,并根據(jù)這些概念創(chuàng)造新的東西。因此,我們需要計算機(jī)能夠從真實世界圖像中提取到可分解的特征,例如照片中人物的身份,拍攝角度,光照條件等等。這個就是tag disentanglement。有了可分解的特征,我們也能很好的解釋我們學(xué)習(xí)到的特征到底是什么物理含義。

我們提出了一個新的框架(TD-GAN),用于從單個輸入圖像中提取可分解的特征,并通過調(diào)整所學(xué)特征來重新渲染圖像。從某種程度上說,TD-GAN提供了一個可以理解現(xiàn)實世界中圖像的深度學(xué)習(xí)框架。

網(wǎng)絡(luò)所學(xué)習(xí)到的可分解的特征,實際上對應(yīng)于圖像中所描述主體的不同屬性。與人類理解世界的方式相似,學(xué)習(xí)可分解的特征有助于機(jī)器解釋并重構(gòu)現(xiàn)實世界的圖像。因此,TD-GAN能夠根據(jù)用戶指定的信息合成高質(zhì)量的輸出圖像。

TD-GAN可應(yīng)用于(1)數(shù)據(jù)增強(qiáng),即通過合成新的圖像以用于其他深度學(xué)習(xí)算法的訓(xùn)練與測試,(2)生成給定對象連續(xù)姿態(tài)的圖像,以用于三維模型重建,以及(3)通過解析,概括來增強(qiáng)現(xiàn)有創(chuàng)作,并創(chuàng)造充滿想象力的新繪畫。

學(xué)習(xí)和操控現(xiàn)實世界數(shù)據(jù)(如圖像)的概率分布是統(tǒng)計和機(jī)器學(xué)習(xí)的主要目標(biāo)之一。而近些年提出的深度生成對抗網(wǎng)絡(luò)(GAN)就是學(xué)習(xí)復(fù)雜數(shù)據(jù)概率概率分布的常用方法。

生成對抗網(wǎng)絡(luò)在許多生成相關(guān)的任務(wù)上取得了令人信服的表現(xiàn),例如圖像生成,圖像“翻譯”和風(fēng)格變換。但是,現(xiàn)有算法仍面臨許多訓(xùn)練困難。例如,大多數(shù)GAN需要仔細(xì)平衡生成器和判別器之間的能力。不適合的參數(shù)設(shè)置會降低GAN的性能,甚至難以產(chǎn)生任何合理的輸出。

在過去相當(dāng)長的一段時間內(nèi),很多研究人員都在研究不同的損失函數(shù)對于GAN的影響,(并且大家認(rèn)為不同的損失函數(shù)具有不同的優(yōu)勢和劣勢,并可能導(dǎo)致不同的訓(xùn)練問題)。因此很多不同的損失函數(shù)被引入到了GAN的訓(xùn)練學(xué)習(xí)中,比如minimax、least squares等等,來提升GAN的性能。

對于不同的任務(wù)、不同的數(shù)據(jù),不同的損失函數(shù)都取得了一定的效果。后來Google的研究人員通過大量實驗發(fā)現(xiàn),雖然不同的損失函數(shù)在不同的任務(wù)上或數(shù)據(jù)上或許會有不同的表現(xiàn),但是總體平均的效果卻相差不多。

這就告訴我們:現(xiàn)有生成對抗網(wǎng)絡(luò)的損失函數(shù)具有不同的優(yōu)點和缺點,其預(yù)定義的對抗優(yōu)化策略可能導(dǎo)致生成對抗網(wǎng)絡(luò)訓(xùn)練時的不穩(wěn)定。受自然演化啟發(fā),我們設(shè)計了一個用于訓(xùn)練生成對抗網(wǎng)絡(luò)的演化框架。在每次迭代期間,生成器經(jīng)歷不同的突變以產(chǎn)生多種后代。然后,給定當(dāng)前學(xué)習(xí)到的判別器,我們評估由更新的后代產(chǎn)生樣本的質(zhì)量和多樣性。最后,根據(jù)“適者生存”的原則,去除表現(xiàn)不佳的后代,保留剩余的表現(xiàn)良好的發(fā)生器并用于進(jìn)一步對抗訓(xùn)練。

基于的進(jìn)化模型的生成對抗網(wǎng)絡(luò)克服了個體對抗訓(xùn)練方法所存在的固有局限性,極大的穩(wěn)定了生成對抗網(wǎng)絡(luò)的訓(xùn)練過程病提升了生成效果。實驗證明,所提出的E-GAN實現(xiàn)了令人信服的圖像生成性能,并減少了現(xiàn)有GAN固有的訓(xùn)練問題。

這個工作,被MIT Technology Review評為熱點論文(one of “The Best of the PhysicsarXiv”)。

我們都知道,深度神經(jīng)網(wǎng)絡(luò)有一個特點,就是參數(shù)空間大,模型復(fù)雜度高。傳統(tǒng)的統(tǒng)計學(xué)習(xí)理論認(rèn)為,參數(shù)空間越大,模型復(fù)雜度越高,那么它對訓(xùn)練數(shù)據(jù)的擬合能力就越強(qiáng),但是泛化能力會變得越差。

Universal approximation theorem已經(jīng)證明了傳統(tǒng)的、有一個隱層的,多層感知機(jī)能夠擬合任何數(shù)據(jù)。舉個例子,這樣的模型完全可以擬合ImageNet這樣的數(shù)據(jù)。如果這樣,為什么我們還要不斷的增加網(wǎng)絡(luò)的深度,從最初的六層的AlexNet,到后來的152層的ResNet,甚至還有人用幾百層的網(wǎng)絡(luò)?因為我們都知道,這個單隱層的模型只有機(jī)會取得很小的訓(xùn)練誤差,但是泛化能力卻非常差。也就是說,測試效果并不好。

對于一個機(jī)器學(xué)習(xí)模型,如果它的訓(xùn)練誤差遠(yuǎn)小于測試誤差,那么它就發(fā)生了過擬合。在現(xiàn)有的統(tǒng)計學(xué)習(xí)理論框架下,對于神經(jīng)網(wǎng)絡(luò),有兩個尚未解決的問題:首先,為什么模型復(fù)雜度非常高的深度神經(jīng)網(wǎng)絡(luò),不會發(fā)生過擬合?其次,深度神經(jīng)網(wǎng)絡(luò)是越深越好嗎?

利用信息論中的信息處理不等式,我們最近的工作得到了這樣一個有趣的結(jié)論:深度神經(jīng)網(wǎng)絡(luò)的泛化誤差會隨著層數(shù)的增加而指數(shù)衰減。這樣的結(jié)論告訴我們,在保證訓(xùn)練誤差足夠小的前提下,原則上網(wǎng)絡(luò)是越深越好。

推理與行為任務(wù):看圖對話與看圖問答

關(guān)于reasoning和behaving,我們也做了一些工作。這里我提一下模仿學(xué)習(xí)、視覺問題回答和視覺對話。

目前任何機(jī)器人主要的交互方式是通過設(shè)定的程序和參數(shù)。但是目前的機(jī)器人已經(jīng)安裝了攝像機(jī),那么我們希望不愿的將來,機(jī)器人可以通過觀察人的動作、模仿人的動作,來達(dá)到學(xué)習(xí)的效果。

看圖問答旨在以問答的交互方式解決視覺內(nèi)容細(xì)粒度內(nèi)容理解。給定任意圖片,用戶針對圖像內(nèi)容使用自然語言進(jìn)行提問,算法提供準(zhǔn)確的自然語言的答案。一個典型的視覺問答框架主要包含視覺特征細(xì)粒度表達(dá)、視覺注意力學(xué)習(xí)、多模態(tài)特征細(xì)粒度融合三個模塊。

針對三個關(guān)鍵模塊,我們都提出了更為有效的方式。這樣的模型對于機(jī)器人和人的交互,也是非常重要的。在視覺問答的標(biāo)準(zhǔn)數(shù)據(jù)集VQA v2的實時排行榜,我們的方法取得了目前業(yè)界最好水平。

比看圖問答更為復(fù)雜的一個相關(guān)任務(wù)是visual dialog(看圖對話)。與看圖問答任務(wù)相比,看圖對話有兩個挑戰(zhàn):第一是對話歷史問題,也就是上下文指代關(guān)系。第二是如何區(qū)分相似的答案。我們在最近的比賽中有效的考慮了這兩個問題,并且取得了很好的效果。

最后,我請大家看一下這張照片?,F(xiàn)在,我不問你這里有多少人了,而是問你這些人在干什么。我想,你瞬間就可以告訴我,這些人在看比賽。這張照片和演講一開始的那張照片的內(nèi)容是完全不一樣的。那張照片就是大家在照集體照??墒?strong>對于計算機(jī)來說,要回答出這兩張照片有什么不同還很困難,至少需要堆積大量的數(shù)據(jù)進(jìn)行訓(xùn)練,才能夠去回答這樣非常簡單的問題。

這樣的智能是我們需要的人工智能嗎?顯然不是,我們希望未來我們的計算機(jī)能夠在很多方面跟人具有共同的特性。因此,我們要讓計算機(jī)有更好的推理和行為能力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:悉尼大學(xué)陶大程:遺傳對抗生成網(wǎng)絡(luò)有效解決GAN兩大痛點

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    解決芯片工程師的

    是尖端創(chuàng)新的一年。創(chuàng)新而又體現(xiàn)未來感。 不過這個創(chuàng)新的未來,來的不是那么容易。你可以問任何一位現(xiàn)代芯片工程師。事實上,根據(jù)終端用戶的期望開發(fā)出尖端創(chuàng)新設(shè)備的壓力,正在加劇兩個特殊的,而這
    發(fā)表于 11-07 16:38 ?3644次閱讀

    解決傳統(tǒng)雙槍直流充電樁的問題

    傳統(tǒng)充電樁對大巴車充電存在較多弊端,充電弓是如何應(yīng)用CANWiFi進(jìn)行無線通信升級,進(jìn)而解決傳統(tǒng)雙槍直流充電樁的問題呢?
    的頭像 發(fā)表于 04-23 08:36 ?1.5w次閱讀

    5G網(wǎng)絡(luò)通信有哪些技術(shù)?

    ,這些技術(shù)使得5G網(wǎng)絡(luò)能夠滿足未來物聯(lián)網(wǎng)、智能制造、自動駕駛等領(lǐng)域?qū)Ω咚佟⒌蜁r延、高可靠性的通信需求。 5G網(wǎng)絡(luò)通信有哪些技術(shù)? 5G網(wǎng)絡(luò)
    發(fā)表于 12-02 06:05

    智慧教育領(lǐng)域的

    `VR的出現(xiàn)讓教育這一傳統(tǒng)行業(yè)變得豐富多彩。VR教育相較于傳統(tǒng)教育行業(yè),不僅能拓展學(xué)習(xí)的多維度空間、激發(fā)學(xué)生的學(xué)習(xí)想去,而且可以讓學(xué)生“身臨其境”地去體驗交互。雖說VR虛擬現(xiàn)實教育已逐
    發(fā)表于 11-22 10:04

    模電學(xué)習(xí)兩個重點

    我來聊聊模電學(xué)習(xí)兩個重點     凡是學(xué)電的,總是避不開模電。    上學(xué)時老師教的知識,畢業(yè)時統(tǒng)統(tǒng)還給老師。畢業(yè)后又要從事產(chǎn)品設(shè)計,《模
    發(fā)表于 06-08 18:04 ?3207次閱讀

    兩個可變零、兩個固定極點的有源濾波器

    兩個可變零兩個固定極點的有源濾波器
    發(fā)表于 04-15 10:51 ?740次閱讀
    有<b class='flag-5'>兩個</b>可變零<b class='flag-5'>點</b>、<b class='flag-5'>兩個</b>固定極點的有源濾波器

    Proteus之兩個8×8陣字符顯示樣式之一

    Proteus之兩個8×8陣字符顯示樣式之一,很好的Proteus資料,快來下載不學(xué)習(xí)吧。
    發(fā)表于 04-18 17:11 ?0次下載

    Proteus之兩個8×8陣字符顯示樣式之二

    Proteus之兩個8×8陣字符顯示樣式之二,很好的Proteus資料,快來下載不學(xué)習(xí)吧。
    發(fā)表于 04-18 17:11 ?0次下載

    Proteus之兩兩個8×8陣滾動顯示

    Proteus之兩兩個8×8陣滾動顯示,很好的Proteus資料,快來下載不學(xué)習(xí)吧。
    發(fā)表于 04-18 17:11 ?0次下載

    Proteus之兩個16×16陣漢字顯示

    Proteus之兩個16×16陣漢字顯示,很好的Proteus資料,快來下載不學(xué)習(xí)吧。
    發(fā)表于 04-18 17:11 ?0次下載

    Proteus之兩個16×16陣漢字分批顯示

    Proteus之兩個16×16陣漢字分批顯示,很好的Proteus資料,快來下載不學(xué)習(xí)吧。
    發(fā)表于 04-18 17:11 ?0次下載

    卷積神經(jīng)網(wǎng)絡(luò)檢測臉部關(guān)鍵的教程之兩個重要參數(shù):學(xué)習(xí)率,學(xué)習(xí)動量

    上個模型令人討厭的地方是光訓(xùn)練就花了一小時的時間,等結(jié)果并不是一令人心情愉快的事情。這一部分,我們將討論將兩個技巧結(jié)合讓網(wǎng)絡(luò)訓(xùn)練的更快! 直覺上的解決辦法是,開始訓(xùn)練時取一
    發(fā)表于 11-16 12:04 ?5040次閱讀
    卷積神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>檢測臉部關(guān)鍵<b class='flag-5'>點</b>的教程之<b class='flag-5'>兩個</b>重要參數(shù):<b class='flag-5'>學(xué)習(xí)</b>率,<b class='flag-5'>學(xué)習(xí)</b>動量

    兩個指標(biāo)讓GAN訓(xùn)練更有效

    現(xiàn)有指標(biāo)不足以評估 GAN 模型,因此引入了兩個基于圖像分類的指標(biāo)GAN-train 和 GAN-test,分別對應(yīng) GAN 的召回率(多樣
    發(fā)表于 09-12 00:25 ?2011次閱讀

    兩個LED和兩個按鈕的使用

    電子發(fā)燒友網(wǎng)站提供《兩個LED和兩個按鈕的使用.zip》資料免費下載
    發(fā)表于 01-30 16:04 ?1次下載
    <b class='flag-5'>兩個</b>LED和<b class='flag-5'>兩個</b>按鈕的使用

    如何設(shè)置兩個路由器使用同一Wi-Fi網(wǎng)絡(luò)

    如何設(shè)置兩個路由器使用同一Wi-Fi網(wǎng)絡(luò) 隨著無線網(wǎng)絡(luò)的普及和需求量的增加,很多家庭和辦公室都會購買多個路由器來擴(kuò)展無線網(wǎng)絡(luò)覆蓋范圍。然而
    的頭像 發(fā)表于 12-11 10:50 ?1.7w次閱讀
    淳安县| 临武县| 九龙县| 汝南县| 理塘县| 东平县| 和林格尔县| 渭南市| 衡阳县| 安康市| 土默特右旗| 宣城市| 洞口县| 南和县| 北碚区| 迭部县| 镇坪县| 沿河| 呼玛县| 蕲春县| 大邑县| 丹凤县| 内江市| 类乌齐县| 新营市| 合山市| 平凉市| 兴安县| 永丰县| 双江| 黑水县| 那坡县| 津南区| 陆川县| 潞城市| 东至县| 龙泉市| 崇仁县| 宿州市| 拜泉县| 土默特左旗|