日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google欲用神經(jīng)網(wǎng)絡搜索來實現(xiàn)語義分割

mK5P_AItists ? 來源:未知 ? 作者:胡薇 ? 2018-10-09 16:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. Introduction

在 arxiv 瀏覽論文的時候,單獨看文章名不知道屬于 CV 哪個領(lǐng)域,懷著對一作 Liang-Chieh 敬畏的心,在摘要中掃描到 PASCAL VOC 2012 (semantic image segmentation),瀏覽全文才明白,Google 又發(fā)大招。

Google 在 Cloud AutoML 不斷發(fā)力,相比較而言之前的工作只是在圖像分類領(lǐng)域精耕細作,如今在圖像分割開疆擴土,在 arxiv 提交第一篇基于 NAS(Neural network architecture)的語義分割模型[1](DPC,dense prediction cell)已經(jīng)被 NIPS2018 接收,并且在 Cityscapes,PASCAL-Person-Part,PASCAL VOC 2012 取得 state-of-art 的性能(mIOU 超過 DeepLabv3+)和更高的計算效率(模型參數(shù)少,計算量減少)。

Google 儼然已是圖像語義分割領(lǐng)域的高產(chǎn)霸主,Liang-Chieh 從 Deeplabv1- Deeplabv3+ 持續(xù)發(fā)力,還是 MobileNetV2 共同作者,如今在 NAS 領(lǐng)域開發(fā)處女地:基于 NAS 的語義分割模型,性能超過之前的基于 MobileNetV2 的 Network Backbone。

2. Motivation

深度學習技術(shù)已經(jīng)成為當前人工智能領(lǐng)域的一個研究熱點,其在圖像識別、語音識別、自然語言處理等領(lǐng)域展現(xiàn)出了巨大的優(yōu)勢,并且仍在繼續(xù)發(fā)展變化。自 Google 提出 Cloud AutoML,NAS(Neural Architecture Search,神經(jīng)網(wǎng)絡架構(gòu)搜索)也取得重大進展,但更多的是在圖像分類和自然語言處理方面的應用。在過去的一年中,元學習(meta-learning)在大規(guī)模圖像分類問題上,性能已經(jīng)實現(xiàn)超越人類手工設(shè)計的神經(jīng)網(wǎng)架構(gòu)。

基于 NAS 的圖像分類遷移到高分辨率的圖像處理(語義分割、目標識別、實例分割)有很大的挑戰(zhàn):(1)神經(jīng)網(wǎng)絡的搜索空間和基本運算單元有本質(zhì)不同。(2)架構(gòu)搜索必須固有地在高分辨率圖像上運行,因此不能實現(xiàn)從低分辨率圖像訓練模型遷移到高分辨率圖像。

論文首次嘗試將元學習應用于密集圖像預測(本人理解就是像素級圖像分割)。語義分割領(lǐng)域一般使用 encoder-decoder 模型,空間金字塔結(jié)構(gòu),空洞卷積等,目標是實現(xiàn)構(gòu)建高分辨率圖像的多尺度特征,密集預測像素級標簽。論文利用這些技術(shù)構(gòu)建搜索空間,同時構(gòu)建計算量少、處理簡單的代理任務,該任務可為高分辨率圖像提供多尺度架構(gòu)的預測信息。

論文提出的模型在 Cityscapes dataset 驗證測試,取得 82.7% mIOU,超過人類手工設(shè)計模型 0.7%。在 person-part segmentation 和 VOC 2012 也取得 state-of-art 性能。

3. Architecture

深度學習在感知任務中取得的成功主要歸功于其特征工程過程自動化:分層特征提取器是以端到端的形式從數(shù)據(jù)中學習,而不是手工設(shè)計。然而,伴隨這一成功而來的是對架構(gòu)工程日益增長的需求,越來越多的復雜神經(jīng)架構(gòu)是由手工設(shè)計的。算法工程師一般自我調(diào)侃“煉丹師”,就是因為超參數(shù)的設(shè)計選取存在太多偶然性,是一門玄學,沒有明顯的規(guī)律性。

Neural Architecture Search (NAS) 是一種給定模型結(jié)構(gòu)搜索空間的搜索算法,代表機器學習的未來方向。NAS 是 AutoML 的子領(lǐng)域,在超參數(shù)優(yōu)化和元學習等領(lǐng)域高度重疊。NAS 根據(jù)維度可分為三類:搜索空間、搜索策略和性能評估策略。

3.1 搜索空間

搜索空間原則上定義了網(wǎng)絡架構(gòu)。在圖像分類任務中分為三類:鏈式架構(gòu)空間、多分支架構(gòu)空間、Cell/block 構(gòu)建的搜索空間。

論文提出了基于 Dense Prediction Cell (DPC)構(gòu)建的遞歸搜索空間,對多尺度上下文信息編碼,實現(xiàn)語義分割任務。

圖 1 DPC 模型架構(gòu)

DPC 由有向無環(huán)圖(directed acyclic graph ,DAG)表示,每個 Cell 包含 B 個分支,每個分支映射輸入到輸出的張量。每個 Cell 的操作類型包括 1x1 卷積,不同比率的 3x3 空洞卷積,不同尺寸的均值空間金字塔池化。

圖 2 3x3 空洞卷積比率類型

根據(jù)論文提供的操作方式,3x3 空洞卷積有 8x8,均值空間金字塔池化有 4x4 操作,即操作函數(shù)共有 1+8*8+4*4=81 種類型,對于 B 分支的 Cell,搜索空間為 B!*81B,當 B=5,搜索空間為 5!*815≈4.2*1011。

3.2 搜索策略

搜索策略定義了使用怎樣的算法可以快速、準確找到最優(yōu)的網(wǎng)絡結(jié)構(gòu)參數(shù)配置。

機器學習模型超參數(shù)調(diào)優(yōu)一般認為是一個黑盒優(yōu)化問題,所謂黑盒問題就是我們在調(diào)優(yōu)的過程中只看到模型的輸入和輸出,不能獲取模型訓練過程的梯度信息,也不能假設(shè)模型超參數(shù)和最終指標符合凸優(yōu)化條件。

自動調(diào)參算法一般有 Grid search(網(wǎng)格搜索)、Random search(隨機搜索),還有 Genetic algorithm(遺傳算法)、Paticle Swarm Optimization(粒子群優(yōu)化)、Bayesian Optimization(貝葉斯優(yōu)化)、TPE、SMAC 等方式。

論文采用隨機搜索的方式,基于 Google Vizier 實現(xiàn)[3]。Github 上有開源實現(xiàn)的 advisor[4](非Google 開源,第三方),包括隨機搜索,網(wǎng)格搜索,貝葉斯優(yōu)化等調(diào)參算法實現(xiàn),感興趣可以關(guān)注一下。

3.3 性能評估策略

因為深度學習模型的效果非常依賴于訓練數(shù)據(jù)的規(guī)模,通常意義上的訓練集、測試集和驗證集規(guī)模實現(xiàn)驗證模型的性能會非常耗時,例如 DPC 在 Cityscapes dataset 上訓練,使用 1 個 P100 GPU 訓練候選架構(gòu)(90 迭代次數(shù))需要一周以上時間,所以需要一些策略去做近似的評估,同時滿足快速訓練和可以預測大規(guī)模訓練集的性能。

圖像分類任務中通常在低分辨率圖像中訓練模型,再遷移到高分辨率圖像模型中。但是圖像分割需要多尺度上下文信息。論文提出設(shè)計代理數(shù)據(jù)集:(1)采用較小的骨干網(wǎng)絡(network backbone),(2)緩存主干網(wǎng)絡在訓練集生成的特征圖,并在其基礎(chǔ)上構(gòu)建單個 DPC。(個人理解應該是權(quán)值共享的方式)。(3)訓練候選架構(gòu)時提前終止(實驗中占用 30K 迭代訓練每個候選架構(gòu))。

論文采用以上策略,在 GPU 上訓練只運行 90 分鐘,相比一周的訓練時間大幅度縮短。

在架構(gòu)搜索后,論文對候選架構(gòu)進行 reranking experiment,精準測量每個架構(gòu)在大規(guī)模數(shù)據(jù)集的性能。reranking experiment 中,主干網(wǎng)絡經(jīng)過微調(diào)和訓練完全收斂,生成的最優(yōu)模型作為最佳 DPC 架構(gòu)。

4. Experiment&Result

論文在場景理解(Cityscapes),人體分割(PASCAL- Person-Part),語義分割(PASCAL VOC 2012)對比展示 DPC 模型的性能。主干網(wǎng)絡在 COCO 數(shù)據(jù)集預訓練,訓練學習率采用多項式學習率,初始化為 0.01,裁剪圖像,fine-tuned BN 參數(shù)(batch size=8,16)。評測和架構(gòu)搜索中,圖像尺寸采用單一類型。對比其他 state-of-the-art 系統(tǒng)時,通過對給定圖像的多個縮放進行平均來執(zhí)行評估。

論文使用提出的 DPC 架構(gòu)搜索空間,在 Cityscapes 部署生成的代理任務,370 個 GPU 在一周時間中評估 28K 個 DPC 架構(gòu)。論文采用 MobileNet-v2 主干網(wǎng)絡對整個模型進行微調(diào),選擇前 50 個架構(gòu)進行重新排序。

論文中圖 5 、圖 6 展示了頂級 DPC 架構(gòu)的示意圖。在圖 5b 每個分支(通過 1*1 卷積)的 L1 正則化權(quán)重,我們觀察到具有 3×3 卷積(速率= 1×6)的分支貢獻最大,而具有大速率(即較長背景)的分支貢獻較少。換句話說,來自更接近(即最終空間尺度)的圖像特征的信息對網(wǎng)絡的最終輸出貢獻更多。相反,性能最差的 DPC(圖 6c)不保留精細空間信息,因為它在全局圖像池操作之后級聯(lián)四個分支。

論文實驗中,表 1,表 2,表 3分別對應在場景理解(Cityscapes),人體分割(PASCAL- Person-Part),語義分割(PASCAL VOC 2012)的模型性能,DPC 在各個數(shù)據(jù)集取得 state-of-art 性能。

5. Discussion

1、論文提出的 DPC 架構(gòu)基于 Cell 構(gòu)建的搜索空間,每個 Cell 有語義分割采用經(jīng)典的空洞卷積,空間金字塔池化,1x1 卷積,在 mIOU 實現(xiàn) state-of-art 水準。

2、論文的搜索策略采用隨機搜索,評價指標也只有 mIOU,相比 Google 另一篇論文 MnasNet,在準確率和推斷時間上均有顯著提高。

3、論文摘要選擇只需要一半的參數(shù)和一半的計算效率,但是只在論文的表 1 即 Cityscapes 數(shù)據(jù)集對比了 MobileNet-v2 和 modified Xception 的實現(xiàn)方式,其他數(shù)據(jù)集沒有體現(xiàn)計算效率的優(yōu)越性。論文架構(gòu)搜索和訓練時的目標函數(shù)沒有計算效率的體現(xiàn)。

Additionally, the resulting architecture is more computationally efficient, requiring half the parameters and half the computational cost as previous state of the art systems

4、作為 Google 在語義分割領(lǐng)域的開山之作,目測會有一大批基于 NAS 實現(xiàn)的目標檢測、實例分割的優(yōu)秀論文,NAS 應用到工業(yè)界產(chǎn)品指日可待。

5、語義分割是一種廣義上的圖像分類(對圖像的每個像素進行分類),和圖像分類在搜索空間有很多相似之處,但是目標檢測需要 Region Proposal,Bounding-Box Regression 等,增加搜索空間的難度,NAS 在目標檢測領(lǐng)域可能還需要很長一段路要走。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1817

    瀏覽量

    60663
  • 神經(jīng)網(wǎng)絡

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108239

原文標題:語義分割領(lǐng)域開山之作:Google提出用神經(jīng)網(wǎng)絡搜索實現(xiàn)語義分割

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    為什么 VisionFive V1 板上的 JH7100 中并存 NVDLA 引擎和神經(jīng)網(wǎng)絡引擎?

    我想知道為什么 VisionFive V1 板上的 JH7100 中并存 NVDLA 引擎和神經(jīng)網(wǎng)絡引擎,請問?您能否舉一些關(guān)于他們的例的例子?
    發(fā)表于 03-25 06:01

    神經(jīng)網(wǎng)絡的初步認識

    日常生活中的智能應用都離不開深度學習,而深度學習則依賴于神經(jīng)網(wǎng)絡實現(xiàn)。什么是神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡的核心思想是模仿生物神經(jīng)系統(tǒng)的結(jié)構(gòu),特別是大
    的頭像 發(fā)表于 12-17 15:05 ?496次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>的初步認識

    自動駕駛中常提的卷積神經(jīng)網(wǎng)絡是個啥?

    在自動駕駛領(lǐng)域,經(jīng)常會聽到卷積神經(jīng)網(wǎng)絡技術(shù)。卷積神經(jīng)網(wǎng)絡,簡稱為CNN,是一種專門用來處理網(wǎng)格狀數(shù)據(jù)(比如圖像)的深度學習模型。CNN在圖像處理中尤其常見,因為圖像本身就可以看作是由像素排列成的二維網(wǎng)格。
    的頭像 發(fā)表于 11-19 18:15 ?2289次閱讀
    自動駕駛中常提的卷積<b class='flag-5'>神經(jīng)網(wǎng)絡</b>是個啥?

    NMSIS神經(jīng)網(wǎng)絡庫使用介紹

    NMSIS NN 軟件庫是一組高效的神經(jīng)網(wǎng)絡內(nèi)核,旨在最大限度地提高 Nuclei N 處理器內(nèi)核上的神經(jīng)網(wǎng)絡的性能并最??大限度地減少其內(nèi)存占用。 該庫分為多個功能,每個功能涵蓋特定類別
    發(fā)表于 10-29 06:08

    構(gòu)建CNN網(wǎng)絡模型并優(yōu)化的一般化建議

    整個模型非常巨大。所以要想實現(xiàn)輕量級的CNN神經(jīng)網(wǎng)絡模型,首先應該避免嘗試單層神經(jīng)網(wǎng)絡。 2)減少卷積核的大?。篊NN神經(jīng)網(wǎng)絡是通過權(quán)值共享的方式,利用卷積運算從圖像中提取線性紋理。
    發(fā)表于 10-28 08:02

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的一些經(jīng)驗

    本帖分享在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是訓練一個手寫數(shù)字識別的神經(jīng)網(wǎng)絡
    發(fā)表于 10-22 07:03

    CICC2033神經(jīng)網(wǎng)絡部署相關(guān)操作

    在完成神經(jīng)網(wǎng)絡量化后,需要將神經(jīng)網(wǎng)絡部署到硬件加速器上。首先需要將所有權(quán)重數(shù)據(jù)以及輸入數(shù)據(jù)導入到存儲器內(nèi)。 在仿真環(huán)境下,可將其存于一個文件,并在 Verilog 代碼中通過 readmemh 函數(shù)
    發(fā)表于 10-20 08:00

    微店關(guān)鍵詞搜索接口核心突破:動態(tài)權(quán)重算法與語義引擎的實戰(zhàn)落地

    本文詳解微店搜索接口從基礎(chǔ)匹配到智能推薦的技術(shù)進階路徑,涵蓋動態(tài)權(quán)重、語義理解與行為閉環(huán)三大創(chuàng)新,助力商家提升搜索轉(zhuǎn)化率、商品曝光與用戶留存,實現(xiàn)技術(shù)驅(qū)動的業(yè)績增長。
    的頭像 發(fā)表于 10-15 14:38 ?577次閱讀

    液態(tài)神經(jīng)網(wǎng)絡(LNN):時間連續(xù)性與動態(tài)適應性的神經(jīng)網(wǎng)絡

    1.算法簡介液態(tài)神經(jīng)網(wǎng)絡(LiquidNeuralNetworks,LNN)是一種新型的神經(jīng)網(wǎng)絡架構(gòu),其設(shè)計理念借鑒自生物神經(jīng)系統(tǒng),特別是秀麗隱桿線蟲的神經(jīng)結(jié)構(gòu),盡管這種微生物的
    的頭像 發(fā)表于 09-28 10:03 ?1624次閱讀
    液態(tài)<b class='flag-5'>神經(jīng)網(wǎng)絡</b>(LNN):時間連續(xù)性與動態(tài)適應性的<b class='flag-5'>神經(jīng)網(wǎng)絡</b>

    神經(jīng)網(wǎng)絡的并行計算與加速技術(shù)

    隨著人工智能技術(shù)的飛速發(fā)展,神經(jīng)網(wǎng)絡在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和廣泛的應用前景。然而,神經(jīng)網(wǎng)絡模型的復雜度和規(guī)模也在不斷增加,這使得傳統(tǒng)的串行計算方式面臨著巨大的挑戰(zhàn),如計算速度慢、訓練時間長等
    的頭像 發(fā)表于 09-17 13:31 ?1348次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>的并行計算與加速技術(shù)

    基于神經(jīng)網(wǎng)絡的數(shù)字預失真模型解決方案

    在基于神經(jīng)網(wǎng)絡的數(shù)字預失真(DPD)模型中,使用不同的激活函數(shù)對整個系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3715次閱讀

    無刷電機小波神經(jīng)網(wǎng)絡轉(zhuǎn)子位置檢測方法的研究

    摘要:論文通過對無刷電機數(shù)學模型的推導,得出轉(zhuǎn)角:與三相相電壓之間存在映射關(guān)系,因此構(gòu)建了一個以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡實現(xiàn)轉(zhuǎn)角預測,并采用改進遺傳算法訓練
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡專家系統(tǒng)在電機故障診斷中的應用

    摘要:針對傳統(tǒng)專家系統(tǒng)不能進行自學習、自適應的問題,本文提出了基于種經(jīng)網(wǎng)絡專家系統(tǒng)的并步電機故障診斷方法。本文將小波神經(jīng)網(wǎng)絡和專家系統(tǒng)相結(jié)合,充分發(fā)揮了二者故障診斷的優(yōu)點,很大程度上降低了對電機
    發(fā)表于 06-16 22:09

    神經(jīng)網(wǎng)絡RAS在異步電機轉(zhuǎn)速估計中的仿真研究

    眾多方法中,由于其結(jié)構(gòu)簡單,穩(wěn)定性好廣泛受到人們的重視,且已被用于產(chǎn)品開發(fā)。但是MRAS仍存在在低速區(qū)速度估計精度下降和對電動機參數(shù)變化非常敏感的問題。本文利用神經(jīng)網(wǎng)絡的特點,使估計更為簡單、快速
    發(fā)表于 06-16 21:54

    基于FPGA搭建神經(jīng)網(wǎng)絡的步驟解析

    本文的目的是在一個神經(jīng)網(wǎng)絡已經(jīng)通過python或者MATLAB訓練好的神經(jīng)網(wǎng)絡模型,將訓練好的模型的權(quán)重和偏置文件以TXT文件格式導出,然后通過python程序?qū)xt文件轉(zhuǎn)化為coe文件,(coe
    的頭像 發(fā)表于 06-03 15:51 ?1560次閱讀
    基于FPGA搭建<b class='flag-5'>神經(jīng)網(wǎng)絡</b>的步驟解析
    榆社县| 凤山市| 顺平县| 延长县| 巩义市| 松阳县| 中阳县| 海门市| 西乡县| 谢通门县| 册亨县| 武清区| 独山县| 麻城市| 铁岭县| 理塘县| 固镇县| 栾城县| 弋阳县| 安康市| 四子王旗| 岳阳市| 会理县| 陕西省| 平山县| 额尔古纳市| 正安县| 巴青县| 彭阳县| 六枝特区| 定西市| 平南县| 梁山县| 西充县| 龙门县| 绍兴市| 拜城县| 华安县| 芦山县| 嘉荫县| 大冶市|