日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Microsoft最新研究提基于關(guān)系網(wǎng)絡(luò)的視覺建模

WpOh_rgznai100 ? 來源:YXQ ? 2019-07-19 13:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)語:最近兩年,自注意力機制、圖和關(guān)系網(wǎng)絡(luò)等模型在NLP領(lǐng)域刮起了一陣旋風(fēng),基于這些模型的Transformer、BERT、MASS等框架已逐漸成為NLP的主流方法。這些模型在計算機視覺領(lǐng)域是否能同樣有用呢?近日,微軟亞洲研究院視覺計算組主管研究員胡瀚受邀參加VALSE Webinar,分享了他們最近的一些相關(guān)工作。他們的研究以及同期的一些其它工作表明這些模型也能廣泛地用于視覺基本元素之間關(guān)系的建模,包括物體與物體間、物體與像素間、以及像素與像素間的關(guān)系,特別是在建模像素與像素間關(guān)系上,既能與卷積操作形成互補,甚至有望能取代卷積操作,實現(xiàn)最基本的圖像特征提取。

大腦和機器智能都應(yīng)是通用學(xué)習(xí)機器

首先,我們從一個很有意思的實驗講起,這個實驗將老鼠大腦里的聽覺皮層接到視覺的輸入上,經(jīng)過一段時間訓(xùn)練后,發(fā)現(xiàn)聽覺皮層也能實現(xiàn)視覺的感知任務(wù)。這個實驗引起我們思考一個問題,機器智能是否同樣能實現(xiàn)結(jié)構(gòu)和學(xué)習(xí)的通用性呢?

目前的機器學(xué)習(xí)范式基本是統(tǒng)一的,一般遵循收集數(shù)據(jù)、進(jìn)行標(biāo)注、定義網(wǎng)絡(luò)結(jié)構(gòu)、以及利用方向傳播算法訓(xùn)練網(wǎng)絡(luò)權(quán)值的過程,但是不同任務(wù)里用到的基本模型卻是多樣的。當(dāng)前計算機視覺主要被卷積網(wǎng)絡(luò)所主導(dǎo),而自然語言處理則經(jīng)歷了LSTM、GRU、卷積以及自注意等多種模型階段。那是否有一種基本模型,能解決視覺、NLP、圖結(jié)構(gòu)數(shù)據(jù)感知、甚至推理等不同智能任務(wù)呢?

目前最通用的模型:關(guān)系和圖網(wǎng)絡(luò)

目前來看,關(guān)系網(wǎng)絡(luò)是最接近這一目標(biāo)的一種模型。在解釋這個模型之前,我們首先對一些名詞作一些澄清,包括圖神經(jīng)網(wǎng)絡(luò)以及自注意力機制。

圖1:關(guān)系網(wǎng)絡(luò)架構(gòu)

圖神經(jīng)網(wǎng)絡(luò)概念上更通用一些,包括了對節(jié)點、對邊、對全局屬性的特征表示,而自注意模型則是圖神經(jīng)網(wǎng)絡(luò)的一種特殊實現(xiàn),里面只對節(jié)點進(jìn)行了特征表示,而邊(也就是關(guān)系)則通過key嵌入和query嵌入后的內(nèi)積計算得到,是一種圖為全連接時(所有節(jié)點之間都有連接)非常經(jīng)濟(jì)的模型,但表達(dá)能力又足夠強,因為任何事物和概念之間都可以通過不同的投影后(key和query)的特征來使得兩者可比。

注意力機制里key和query的集合往往不一致,例如分別是單詞集合和圖像塊集合,或者分別是不同語言的句子,而自注意力機制則是key和query的對象為同一集合的情況。最近在NLP領(lǐng)域的革命,主要在于發(fā)現(xiàn)了“自”注意力機制在編碼同一句子單詞與單詞之間關(guān)系上的價值。而關(guān)系網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)還有自注意力機制從實現(xiàn)上是同樣的,字面上更關(guān)注對于節(jié)點與節(jié)點間聯(lián)系的建模。

將關(guān)系網(wǎng)絡(luò)應(yīng)用于基本視覺建模

考慮到關(guān)系網(wǎng)絡(luò)在圖結(jié)構(gòu)數(shù)據(jù)和NLP序列數(shù)據(jù)建模上取得了巨大成功,很自然的一個問題是這一建模方法是否也適用于視覺里的建模。計算機視覺里面主要涉及兩個層次的基本元素:一個是物體;一個是像素。于是我們研究了物體和物體、物體和像素以及像素和像素的關(guān)系建模問題。

圖2:將關(guān)系網(wǎng)絡(luò)應(yīng)用于基本視覺建模

物體與物體關(guān)系建模,第一個完全端到端的物體檢測器

物體是很多視覺感知任務(wù)的核心,在深度學(xué)習(xí)時代,單個物體的感知有了很好的進(jìn)展,但如何去建模物體與物體間的關(guān)系卻一直沒有很好的工具。我們在去年CVPR上提出了一個能即插即用的物體關(guān)系模塊(Object Relation Module),簡稱ORM。物體關(guān)系模塊的建?;旧鲜且环N自注意力機制的應(yīng)用,和基本的自注意力機制的主要不同在于添加了相對幾何項,我們發(fā)現(xiàn)這一項對于視覺問題來說很重要,物體之間的相對位置關(guān)系能幫助對于物體本身的感知。這一模塊可以很方便地嵌入到現(xiàn)有的物體檢測框架(圖3所示是目前應(yīng)用最廣泛的Faster R-CNN算法),去改進(jìn)頭部(head)網(wǎng)絡(luò),以及替換手工的去重模塊,也就是目前通常采用的非極大化抑制方法(NMS)。其中替換前者使得物體不是獨立識別的,而是一起識別的,而替換后者則幫助實現(xiàn)了第一個完全的端到端物體檢測系統(tǒng)。我們還將物體關(guān)系模塊推廣到時空維度,去解決多目標(biāo)跟蹤問題。

圖3:第一個完全端到端的物體檢測器

物體與像素關(guān)系建模

物體與像素關(guān)系建模的一個最直接的應(yīng)用是從圖像特征里提取物體區(qū)域特征,此前最常用的算法是RoIPooling或者RoIAlign,我們用關(guān)系網(wǎng)絡(luò)實現(xiàn)了自適應(yīng)地從圖像特征里提取區(qū)域特征的方法,并證明這一方法比RoIAlign在物體檢測的標(biāo)準(zhǔn)數(shù)據(jù)集COCO上要好1 mAP左右。

像素與像素關(guān)系建模,替代卷積的局部關(guān)系網(wǎng)絡(luò)及全局上下文網(wǎng)絡(luò)

像素與像素關(guān)系的建??梢杂脕韺崿F(xiàn)最基本的圖像局部特征提取,也可以用來提取圖像的全局信息,從而作為基本圖像特征提取網(wǎng)絡(luò)(例如卷積神經(jīng)網(wǎng)絡(luò))的補充。

1)替代卷積神經(jīng)網(wǎng)絡(luò)的局部關(guān)系網(wǎng)絡(luò)

現(xiàn)在的基本圖像特征提取方法幾乎都采用卷積算子,但卷積本質(zhì)上是一個模板匹配(template matching)算子,效率是偏低的,例如圖4中的三個鳥頭,很簡單的變化,卻需要三個通道來去建模它。我們提出了一個局部關(guān)系層(local relation layer)來實現(xiàn)更高效的圖像特征提取,它本質(zhì)上還是基于關(guān)系網(wǎng)絡(luò)。在應(yīng)用到基本的像素與像素關(guān)系建模問題時,我們發(fā)現(xiàn)如下幾個細(xì)節(jié)很重要:一是關(guān)系的建模要限制在局部內(nèi),只有限制在局部才能構(gòu)造信息瓶頸,才能把圖像里的模式學(xué)出來;二是需要引入可學(xué)習(xí)的幾何先驗項,這一項的引入也是注意到目前最流行的卷積算子所采用的模板匹配過程就是嚴(yán)重依賴相對位置關(guān)系的建模方法;三是采用標(biāo)量的key和query,在標(biāo)準(zhǔn)的關(guān)系網(wǎng)絡(luò)中,key和query通常是用向量表示的,采用標(biāo)量的key和query能節(jié)省很多參數(shù)和計算,也因此能在有限計算量情況下建模多種關(guān)系。

與卷積相比,局部關(guān)系層概念上最大的不同是它是在根據(jù)兩個像素自己的特征來計算像素間的可組合性,而不是用一個全局的模板來作匹配。圖4右上還顯示了學(xué)到的部分key和query圖(標(biāo)量),從左到右分別是由淺到深的層,發(fā)現(xiàn)淺層學(xué)到了邊緣和內(nèi)部的概念,深層學(xué)到了不同物體的概念。圖4右下顯示了學(xué)到的幾何先驗,從上到下分別是由淺到深的層,發(fā)現(xiàn)在淺層里幾何先驗比較集中和稀疏,暗示幾何先驗起很大作用,而深層里幾何先驗比較模糊,暗示key和query起更主要的作用。

圖4:局部關(guān)系層

局部關(guān)系層可以用來替換卷積網(wǎng)絡(luò)里面所有的空間卷積層,包括所有的3x3的卷積,以及一開始的7x7卷積,于是得到了一個完全沒有空間卷積層的網(wǎng)絡(luò),我們稱為局部關(guān)系網(wǎng)絡(luò)(LR-Net),圖5左側(cè)是用局部關(guān)系層替代ResNet-50網(wǎng)絡(luò)中所有卷積層的例子,在相同計算量情況下,LR-Net相比于ResNet擁有更少的參數(shù)。圖5右側(cè)是26層LR-Net與26層帶標(biāo)準(zhǔn)卷積或depthwise卷積的ResNet在ImageNet分類上top-1準(zhǔn)確率的比較??梢钥闯?,在不包含任何幾何先驗的情況下,LR-Net已與ResNet相匹敵,而在添加幾何先驗項后,與標(biāo)準(zhǔn)卷積的ResNet-50相比能取得高2.7%的性能。此外,局部關(guān)系網(wǎng)絡(luò)在鄰域為7x7時表現(xiàn)最好,而對應(yīng)的標(biāo)準(zhǔn)ResNet網(wǎng)絡(luò)則在3x3和5x5時表現(xiàn)更好,這表明局部關(guān)系網(wǎng)絡(luò)相比普通基于卷積算子的ResNet網(wǎng)絡(luò)能建模更大范圍的像素關(guān)系。

圖5:局部關(guān)系層替代ResNet-50網(wǎng)絡(luò)中所有卷積層(左);26層的LR-Net與ResNet相同運算量下在ImageNet分類上top-1準(zhǔn)確率的對比(右)

2) 非局部網(wǎng)絡(luò)遇上SE-Net,更高效的全局上下文網(wǎng)絡(luò)

非局部關(guān)系網(wǎng)絡(luò)在多個視覺感知任務(wù)上取得了非常好的效果,學(xué)界通常認(rèn)為這得益于非局部網(wǎng)絡(luò)對于遠(yuǎn)距離像素與像素間關(guān)系的建模。但我們在可視化學(xué)到的像素與像素間相似度時發(fā)現(xiàn)一個很不一樣的現(xiàn)象,對于不同的query像素點(圖中紅色點),不管query像素點在前景、或是草地、或是天空中,它們和key像素的相似度形成的attention map幾乎一模一樣。

圖6:不同query像素點對應(yīng)的attention map

很自然地,如果我們顯示地讓所有query像素點共享同一個attention map,是否會降低performance呢?我們實驗發(fā)現(xiàn)在一些重要的感知任務(wù),例如圖像分類、物體檢測、動作識別中,這一答案是否定的。也就是說,即使讓所有query像素點共享同一個attention map,也不會降低識別的精度,而相應(yīng)的計算則大幅降低,即使添加到ResNet網(wǎng)絡(luò)中所有的residual block后也不怎么增加網(wǎng)絡(luò)整體的計算量。

進(jìn)一步可以發(fā)現(xiàn)這樣一種簡化的非局部網(wǎng)絡(luò)(SNL)和2017年ImageNet比賽的冠軍算法SE-Net結(jié)構(gòu)很相似,都是首先建模全局上下文信息,把HxW的圖像特征集合起來,生成一個全局的向量,第二步都是對這一全局的向量作特征變換,最后是變換后的全局特征和圖像每個位置原來的特征融合起來,于是可以抽象出來一個通用的建模全局上下文信息的框架。進(jìn)一步的,在每一步里面選擇最好的實現(xiàn),于是可以得到全局上下文模塊(Global Context Block),這一網(wǎng)絡(luò)可以在COCO物體檢測,ImageNet圖像分類,和動作識別任務(wù)中均取得比非局部網(wǎng)絡(luò)和SE-Net更優(yōu)的準(zhǔn)確率,而計算量則保持基本不變或者低于非局部網(wǎng)絡(luò)和SE-Net。

圖7:通用的建模全局上下文信息的框架

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6760

    瀏覽量

    108137
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4845

    瀏覽量

    108298

原文標(biāo)題:有望替代卷積神經(jīng)網(wǎng)絡(luò)?微軟最新研究提基于關(guān)系網(wǎng)絡(luò)的視覺建模

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    非序列建模標(biāo)準(zhǔn)具和FABRY-PéROT諧振器

    。 VirtualLab Fusion的非序列場追跡技術(shù)能夠精確建模完全不同類型的標(biāo)準(zhǔn)具,無論是結(jié)合高反射膜層的平面或曲面。此外,物理-光學(xué)建模方法自動包含矢量效應(yīng),因此允許研究偏振效應(yīng)對干涉圖樣的影響。 作為一個
    發(fā)表于 05-08 08:08

    [VirtualLab] 平面和曲面標(biāo)準(zhǔn)具的建模

    不同的應(yīng)用。利用VirtualLab Fusion的非序列場追跡技術(shù),分析了多種結(jié)構(gòu)的標(biāo)準(zhǔn)具,研究了輸出干涉條紋的差異,包括偏振效應(yīng)。 建模任務(wù) 標(biāo)準(zhǔn)具 非序列建模的通道系統(tǒng) a)平行平面 - 平面
    發(fā)表于 05-07 08:03

    [VirtualLab] 非球面透鏡后焦點研究

    分析可以快速地提供對空間中系統(tǒng)的建模結(jié)果。 焦平面研究 焦點區(qū)域研究(無像散) **焦點區(qū)域研究(無像散) ** **文檔信息 ** 拓展閱讀 ? 物鏡對像散激光二極管光束的準(zhǔn)直
    發(fā)表于 04-15 08:13

    銅價高企時代的電力電子重構(gòu):基本半導(dǎo)體SiC MOSFET功率模塊頻應(yīng)用與整機成本優(yōu)化深度研究報告

    銅價高企時代的電力電子重構(gòu):基本半導(dǎo)體SiC MOSFET功率模塊頻應(yīng)用與整機成本優(yōu)化深度研究報告, 唯有頻,方能破局;唯有SiC,方能頻 對于光伏、儲能、工控及其他工業(yè)電源的工
    的頭像 發(fā)表于 11-22 10:14 ?1337次閱讀
    銅價高企時代的電力電子重構(gòu):基本半導(dǎo)體SiC MOSFET功率模塊<b class='flag-5'>提</b>頻應(yīng)用與整機成本優(yōu)化深度<b class='flag-5'>研究</b>報告

    奧比中光3D視覺技術(shù)賦能IROS 2025研究成果

    全球機器人領(lǐng)域最具影響力的學(xué)術(shù)會議IROS 2025于10月19日至25日在杭州國際博覽中心舉行。大會收錄的多篇論文的研究成果采用了奧比中光的3D視覺技術(shù),涵蓋自動化掃描、空間建模、人機交互等前沿方向,彰顯了奧比中光在全球機器人
    的頭像 發(fā)表于 10-23 16:29 ?1018次閱讀

    無刷直流電機雙閉環(huán)串級控制系統(tǒng)仿真研究

    Madlab進(jìn)行BLDC建模仿真的方法,并且也提出了很多的建模仿真方案。例如有研究人員提出采用節(jié)點電流法對電機控制系統(tǒng)進(jìn)行分析,通過列寫m函數(shù),建立BLDC控制系統(tǒng)真模型,這種方法實質(zhì)上是一種整體
    發(fā)表于 07-07 18:36

    無刷直流電機模糊PI控制系統(tǒng)建模與仿真

    分享帖,點擊下方附件免費獲取完整資料~~~ *附件:無刷直流電機模糊PI控制系統(tǒng)建模與仿真.pdf 【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第一時間告知,刪除內(nèi)容,謝謝!
    發(fā)表于 07-07 18:25

    無刷雙饋異步電機潮流建模和收斂性研究

    研究.pdf 【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第一時間告知,刪除內(nèi)容,謝謝!
    發(fā)表于 06-25 13:12

    無刷電機小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測方法的研究

    摘要:論文通過對無刷電機數(shù)學(xué)模型的推導(dǎo),得出轉(zhuǎn)角:與三相相電壓之間存在映射關(guān)系,因此構(gòu)建了一個以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡(luò)來實現(xiàn)轉(zhuǎn)角預(yù)測,并采用改進(jìn)遺傳算法來訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù),借助
    發(fā)表于 06-25 13:06

    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第7期「面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學(xué)習(xí)」明晚8點精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報告題目面向高泛化能力的視覺感知系統(tǒng)空間建模與微
    的頭像 發(fā)表于 06-24 08:01 ?1276次閱讀
    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高泛化能力的<b class='flag-5'>視覺</b>感知系統(tǒng)空間<b class='flag-5'>建模</b>與微調(diào)學(xué)習(xí)

    VirtualLab Fusion應(yīng)用:多反射系統(tǒng)的非序列建模

    非序列光學(xué)系統(tǒng),特別是那些非序列性來自組件內(nèi)部多次內(nèi)部反射的系統(tǒng),具有一系列特定的挑戰(zhàn)。將這樣的系統(tǒng)分解成一個順序等價的系統(tǒng)通常非常不方便,而且總是不切實際的。因此,擁有一個穩(wěn)定的非序列建模策略
    發(fā)表于 06-12 08:49

    VirtualLab Fusion應(yīng)用:Herriott池的建模

    。Herriott單元是這種系統(tǒng)的一個例子,其特點是使用兩個球面反射鏡,在其中一個球面反射鏡上鉆一個離軸孔,以允許光束進(jìn)出。鏡子的曲率改變了光束的方向并控制了它的發(fā)散。在此用例中,我們用光學(xué)建模和設(shè)計軟件
    發(fā)表于 06-11 08:52

    利用MATLAB對交流電機調(diào)速系統(tǒng)進(jìn)行建模和仿真

    原理結(jié)構(gòu)圖的仿真方法,對交流電機調(diào)速系統(tǒng)進(jìn)行研究,從而實現(xiàn)對典型電機定子調(diào)壓調(diào)速模型的構(gòu)建與仿真。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:利用MATLAB對交流電機調(diào)速系統(tǒng)進(jìn)行建模和仿真
    發(fā)表于 06-06 14:31

    直播預(yù)約 |數(shù)據(jù)智能系列講座第7期:面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第7期「面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學(xué)習(xí)」6月25日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報告題目面向高泛化能力的視覺感知系統(tǒng)空間
    的頭像 發(fā)表于 05-29 10:04 ?789次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第7期:面向高泛化能力的<b class='flag-5'>視覺</b>感知系統(tǒng)空間<b class='flag-5'>建模</b>與微調(diào)學(xué)習(xí)

    索尼FCB-ER8530:三維建模視覺感知的跨界融合

    的“視覺基石”? 三維建模依賴高精度視覺數(shù)據(jù)實現(xiàn)虛擬場景重構(gòu),而索尼FCB-ER8530的4K分辨率(3840×2160)與20倍光學(xué)變焦能力,為建模提供毫米級細(xì)節(jié)捕捉能力。例如,在三
    的頭像 發(fā)表于 05-19 17:30 ?768次閱讀
    久治县| 门头沟区| 西峡县| 斗六市| 米脂县| 象山县| 武清区| 嘉鱼县| 卢龙县| 页游| 济源市| 南召县| 绩溪县| 清水县| 岳阳县| 明水县| 周宁县| 南平市| 房产| 固始县| 岚皋县| 崇阳县| 米脂县| 班玛县| 建宁县| 长宁区| 门源| 谢通门县| 铅山县| 武山县| 长子县| 额敏县| 平顶山市| 萝北县| 平塘县| 项城市| 台中市| 大洼县| 沁源县| 泸州市| 荃湾区|