日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習改變的五大計算機視覺技術

新機器視覺 ? 來源:YXQ ? 2019-07-05 09:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要:本文主要介紹計算機視覺中主要的五大技術,分別為圖像分類、目標檢測、目標跟蹤、語義分割以及實例分割。針對每項技術都給出了基本概念及相應的典型方法,簡單通俗、適合閱讀。

計算機視覺是當前最熱門的研究之一,是一門多學科交叉的研究,涵蓋計算機科學(圖形學、算法、理論研究等)、數(shù)學(信息檢索、機器學習)、工程(機器人、NLP等)、生物學(神經系統(tǒng)科學)和心理學(認知科學)。由于計算機視覺表示對視覺環(huán)境及背景的相對理解,很多科學家相信,這一領域的研究將為人工智能行業(yè)的發(fā)展奠定基礎。

那么,什么是計算機視覺呢?下面是一些公認的定義:

1.從圖像中清晰地、有意義地描述物理對象的結構(Ballard & Brown,1982);

2.由一個或多個數(shù)字圖像計算立體世界的性質(Trucco & Verri,1998);

3.基于遙感圖像對真實物體和場景做出有用的決定(Sockman & Shapiro,2001);

那么,為什么研究計算機視覺呢?答案很明顯,從該領域可以衍生出一系列的應用程序,比如:

1.人臉識別:人臉檢測算法,能夠從照片中認出某人的身份;

2.圖像檢索:類似于谷歌圖像使用基于內容的查詢來搜索相關圖像,算法返回與3.查詢內容最佳匹配的圖像。

4.游戲和控制:體感游戲;

5.監(jiān)控:公共場所隨處可見的監(jiān)控攝像機,用來監(jiān)視可疑行為;

6.生物識別技術:指紋、虹膜和人臉匹配是生物特征識別中常用的方法;

7.智能汽車:視覺仍然是觀察交通標志、信號燈及其它視覺特征的主要信息來源;

正如斯坦福大學公開課CS231所言,計算機視覺任務大多是基于卷積神經網絡完成。比如圖像分類、定位和檢測等。那么,對于計算機視覺而言,有哪些任務是占據(jù)主要地位并對世界有所影響的呢?本篇文章將分享給讀者5種重要的計算機視覺技術,以及其相關的深度學習模型和應用程序。相信這5種技術能夠改變你對世界的看法。

1.圖像分類

圖像分類這一任務在我們的日常生活中經常發(fā)生,我們習慣了于此便不以為然。每天早上洗漱刷牙需要拿牙刷、毛巾等生活用品,如何準確的拿到這些用品便是一個圖像分類任務。官方定義為:給定一組圖像集,其中每張圖像都被標記了對應的類別。之后為一組新的測試圖像集預測其標簽類別,并測量預測準確性。

如何編寫一個可以將圖像分類的算法呢?計算機視覺研究人員已經提出了一種數(shù)據(jù)驅動的方法來解決這個問題。研究人員在代碼中不再關心圖像如何表達,而是為計算機提供許多很多圖像(包含每個類別),之后開發(fā)學習算法,讓計算機自己學習這些圖像的特征,之后根據(jù)學到的特征對圖像進行分類。

鑒于此,完整的圖像分類步驟一般形式如下:

1.首先,輸入一組訓練圖像數(shù)據(jù)集;

2.然后,使用該訓練集訓練一個分類器,該分類器能夠學習每個類別的特征;

3.最后,使用測試集來評估分類器的性能,即將預測出的結果與真實類別標記進行比較;

對于圖像分類而言,最受歡迎的方法是卷積神經網絡(CNN)。CNN是深度學習中的一種常用方法,其性能遠超一般的機器學習算法。CNN網絡結構基本是由卷積層、池化層以及全連接層組成,其中,卷積層被認為是提取圖像特征的主要部件,它類似于一個“掃描儀”,通過卷積核與圖像像素矩陣進行卷積運算,每次只“掃描”卷積核大小的尺寸,之后滑動到下一個區(qū)域進行相關的運算,這種計算叫作滑動窗口。

從圖中可以看到,輸入圖像送入卷積神經網絡中,通過卷積層進行特征提取,之后通過池化層過濾細節(jié)(一般采用最大值池化、平均池化),最后在全連接層進行特征展開,送入相應的分類器得到其分類結果。

大多數(shù)圖像分類算法都是在ImageNet數(shù)據(jù)集上訓練的,該數(shù)據(jù)集由120萬張的圖像組成,涵蓋1000個類別,該數(shù)據(jù)集也可以稱作改變人工智能和世界的數(shù)據(jù)集。ImagNet 數(shù)據(jù)集讓人們意識到,構建優(yōu)良數(shù)據(jù)集的工作是 AI 研究的核心,數(shù)據(jù)和算法一樣至關重要。為此,世界組織也舉辦了針對該數(shù)據(jù)集的挑戰(zhàn)賽——ImageNet挑戰(zhàn)賽。

第一屆ImageNet挑戰(zhàn)賽的第一名是由Alex Krizhevsky(NIPS 2012)獲得,采用的方法是深層卷積神經網絡,網絡結構如下圖所示。在該模型中,采用了一些技巧,比如最大值池化、線性修正單元激活函數(shù)ReLU以及使用GPU仿真計算等,AlexNet模型拉開了深度學習研究的序幕。

自從AlexNet網絡模型贏得比賽之后,有很多基于CNN的算法也在ImageNet上取得了特別好的成績,比如ZFNet(2013)、GoogleNet(2014)、VGGNet(2014)、ResNet(2015)以及DenseNet(2016)等。

2.目標檢測

目標檢測通常是從圖像中輸出單個目標的Bounding Box(邊框)以及標簽。比如,在汽車檢測中,必須使用邊框檢測出給定圖像中的所有車輛。

之前在圖像分類任務中大放光彩的CNN同樣也可以應用于此。第一個高效模型是R-CNN(基于區(qū)域的卷積神經網絡),如下圖所示。在該網絡中,首先掃描圖像并使用搜索算法生成可能區(qū)域,之后對每個可能區(qū)域運行CNN,最后將每個CNN網絡的輸出送入SVM分類器中來對區(qū)域進行分類和線性回歸,并用邊框標注目標。

本質上,是將物體檢測轉換成圖像分類問題。但該方法存在一些問題,比如訓練速度慢,耗費內存、預測時間長等。

為了解決上述這些問題,Ross Girshickyou提出Fast R-CNN算法,從兩個方面提升了檢測速度:

1)在給出建議區(qū)域之前執(zhí)行特征提取,從而只需在整幅圖像上運行一次CNN;2)使用Softmax分類器代替SVM分類器;

雖然Fast R-CNN在速度方面有所提升,然而,選擇搜索算法仍然需要大量的時間來生成建議區(qū)域。為此又提出了Faster R-CNN算法,該模型提出了候選區(qū)域生成網絡(RPN),用來代替選擇搜索算法,將所有內容整合在一個網絡中,大大提高了檢測速度和精度。

近年來,目標檢測研究趨勢主要向更快、更有效的檢測系統(tǒng)發(fā)展。目前已經有一些其它的方法可供使用,比如YOLO、SSD以及R-FCN等。

3.目標跟蹤

目標跟蹤是指在給定場景中跟蹤感興趣的具體對象或多個對象的過程。簡單來說,給出目標在跟蹤視頻第一幀中的初始狀態(tài)(如位置、尺寸),自動估計目標物體在后續(xù)幀中的狀態(tài)。該技術對自動駕駛汽車等領域顯得至關重要。

根據(jù)觀察模型,目標跟蹤可以分為兩類:產生式(generative method)和判別式(discriminative method)。其中,產生式方法主要運用生成模型描述目標的表觀特征,之后通過搜索候選目標來最小化重構誤差。常用的算法有稀疏編碼(sparse coding)、主成分分析(PCA)等。與之相對的,判別式方法通過訓練分類器來區(qū)分目標和背景,其性能更為穩(wěn)定,逐漸成為目標跟蹤這一領域的主要研究方法。常用的算法有堆棧自動編碼器(SAE)、卷積神經網絡(CNN)等。

使用SAE方法進行目標跟蹤的最經典深層網絡是Deep Learning Tracker(DLT),提出了離線預訓練和在線微調。該方法的主要步驟如下:

1.先使用棧式自動編碼器(SDAE)在大規(guī)模自然圖像數(shù)據(jù)集上進行無監(jiān)督離線預訓練來獲得通用的物體表征能力。

2.將預訓練網絡的編碼部分與分類器相結合組成分類網絡,然后利用從初始幀獲得的正、負樣本對網絡進行微調,使其可以區(qū)分當前對象和背景。在跟蹤過程中,選擇分類網絡輸出得分最大的patch作為最終預測目標。

3.模型更新策略采用限定閾值的方法。

基于CNN完成目標跟蹤的典型算法是FCNT和MD Net。

FCNT的亮點之一在于對ImageNet上預訓練得到的CNN特征在目標跟蹤任務上的性能做了深入的分析:

1.CNN的特征圖可以用來做跟蹤目標的定位;

2.CNN的許多特征圖存在噪聲或者和物體跟蹤區(qū)分目標和背景的任務關聯(lián)較?。?/p>

3.CNN不同層提取的特征不一樣。高層特征更加抽象,擅長區(qū)分不同類別的物體,而低層特征更加關注目標的局部細節(jié)。

基于以上觀察,F(xiàn)CNT最終提出了如下圖所示的模型結構:

1.對于Conv4-3和Con5-3采用VGG網絡的結構,選出和當前跟蹤目標最相關的特征圖通道;

2.為了避免過擬合,對篩選出的Conv5-3和Conv4-3特征分別構建捕捉類別信息GNet和SNet;

3.在第一幀中使用給出的邊框生成熱度圖(heap map)回歸訓練SNet和GNet;

4.對于每一幀,其預測結果為中心裁剪區(qū)域,將其分別輸入GNet和SNet中,得到兩個預測的熱圖,并根據(jù)是否有干擾來決定使用哪個熱圖。

區(qū)別與FCNT,MD Net使用視頻中所有序列來跟蹤它們的運動。但序列訓練也存在問題,即不同跟蹤序列與跟蹤目標完全不一樣。最終MD Net提出多域的訓練思想,網絡結構如下圖所示,該網絡分為兩個部分:共享層和分類層。網絡結構部分用于提取特征,最后分類層區(qū)分不同的類別。

4.語義分割

計算機視覺的核心是分割過程,它將整個圖像分成像素組,然后對其進行標記和分類。語言分割試圖在語義上理解圖像中每個像素的角色(例如,汽車、摩托車等)。

CNN同樣在此項任務中展現(xiàn)了其優(yōu)異的性能。典型的方法是FCN,結構如下圖所示。FCN模型輸入一幅圖像后直接在輸出端得到密度預測,即每個像素所屬的類別,從而得到一個端到端的方法來實現(xiàn)圖像語義分割。

與FCN上采樣不同,SegNet將最大池化轉移至解碼器中,改善了分割分辨率。提升了內存的使用效率。

還有一些其他的方法,比如全卷積網絡、擴展卷積,DeepLab以及RefineNet等。

5.實例分割

除了語義分割之外,實例分割還分割了不同的類實例,例如用5種不同顏色標記5輛汽車。在分類中,通常有一個以一個物體為焦點的圖像,任務是說出這個圖像是什么。但是為了分割實例,我們需要執(zhí)行更復雜的任務。我們看到復雜的景象,有多個重疊的物體和日常背景,我們不僅對這些日常物體進行分類,而且還確定它們的邊界、差異和彼此之間的關系。

到目前為止,我們已經看到了如何以許多有趣的方式使用CNN功能來在帶有邊界框的圖像中有效地定位日常用品。我們可以擴展這些技術來定位每個對象的精確像素,而不僅僅是邊界框嗎?

CNN在此項任務中同樣表現(xiàn)優(yōu)異,典型算法是Mask R-CNN。Mask R-CNN在Faster R-CNN的基礎上添加了一個分支以輸出二元掩膜。該分支與現(xiàn)有的分類和邊框回歸并行,如下圖所示:

Faster-RCNN在實例分割任務中表現(xiàn)不好,為了修正其缺點,Mask R-CNN提出了RolAlign層,通過調整Rolpool來提升精度。從本質上講,RolAlign使用雙線性插值避免了取整誤差,該誤差導致檢測和分割不準確。

一旦掩膜被生成,Mask R-CNN結合分類器和邊框就能產生非常精準的分割:

結論

以上五種計算機視覺技術可以幫助計算機從單個或一系列圖像中提取、分析和理解有用信息。此外,還有很多其它的先進技術等待我們的探索,比如風格轉換、動作識別等。希望本文能夠引導你改變看待這個世界的方式。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機視覺
    +關注

    關注

    9

    文章

    1716

    瀏覽量

    47731
  • 深度學習
    +關注

    關注

    73

    文章

    5610

    瀏覽量

    124652

原文標題:一文看懂深度學習改變的五大計算機視覺技術

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Renesas 3858 組單芯片 8 位 CMOS 微計算機深度解析

    Renesas 3858 組單芯片 8 位 CMOS 微計算機深度解析 在電子設備不斷發(fā)展的今天,微計算機作為核心部件,其性能和特性對于整個系統(tǒng)的運行起著至關重要的作用。今天我們就來深入探討一下
    的頭像 發(fā)表于 04-13 15:00 ?161次閱讀

    計算機專業(yè)408考研科目

    408 跨考零基礎:三個月入門到精通路線 站在2026年的節(jié)點回望,計算機考研408(計算機學科專業(yè)基礎綜合)早已超越了單純的知識點考核,它更像是一場對邏輯思維與系統(tǒng)觀的深度洗禮。對于跨考且零基
    發(fā)表于 04-11 16:44

    傳音相關研究成果入選計算機視覺頂會CVPR 2026

    (Mohamed bin Zayed University of Artificial Intelligence,簡稱MBZUAI)聯(lián)合開展的“拍照解題”項目研究取得重要進展,相關成果論文已被計算機視覺領域的國際頂級學術會議CVPR 2026正式錄用。
    的頭像 發(fā)表于 04-03 17:45 ?2972次閱讀
    傳音相關研究成果入選<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>頂會CVPR 2026

    上海計算機視覺企業(yè)行學術沙龍走進西井科技

    12月5日,由中國圖象圖形學學會青年工作委員會(下簡稱“青工委”)、上海市計算機學會計算機視覺專委會(下簡稱“專委會”)聯(lián)合主辦,上海西井科技股份有限公司、江蘇路街道商會承辦的“上海計算機
    的頭像 發(fā)表于 12-16 15:39 ?754次閱讀

    使用代理式AI激活傳統(tǒng)計算機視覺系統(tǒng)的三種方法

    當前的計算機視覺系統(tǒng)擅長于識別物理空間與流程中的事件,卻難以詮釋場景細節(jié)及其意義,也無法推理后續(xù)可能發(fā)生的情況。
    的頭像 發(fā)表于 12-01 09:44 ?793次閱讀

    2025中國計算機大會DPU技術論壇成功舉辦

    近日,備受矚目的第22屆中國計算機大會(CNCC2025)在哈爾濱開幕。本屆大會注冊人數(shù)突破1.2萬人,匯聚了來自全球計算機領域的頂尖學者、產業(yè)領袖、青年學子及國際組織代表。大會以“數(shù)智賦能、無限可能”為主題,旨在深度探討數(shù)字智
    的頭像 發(fā)表于 11-02 09:29 ?913次閱讀

    蔚來出席CNCC 2025中國計算機大會技術論壇

    2025年10月23日,CNCC 2025中國計算機大會技術論壇「AI落地應用的主戰(zhàn)場——智能電動汽車」在哈爾濱成功舉行。論壇聚焦計算機技術與汽車產業(yè)的深度融合,匯聚產業(yè)界與學術界頂尖
    的頭像 發(fā)表于 10-27 15:47 ?785次閱讀

    STM32計算機視覺開發(fā)套件:B-CAMS-IMX攝像頭模塊技術解析

    STMicroelectronics用于 STM32開發(fā)板的B-CAMS-IMX攝像頭模塊提供強大的硬件集,可處理多種計算機視覺場景和用例。該模塊具有高分辨率500萬像素IMX335LQN
    的頭像 發(fā)表于 10-20 09:46 ?1652次閱讀
    STM32<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>開發(fā)套件:B-CAMS-IMX攝像頭模塊<b class='flag-5'>技術</b>解析

    如何在機器視覺中部署深度學習神經網絡

    人士而言往往難以理解,人們也常常誤以為需要扎實的編程技能才能真正掌握并合理使用這項技術。事實上,這種印象忽視了該技術為機器視覺(乃至生產自動化)帶來的潛力,因為深度
    的頭像 發(fā)表于 09-10 17:38 ?1069次閱讀
    如何在機器<b class='flag-5'>視覺</b>中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b>神經網絡

    【作品合集】賽昉科技VisionFive 2單板計算機開發(fā)板測評

    【VisionFive 2單板計算機試用體驗】燒錄系統(tǒng)+開箱啟動 第一期合集: 微科技CF5010RBT60開發(fā)板測評作品合集 第二期合集: 創(chuàng)龍科技TLT113/TL3562-MiniEVM開發(fā)板測評
    發(fā)表于 09-04 09:08

    易控智駕榮獲計算機視覺頂會CVPR 2025認可

    近日,2025年國際計算機視覺與模式識別頂級會議(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)在美國田納西州納什維爾召開。
    的頭像 發(fā)表于 07-29 16:54 ?1392次閱讀

    自動化計算機經過加固后有什么好處?

    -40℃的寒冷環(huán)境中運行?C和溫度達到85℃的灼熱環(huán)境,這要歸功于此類系統(tǒng)中使用的寬溫度組件和被動冷卻技術。2.抗沖擊和振動自動化計算機是工業(yè)級計算機,其設計和制造可
    的頭像 發(fā)表于 07-21 16:44 ?773次閱讀
    自動化<b class='flag-5'>計算機</b>經過加固后有什么好處?

    自動化計算機的功能與用途

    工業(yè)自動化是指利用自動化計算機來控制工業(yè)環(huán)境中的流程、機器人和機械,以制造產品或其部件。工業(yè)自動化的目的是提高生產率、增加靈活性,并提升制造過程的質量。工業(yè)自動化在汽車制造中體現(xiàn)得最為明顯,其中許多
    的頭像 發(fā)表于 07-15 16:32 ?922次閱讀
    自動化<b class='flag-5'>計算機</b>的功能與用途

    工業(yè)計算機與商用計算機的區(qū)別有哪些

    工業(yè)計算機是一種專為工廠和工業(yè)環(huán)境設計的計算系統(tǒng),具有高可靠性和穩(wěn)定性,能夠應對惡劣環(huán)境下的自動化、制造和機器人操作。其特點包括無風扇散熱技術、無電纜連接和防塵防水設計,使其在各種工業(yè)自動化場景中
    的頭像 發(fā)表于 07-10 16:36 ?932次閱讀
    工業(yè)<b class='flag-5'>計算機</b>與商用<b class='flag-5'>計算機</b>的區(qū)別有哪些

    利用邊緣計算和工業(yè)計算機實現(xiàn)智能視頻分析

    IVA的好處、實際部署應用程序以及工業(yè)計算機如何實現(xiàn)這些解決方案。一、什么是智能視頻分析(IVA)?智能視頻分析(IVA)集成了復雜的計算機視覺,通常與卷積神經網
    的頭像 發(fā)表于 05-16 14:37 ?1000次閱讀
    利用邊緣<b class='flag-5'>計算</b>和工業(yè)<b class='flag-5'>計算機</b>實現(xiàn)智能視頻分析
    崇明县| 驻马店市| 灵石县| 临夏市| 临清市| 城固县| 兴业县| 沙洋县| 米易县| 济源市| 凤台县| 昆山市| 枞阳县| 阳城县| 巨野县| 额尔古纳市| 咸宁市| 扎兰屯市| 额敏县| 广德县| 邓州市| 北安市| 壤塘县| 望都县| 景谷| 尖扎县| 巴里| 商河县| 湘乡市| 三门县| 蒙阴县| 明光市| 彰化市| 遵义市| 嘉鱼县| 鸡泽县| 含山县| 浪卡子县| 湖口县| 疏附县| 长葛市|