日日艹高清无码视频,好屌艹一區

這是一篇計(jì)算機(jī)視覺入門指南，從概念、原理、用例等角度介紹了計(jì)算機(jī)視覺。

「機(jī)器能夠模擬人類視覺系統(tǒng)」的幻想已經(jīng)過時(shí)了。自 1960 年代第一批學(xué)術(shù)論文出現(xiàn)以來，計(jì)算機(jī)視覺已經(jīng)走了很遠(yuǎn)，現(xiàn)代系統(tǒng)已經(jīng)出現(xiàn)，且它們可以集成到移動(dòng)應(yīng)用中。

今天，由于其廣泛應(yīng)用和巨大潛力，計(jì)算機(jī)視覺成為最熱的人工智能和機(jī)器學(xué)習(xí)子領(lǐng)域之一。其目標(biāo)是：復(fù)制人類視覺的強(qiáng)大能力。

但是，到底什么是計(jì)算機(jī)視覺？它在不同行業(yè)中的應(yīng)用現(xiàn)狀如何？知名的商業(yè)用例有哪些？典型的計(jì)算機(jī)視覺任務(wù)是什么？

本文將介紹計(jì)算機(jī)視覺的基礎(chǔ)概念和現(xiàn)實(shí)應(yīng)用，對(duì)任何聽說過計(jì)算機(jī)視覺但不確定它是什么以及如何應(yīng)用的人，本文是了解計(jì)算機(jī)視覺這一復(fù)雜問題的便捷途徑。

你可以通讀本文，或者直接跳至某個(gè)章節(jié)。

什么是計(jì)算機(jī)視覺？

計(jì)算機(jī)視覺解決什么問題

區(qū)分計(jì)算機(jī)視覺與其相關(guān)領(lǐng)域

行業(yè)應(yīng)用

零售業(yè)

制造業(yè)

醫(yī)療行業(yè)

自動(dòng)駕駛

保險(xiǎn)業(yè)

農(nóng)業(yè)

安防

典型的計(jì)算機(jī)視覺任務(wù)

圖像分類

定位

目標(biāo)檢測(cè)

目標(biāo)識(shí)別

實(shí)例分割

目標(biāo)追蹤

計(jì)算機(jī)視覺運(yùn)行原理

通用策略

現(xiàn)有數(shù)據(jù)集

訓(xùn)練目標(biāo)檢測(cè)模型

商業(yè)用例

視覺搜索引擎

Facebook 人臉識(shí)別

Amazon Go

特斯拉自動(dòng)駕駛

微軟 InnerEye

計(jì)算機(jī)視覺在小公司的應(yīng)用現(xiàn)狀

如何實(shí)現(xiàn)計(jì)算機(jī)視覺項(xiàng)目

什么是計(jì)算機(jī)視覺？

計(jì)算機(jī)視覺解決什么問題

人類能夠理解和描述圖像中的場(chǎng)景。以下圖為例，人類能做到的不僅僅是檢測(cè)到圖像前景中有四個(gè)人、一條街道和幾輛車。

除了這些基本信息，人類還能夠看出圖像前景中的人正在走路，其中一人赤腳，我們甚至知道他們是誰。我們可以理性地推斷出圖中人物沒有被車撞擊的危險(xiǎn)，白色的大眾汽車沒有停好。人類還可以描述圖中人物的穿著，不止是衣服顏色，還有材質(zhì)與紋理。

這也是計(jì)算機(jī)視覺系統(tǒng)需要的技能。簡(jiǎn)單來說，計(jì)算機(jī)視覺解決的主要問題是：

給出一張二維圖像，計(jì)算機(jī)視覺系統(tǒng)必須識(shí)別出圖像中的對(duì)象及其特征，如形狀、紋理、顏色、大小、空間排列等，從而盡可能完整地描述該圖像。

區(qū)分計(jì)算機(jī)視覺與其相關(guān)領(lǐng)域

計(jì)算機(jī)視覺完成的任務(wù)遠(yuǎn)超其他領(lǐng)域，如圖像處理、機(jī)器視覺，盡管它們存在一些共同點(diǎn)。接下來，我們就來了解一下這些領(lǐng)域之間的差異。

圖像處理

圖像處理旨在處理原始圖像以應(yīng)用某種變換。其目標(biāo)通常是改進(jìn)圖像或?qū)⑵渥鳛槟稠?xiàng)特定任務(wù)的輸入，而計(jì)算機(jī)視覺的目標(biāo)是描述和解釋圖像。例如，降噪、對(duì)比度或旋轉(zhuǎn)操作這些典型的圖像處理組件可以在像素層面執(zhí)行，無需對(duì)圖像整體具備全面的了解。

機(jī)器視覺

機(jī)器視覺是計(jì)算機(jī)視覺用于執(zhí)行某些（生產(chǎn)線）動(dòng)作的特例。在化工行業(yè)中，機(jī)器視覺系統(tǒng)可以檢查生產(chǎn)線上的容器（是否干凈、空置、無損）或檢查成品是否恰當(dāng)封裝，從而幫助產(chǎn)品制造。

計(jì)算機(jī)視覺

計(jì)算機(jī)視覺可以解決更復(fù)雜的問題，如人臉識(shí)別、詳細(xì)的圖像分析（可幫助實(shí)現(xiàn)視覺搜索，如 Google Images），或者生物識(shí)別方法。

行業(yè)應(yīng)用

人類不僅能夠理解圖像中的場(chǎng)景，稍加訓(xùn)練，還能解釋書法、印象派畫家、抽象畫，以及胎兒的二維超聲圖像。

從這個(gè)角度來看，計(jì)算機(jī)視覺領(lǐng)域尤其復(fù)雜，它擁有大量的實(shí)際應(yīng)用。

從電商到傳統(tǒng)行業(yè)，各種類型和規(guī)模的公司現(xiàn)在都可以利用計(jì)算機(jī)視覺的強(qiáng)大能力，這是依賴于人工智能和機(jī)器學(xué)習(xí)（更具體地說是計(jì)算機(jī)視覺）的創(chuàng)新所帶來的利好。

下面我們就來看看，近年來受計(jì)算機(jī)視覺影響最大的行業(yè)應(yīng)用。

零售業(yè)

近年來，計(jì)算機(jī)視覺在零售業(yè)的應(yīng)用已成為最重要的技術(shù)趨勢(shì)之一。下文將介紹一些常見的用例。如果你想對(duì)計(jì)算機(jī)視覺在零售業(yè)的潛在應(yīng)用有更詳細(xì)的了解，請(qǐng)參考：https://tryolabs.com/resources/retail-innovations-machine-learning/。

行為追蹤

實(shí)體零售店利用計(jì)算機(jī)視覺算法和攝像頭，了解顧客及其行為。

計(jì)算機(jī)視覺算法能夠識(shí)別人臉，確定人物特征，如性別或年齡范圍。此外，零售店還可以利用計(jì)算機(jī)視覺技術(shù)追蹤顧客在店內(nèi)的移動(dòng)軌跡，分析其移動(dòng)路線，檢測(cè)行走模式，并統(tǒng)計(jì)零售店店面受到行人注意的次數(shù)。

添加視線方向檢測(cè)后，零售店能夠回答這一重要問題：將店內(nèi)商品放在哪個(gè)位置可以提升消費(fèi)者體驗(yàn)，最大化銷售額。

計(jì)算機(jī)視覺還是開發(fā)防盜竊機(jī)制的強(qiáng)大工具。人臉識(shí)別算法可用于識(shí)別已知的商店扒手，或檢測(cè)出某位顧客將商品放入自己的背包。

庫存管理

計(jì)算機(jī)視覺在庫存管理方面有兩個(gè)主要的應(yīng)用。

通過安防攝像頭圖像分析，計(jì)算機(jī)視覺算法可以對(duì)店內(nèi)剩余商品生成非常準(zhǔn)確的估計(jì)。對(duì)于店鋪管理者來說，這是非常寶貴的信息，它可以幫助管理者立即察覺不尋常的貨物需求，并及早作出反應(yīng)。

另一個(gè)常見應(yīng)用是：分析貨架空間利用情況，識(shí)別次優(yōu)配置。除了發(fā)現(xiàn)被浪費(fèi)的空間以外，此類算法還可以提供更好的貨品擺放方案。

制造業(yè)

生產(chǎn)線上的主要問題是機(jī)器中斷或殘次品，這些問題會(huì)導(dǎo)致生產(chǎn)延遲和利潤損失。

計(jì)算機(jī)視覺算法被證實(shí)是實(shí)施預(yù)測(cè)性維護(hù)的好方法。算法通過分析（來自機(jī)器人身上攝像頭等的）視覺信息，預(yù)先發(fā)現(xiàn)機(jī)器的潛在問題。此類系統(tǒng)可以預(yù)測(cè)包裝或汽車裝配機(jī)器人是否會(huì)中斷，這是一項(xiàng)巨大的貢獻(xiàn)。

這同樣可用于降低不良率，系統(tǒng)可以檢測(cè)出整個(gè)生產(chǎn)線上各個(gè)組件中的缺陷。這使得制造商實(shí)時(shí)響應(yīng)，采取解決辦法。缺陷可能不那么嚴(yán)重，生產(chǎn)流程可以繼續(xù)，但是產(chǎn)品以某種方式被標(biāo)記，或者被指向特定的生產(chǎn)路徑。但是，有時(shí)停止生產(chǎn)線是必要的。為了進(jìn)一步的利益，此類系統(tǒng)可以針對(duì)每個(gè)用例進(jìn)行訓(xùn)練，按類型和嚴(yán)重程度對(duì)缺陷進(jìn)行分類。

醫(yī)療行業(yè)

在醫(yī)療行業(yè)中，現(xiàn)有計(jì)算機(jī)視覺應(yīng)用的數(shù)量非常龐大。

毫無疑問，醫(yī)療圖像分析是最著名的例子，它可以顯著提升醫(yī)療診斷流程。此類系統(tǒng)對(duì) MRI 圖像、CT 掃描圖像和 X 光圖像進(jìn)行分析，找出腫瘤等異常，或者搜索神經(jīng)系統(tǒng)疾病的癥狀。

在很多情況下，圖像分析技術(shù)從圖像中提取特征，從而訓(xùn)練能夠檢測(cè)異常的分類器。但是，一些特定應(yīng)用需要更細(xì)化的圖像處理。例如，對(duì)結(jié)腸鏡檢查圖像進(jìn)行分析時(shí)，分割圖像是必要的，這樣才能找出腸息肉，防止結(jié)直腸癌。

胸腔 3D 渲染 CT 掃描圖像的體分割。（圖源：https://en.wikipedia.org/wiki/Image_segmentation）

上圖是觀察胸腔元素所需的圖像分割結(jié)果。該系統(tǒng)分割每個(gè)重要部分并著色：肺動(dòng)脈（藍(lán)色）、肺靜脈（紅色）、縱膈（黃色）和橫膈（紫色）。

目前大量此類應(yīng)用已經(jīng)投入使用，如估計(jì)產(chǎn)后出血量、量化冠狀動(dòng)脈鈣化情況、在沒有 MRI 的情況下測(cè)定人體內(nèi)的血流量。

但是，醫(yī)療圖像并非計(jì)算機(jī)視覺在醫(yī)療行業(yè)中唯一的用武之地。比如，計(jì)算機(jī)視覺技術(shù)為視障人士提供室內(nèi)導(dǎo)航幫助。這些系統(tǒng)可以在樓層平面圖中定位行人和周圍事物等，以便實(shí)時(shí)提供視覺體驗(yàn)。視線追蹤和眼部分析可用于檢測(cè)早期認(rèn)知障礙，如兒童自閉癥或閱讀障礙，這些疾病與異常注視行為高度相關(guān)。

自動(dòng)駕駛

你是否思考過，自動(dòng)駕駛汽車如何「看」路？計(jì)算機(jī)視覺在其中扮演核心角色，它幫助自動(dòng)駕駛汽車感知和了解周圍環(huán)境，進(jìn)而恰當(dāng)運(yùn)行。

計(jì)算機(jī)視覺最令人興奮的挑戰(zhàn)之一是圖像和視頻目標(biāo)檢測(cè)。這包括對(duì)不同數(shù)量的對(duì)象進(jìn)行定位和分類，以便區(qū)分某個(gè)對(duì)象是交通信號(hào)燈、汽車還是行人，如下圖所示：

自動(dòng)駕駛汽車目標(biāo)檢測(cè)。（圖源：https://cdn-images-1.medium.com/max/1600/1*q1uVc-MU-tC-WwFp2yXJow.gif）

此類技術(shù)，加上對(duì)來自傳感器和/或雷達(dá)等來源的數(shù)據(jù)進(jìn)行分析，使得汽車能夠「看見」。

圖像目標(biāo)檢測(cè)是一項(xiàng)復(fù)雜的強(qiáng)大任務(wù)，之前我們?cè)?jīng)討論過，參見：https://tryolabs.com/blog/2017/08/30/object-detection-an-overview-in-the-age-of-deep-learning/。

另一篇文章從人類-圖像交互的角度探討這一主題，參見：https://tryolabs.com/blog/2018/03/01/introduction-to-visual-question-answering/。

保險(xiǎn)業(yè)

計(jì)算機(jī)視覺在保險(xiǎn)業(yè)中的應(yīng)用影響很大，尤其是在理賠處理中。

計(jì)算機(jī)視覺應(yīng)用可以指導(dǎo)客戶以視覺形式進(jìn)行理賠文件處理。它可以實(shí)時(shí)分析圖像并發(fā)送至適合的保險(xiǎn)經(jīng)紀(jì)人。同時(shí)，它可以估計(jì)和調(diào)整維護(hù)費(fèi)用，確定是否在保險(xiǎn)覆蓋范圍內(nèi)，甚至檢測(cè)是否存在保險(xiǎn)欺詐。所有這些最大程度上縮短了索賠流程，為客戶提供更好的體驗(yàn)。

從預(yù)防的角度來看，計(jì)算機(jī)視覺在避免意外事故方面用處極大。大量可用于阻止碰撞的計(jì)算機(jī)視覺應(yīng)用被整合到工業(yè)機(jī)械、汽車和無人機(jī)中。這是風(fēng)險(xiǎn)管理的新時(shí)代，可能改變整個(gè)保險(xiǎn)業(yè)。

農(nóng)業(yè)

計(jì)算機(jī)視覺對(duì)農(nóng)業(yè)有極大影響，尤其是精準(zhǔn)農(nóng)業(yè)。

在糧食生產(chǎn)這一全球經(jīng)濟(jì)活動(dòng)中，存在一系列寶貴的計(jì)算機(jī)視覺應(yīng)用。糧食生產(chǎn)面臨一些反復(fù)出現(xiàn)的問題，之前這些問題通常由人類監(jiān)控。而現(xiàn)在，計(jì)算機(jī)視覺算法可以檢測(cè)或合理預(yù)測(cè)病蟲害。此類早期診斷可幫助農(nóng)民快速采取合適措施，減少損失，保證生產(chǎn)質(zhì)量。

另一項(xiàng)長(zhǎng)期挑戰(zhàn)是除草，因?yàn)殡s草對(duì)除草劑產(chǎn)生抗藥性，可能給農(nóng)民帶來嚴(yán)重?fù)p失。現(xiàn)在出現(xiàn)了配備有計(jì)算機(jī)視覺技術(shù)的機(jī)器人，它們可以監(jiān)控整片農(nóng)田，精準(zhǔn)噴灑除草劑。這極大地節(jié)約了使用農(nóng)藥量，為地球環(huán)境和生產(chǎn)成本均帶來了極大的益處。

土壤質(zhì)量也是農(nóng)業(yè)中的一大主要因素。一些計(jì)算機(jī)視覺應(yīng)用可以從手機(jī)拍攝的照片中識(shí)別出土壤的潛在缺陷和營養(yǎng)缺乏問題。分析之后，這些應(yīng)用會(huì)針對(duì)檢測(cè)出的土壤問題，提供土壤恢復(fù)技術(shù)和可能的解決方案。

計(jì)算機(jī)視覺還可用于分類。一些算法通過識(shí)別水果、蔬菜甚至花卉的主要特性（如大小、質(zhì)量、重量、顏色、紋理等），對(duì)其進(jìn)行分類。這些算法還能夠檢測(cè)缺陷，估計(jì)出哪些農(nóng)產(chǎn)品保鮮期較長(zhǎng)、哪些應(yīng)該放置在本地市場(chǎng)售賣。這極大延長(zhǎng)了農(nóng)產(chǎn)品的保鮮期，減少了農(nóng)產(chǎn)品上市前所需時(shí)間。

安防

與零售業(yè)類似，對(duì)安全具備高要求的企業(yè)（如銀行或賭場(chǎng)）可從計(jì)算機(jī)視覺應(yīng)用中獲益，這些應(yīng)用對(duì)安防攝像頭拍攝的圖像進(jìn)行分析，從而識(shí)別顧客。

而從另一個(gè)層面上來講，計(jì)算機(jī)視覺是國土安全任務(wù)中的強(qiáng)大工具。它可用于改進(jìn)港口貨物檢驗(yàn)，或者監(jiān)控敏感場(chǎng)所，如大使館、發(fā)電站、醫(yī)院、鐵路和體育場(chǎng)。這里，計(jì)算機(jī)視覺不僅能夠分析和分類圖像，還能對(duì)場(chǎng)景提供詳細(xì)且有意義的描述，為決策實(shí)時(shí)提供關(guān)鍵因素。

通常，計(jì)算機(jī)視覺廣泛應(yīng)用于國防任務(wù)，如偵察敵軍地形、自動(dòng)確認(rèn)圖像中的敵軍、自動(dòng)化車輛和機(jī)器移動(dòng)，以及搜索援救。

典型的計(jì)算機(jī)視覺任務(wù)

高度復(fù)制人類視覺系統(tǒng)，這是如何做到的呢？

計(jì)算機(jī)視覺基于大量不同任務(wù)，并組合在一起實(shí)現(xiàn)高度復(fù)雜的應(yīng)用。計(jì)算機(jī)視覺中最常見的任務(wù)是圖像和視頻識(shí)別，涉及確定圖像包含的不同對(duì)象。

圖像分類

計(jì)算機(jī)視覺中最知名的任務(wù)可能就是圖像分類了，它對(duì)給定圖像進(jìn)行分類。我們看一個(gè)簡(jiǎn)單的二分類例子：我們想根據(jù)圖像是否包含旅游景點(diǎn)對(duì)其進(jìn)行分類。假設(shè)我們?yōu)榇巳蝿?wù)構(gòu)建了一個(gè)分類器，并提供了一張圖像（見下圖）。

埃菲爾鐵塔（圖源：https://cdn.pariscityvision.com/media/wysiwyg/tour-eiffel.jpg）

該分類器認(rèn)為上述圖像屬于包含旅游景點(diǎn)的圖像類別。但這并不意味著分類器認(rèn)出埃菲爾鐵塔了，它可能只是曾經(jīng)見過這座塔的照片，并且當(dāng)時(shí)被告知圖像中包含旅游景點(diǎn)。

巴黎旅游景點(diǎn)明信片。（圖源：http://toyworldgroup.com/image/cache/catalog/Ecuda%20Puzzles/Postcard%20Form%20Paris%20/14840-500x500.jpg）

該分類器的更強(qiáng)大版本可以處理不止兩個(gè)類別。例如，分類器將圖像分類為旅游景點(diǎn)的特定類型，如埃菲爾鐵塔、凱旋門、圣心大教堂等。那么在此類場(chǎng)景中，每個(gè)圖像輸入可能有多個(gè)答案，就像上面那張明信片一樣。

定位

假設(shè)，現(xiàn)在我們不僅想知道圖像中出現(xiàn)的旅游景點(diǎn)名稱，還對(duì)其在圖像中的位置感興趣。定位的目標(biāo)就是找出圖像中單個(gè)對(duì)象的位置。例如，下圖中埃菲爾鐵塔的位置就被標(biāo)記出來了。

被紅色邊界框標(biāo)記出的埃菲爾鐵塔。（圖源：https://cdn.pariscityvision.com/media/wysiwyg/tour-eiffel.jpg）

執(zhí)行定位的標(biāo)準(zhǔn)方式是，在圖像中定義一個(gè)將對(duì)象圍住的邊界框。

定位是一個(gè)很有用的任務(wù)。比如，它可以對(duì)大量圖像執(zhí)行自動(dòng)對(duì)象剪裁。將定位與分類任務(wù)結(jié)合起來，就可以快速構(gòu)建著名旅游景點(diǎn)（剪裁）圖像數(shù)據(jù)集。

目標(biāo)檢測(cè)

我們想象一個(gè)同時(shí)包含定位和分類的動(dòng)作，對(duì)一張圖像中的所有感興趣對(duì)象重復(fù)執(zhí)行該動(dòng)作，這就是目標(biāo)檢測(cè)。該場(chǎng)景中，圖像中的對(duì)象數(shù)量是未知的。因此，目標(biāo)檢測(cè)的目標(biāo)是找出圖像中的對(duì)象，并進(jìn)行分類。

目標(biāo)檢測(cè)結(jié)果（圖源：http://research.ibm.com/artificial-intelligence/computer-vision/images/cv-research-areas-object-detection.jpg）

在這個(gè)密集圖像中，我們可以看到計(jì)算機(jī)視覺系統(tǒng)識(shí)別出大量不同對(duì)象：汽車、人、自行車，甚至包含文本的標(biāo)志牌。

這個(gè)問題對(duì)人類來說都算困難的。一些對(duì)象只顯示出一部分，因?yàn)樗鼈冇幸徊糠衷趫D像外，或者彼此重疊。此外，相似對(duì)象的大小差別極大。

目標(biāo)檢測(cè)的一個(gè)直接應(yīng)用是計(jì)數(shù)，它在現(xiàn)實(shí)生活中應(yīng)用廣泛，從計(jì)算收獲水果的種類到計(jì)算公眾集會(huì)或足球賽等活動(dòng)的人數(shù)，不一而足。

目標(biāo)識(shí)別

目標(biāo)識(shí)別與目標(biāo)檢測(cè)略有不同，盡管它們使用類似的技術(shù)。給出一個(gè)特定對(duì)象，目標(biāo)識(shí)別的目標(biāo)是在圖像中找出該對(duì)象的實(shí)例。這并不是分類，而是確定該對(duì)象是否出現(xiàn)在圖像中，如果出現(xiàn)，則執(zhí)行定位。搜索包含某公司 logo 的圖像就是一個(gè)例子。另一個(gè)例子是監(jiān)控安防攝像頭拍攝的實(shí)時(shí)圖像以識(shí)別某個(gè)人的面部。

實(shí)例分割

我們可以把實(shí)例分割看作是目標(biāo)檢測(cè)的下一步。它不僅涉及從圖像中找出對(duì)象，還需要為檢測(cè)到的每個(gè)對(duì)象創(chuàng)建一個(gè)盡可能準(zhǔn)確的掩碼。

（圖注）實(shí)例分割結(jié)果。

你可以從上圖中看到，實(shí)例分割算法為四位披頭士成員和一些汽車創(chuàng)建掩碼（不過該結(jié)果并不完整，尤其是列儂）。

人工執(zhí)行此類任務(wù)的成本很高，而實(shí)例分割技術(shù)使得此類任務(wù)的實(shí)現(xiàn)變得簡(jiǎn)單。在法國，法律禁止媒體在未經(jīng)監(jiān)護(hù)人明確同意的情況下暴露兒童形象。使用實(shí)例分割技術(shù)，可以模糊電視或電影中的兒童面部。

目標(biāo)追蹤

目標(biāo)追蹤旨在追蹤隨著時(shí)間不斷移動(dòng)的對(duì)象，它使用連續(xù)視頻幀作為輸入。該功能對(duì)于機(jī)器人來說是必要的，以守門員機(jī)器人舉例，它們需要執(zhí)行從追球到擋球等各種任務(wù)。目標(biāo)追蹤對(duì)于自動(dòng)駕駛汽車而言同樣重要，它可以實(shí)現(xiàn)高級(jí)空間推理和路徑規(guī)劃。類似地，目標(biāo)追蹤在多人追蹤系統(tǒng)中也很有用，包括用于理解用戶行為的系統(tǒng)（如零售店的計(jì)算機(jī)視覺系統(tǒng)），以及在游戲中監(jiān)控足球或籃球運(yùn)動(dòng)員的系統(tǒng)。

執(zhí)行目標(biāo)追蹤的一種相對(duì)直接的方式是，對(duì)視頻序列中的每張圖像執(zhí)行目標(biāo)追蹤并對(duì)比每個(gè)對(duì)象實(shí)例，以確定它們的移動(dòng)軌跡。該方法的缺陷是為每張圖像執(zhí)行目標(biāo)檢測(cè)通常成本高昂。另一種替換方式僅需捕捉被追蹤對(duì)象一次（通常是該對(duì)象出現(xiàn)的第一次），然后在不明確識(shí)別該對(duì)象的情況下在后續(xù)圖像中辨別它的移動(dòng)軌跡。最后，目標(biāo)追蹤方法未必就能檢測(cè)出對(duì)象，它可以在不知道追蹤對(duì)象是什么的情況下，僅查看目標(biāo)的移動(dòng)軌跡。

計(jì)算機(jī)視覺運(yùn)行原理

如前所示，計(jì)算機(jī)視覺的目標(biāo)是模仿人類視覺系統(tǒng)的工作方式。算法如何實(shí)現(xiàn)這一目標(biāo)呢？本文將介紹其中最重要的幾個(gè)概念。

通用策略

深度學(xué)習(xí)方法和技術(shù)深刻改變了計(jì)算機(jī)視覺以及其他人工智能領(lǐng)域，對(duì)于很多任務(wù)而言，使用深度學(xué)習(xí)方法已經(jīng)成為標(biāo)準(zhǔn)操作。尤其是，卷積神經(jīng)網(wǎng)絡(luò)（CNN）的性能超過了使用傳統(tǒng)計(jì)算機(jī)視覺技術(shù)所能達(dá)到的最優(yōu)結(jié)果。

以下四步展示了利用 CNN 構(gòu)建計(jì)算機(jī)視覺模型的通用方法：

創(chuàng)建一個(gè)包含標(biāo)注圖像的數(shù)據(jù)集或者使用現(xiàn)有的數(shù)據(jù)集。標(biāo)注可以是圖像類別（適用于分類任務(wù)）、邊界框和類別對(duì)（適用于目標(biāo)檢測(cè)問題），或者對(duì)圖像中每個(gè)感興趣對(duì)象進(jìn)行像素級(jí)分割（適用于實(shí)例分割問題）。

從每張圖像中提取與待處理任務(wù)相關(guān)的特征，這是建模的重點(diǎn)。例如，用來識(shí)別人臉的特征、基于人臉標(biāo)準(zhǔn)的特征與用來識(shí)別旅游景點(diǎn)或人體器官的特征存在顯著區(qū)別。

基于特征訓(xùn)練深度學(xué)習(xí)模型。訓(xùn)練意味著向機(jī)器學(xué)習(xí)模型輸入很多圖像，然后模型基于特征學(xué)習(xí)如何解決任務(wù)。

使用不同于訓(xùn)練所用數(shù)據(jù)的圖像評(píng)估模型，從而測(cè)試訓(xùn)練模型的準(zhǔn)確率。

該策略非?；A(chǔ)，但效果不錯(cuò)。這類方法叫做監(jiān)督機(jī)器學(xué)習(xí)，它需要包含模型待學(xué)習(xí)現(xiàn)象的數(shù)據(jù)集。

現(xiàn)有數(shù)據(jù)集

構(gòu)建數(shù)據(jù)集通常成本高昂，但是它們對(duì)于開發(fā)計(jì)算機(jī)視覺應(yīng)用至關(guān)重要。幸運(yùn)的是，目前有一些現(xiàn)成的數(shù)據(jù)集。其中規(guī)模最大、最著名的是 ImageNet，該數(shù)據(jù)集包含 1400 萬人工標(biāo)注圖像。該數(shù)據(jù)集包含 100 萬張具備邊界框標(biāo)注的圖像。

帶有邊界框的 ImageNet 圖像（圖源：http://www.image-net.org/bbox_fig/kit_fox.JPG）

具備對(duì)象屬性標(biāo)注的 ImageNet 圖像（圖源：http://www.image-net.org/attribute_fig/pullfigure.jpg）

另一個(gè)著名數(shù)據(jù)集是 Microsoft Common Objects in Context (COCO) 數(shù)據(jù)集，它包含 328,000 張圖像、91 個(gè)對(duì)象類別（這些類別很容易識(shí)別，4 歲孩童也可以輕松識(shí)別出來），以及 250 萬標(biāo)注實(shí)例。

COCO 數(shù)據(jù)集中的標(biāo)注圖像示例。（圖源：https://arxiv.org/abs/1405.0312）

盡管該領(lǐng)域可用數(shù)據(jù)集并不是特別多，但仍然有一些適合不同的任務(wù)，如 CelebFaces Attributes Dataset（CelebA 數(shù)據(jù)集，該人臉屬性數(shù)據(jù)集包含超過 20 萬張名人圖像）、Indoor Scene Recognition 數(shù)據(jù)集（包含 15,620 張室內(nèi)場(chǎng)景圖像）、Plant Image Analysis 數(shù)據(jù)集（包括屬于 11 個(gè)不同類別的 100 萬張植物圖像）。

訓(xùn)練目標(biāo)檢測(cè)模型

Viola–Jones 方法

有很多種方法可以解決目標(biāo)檢測(cè)問題。很多年來，Paul Viola 和 Michael Jones 在論文《Robust Real-time Object Detection》中提出的方法成為流行的方法。

盡管該方法可用來檢測(cè)大量對(duì)象類別，但它最初是受人臉檢測(cè)目標(biāo)的啟發(fā)。該方法快速、直接，是傻瓜相機(jī)中所使用的算法，它可以在幾乎不浪費(fèi)處理能力的情況下執(zhí)行實(shí)時(shí)人臉檢測(cè)。

該方法的核心特征是：基于哈爾特征與大量二分類器一起訓(xùn)練。哈爾特征表示邊和線，計(jì)算簡(jiǎn)單。

哈爾特征（圖源：https://docs.opencv.org/3.4.3/haar_features.jpg）

盡管比較基礎(chǔ)，但在人臉檢測(cè)這一特定案例下，這些特征可以捕捉到重要元素，如鼻子、嘴或眉間距。該監(jiān)督方法需要很多正類和負(fù)類樣本。

檢測(cè)蒙娜麗莎的面部。

本文暫不討論算法細(xì)節(jié)。不過，上圖展示了該算法檢測(cè)蒙娜麗莎面部的過程。

基于 CNN 的方法

深度學(xué)習(xí)變革了機(jī)器學(xué)習(xí)，尤其是計(jì)算機(jī)視覺。目前基于深度學(xué)習(xí)的方法已經(jīng)成為很多計(jì)算機(jī)視覺任務(wù)的前沿技術(shù)。

其中，R-CNN 易于理解，其作者提出了一個(gè)包含三個(gè)階段的流程：

利用區(qū)域候選（region proposal）方法提取可能的對(duì)象。

使用 CNN 識(shí)別每個(gè)區(qū)域中的特征。

利用支持向量機(jī)（SVM）對(duì)每個(gè)區(qū)域進(jìn)行分類。

R-CNN 架構(gòu)（圖源：https://arxiv.org/abs/1311.2524）

該區(qū)域候選方法最初由論文《Selective Search for Object Recognition》提出，盡管 R-CNN 算法并不在意使用哪種區(qū)域候選方法。步驟 3 非常重要，因?yàn)樗鼫p少了候選對(duì)象的數(shù)量，降低了計(jì)算成本。

這里提取的特征沒有哈爾特征那么直觀?？傊?，CNN 可用于從每個(gè)區(qū)域候選中提取 4096 維的特征向量。鑒于 CNN 的本質(zhì)，輸入應(yīng)該具備同樣的維度。這也是 CNN 的弱點(diǎn)之一，很多方法解決了這個(gè)問題?；氐?R-CNN 方法，訓(xùn)練好的 CNN 架構(gòu)要求輸入為 227 × 227 像素的固定區(qū)域。由于候選區(qū)域的大小各有不同，R-CNN 作者通過扭曲圖像的方式使其維度滿足要求。

滿足 CNN 輸入維度要求的扭曲圖像示例。

盡管該方法取得了很好的結(jié)果，但訓(xùn)練過程中存在一些困難，并且該方法最終被其他方法超越。其中一些方法在這篇文章中有深入介紹：https://tryolabs.com/blog/2017/08/30/object-detection-an-overview-in-the-age-of-deep-learning/。

商業(yè)用例

計(jì)算機(jī)視覺應(yīng)用被越來越多的公司部署，用于回答業(yè)務(wù)問題或提升產(chǎn)品性能。它們或許已經(jīng)成為人們?nèi)粘Ｉ畹囊徊糠?，你甚至都沒有注意到它。以下是一些常見的使用案例。

視覺搜索引擎

2001 年，Google Images 的出現(xiàn)意味著視覺搜索技術(shù)可被大眾使用。視覺搜索引擎能夠基于特定內(nèi)容標(biāo)準(zhǔn)檢索圖像。常見用例是搜索關(guān)鍵詞，不過有時(shí)候我們會(huì)提供源圖像，要求引擎找出相似圖像。在某些案例中，可以指定更詳細(xì)的搜索條件，如沙灘的圖像、夏天拍攝、至少包含 10 個(gè)人。

現(xiàn)在有很多視覺搜索引擎，有的可以網(wǎng)站形式直接使用，有的需要通過 API 調(diào)用，有的則是移動(dòng)應(yīng)用。

最著名的視覺搜索網(wǎng)站無疑是 Google Images、Bing 和 Yahoo。前兩個(gè)網(wǎng)站均可使用多個(gè)關(guān)鍵詞或者單張圖像作為搜索輸入，以圖像作為搜索輸入又名「反向圖像搜索」（以圖搜圖）。Yahoo 僅支持關(guān)鍵詞搜索，搜索結(jié)果同樣不錯(cuò)，如下圖所示。

Yahoo 圖像搜索。

還有一些視覺搜索網(wǎng)站同樣值得關(guān)注，如僅支持反向圖像搜索的 TinEye，以及僅支持文本搜索但覆蓋范圍極大的 Picsearch。

在移動(dòng)應(yīng)用方面，由于視覺搜索技術(shù)逐漸成為標(biāo)準(zhǔn)特征，此類應(yīng)用之間的區(qū)別較大。

此類實(shí)現(xiàn)包括 Google Goggles（后被 Google Lens 取代），它可從圖像中獲取詳細(xì)信息。例如，從一張貓照片中得到其品種信息，或者提供博物館中藝術(shù)作品的信息。

在電商市場(chǎng)中，Pinterest 開發(fā)了 Pinterest Lens。如果你需要現(xiàn)有衣物的新穿搭想法，你可以為這件衣服拍張照，之后 Pinterest Lens 會(huì)返回穿搭建議，該建議包括你可以購買的搭配單品。近年來，針對(duì)網(wǎng)購的視覺搜索成為增長(zhǎng)最快的趨勢(shì)之一。

最后，視覺搜索的更高階案例是視覺問答系統(tǒng)，參見：https://tryolabs.com/blog/2018/03/01/introduction-to-visual-question-answering/。

Facebook 人臉識(shí)別

盡管早在 2000 年代中期，出于自動(dòng)對(duì)焦目的而使用人臉檢測(cè)技術(shù)的相機(jī)已經(jīng)普遍，但近年來人臉識(shí)別領(lǐng)域出現(xiàn)了很多更優(yōu)秀的成績(jī)。最常見（也最具爭(zhēng)議）的應(yīng)用或許就是識(shí)別圖像或視頻中的人物。這通常用于安防系統(tǒng)，但也出現(xiàn)在社交媒體中：人臉管理系統(tǒng)為人臉添加過濾器，以便按人臉執(zhí)行搜索，甚至在選舉過程中阻止選民多次投票。人臉識(shí)別還可用到更復(fù)雜的場(chǎng)景，如識(shí)別面部表情中的情緒。

其中同時(shí)引發(fā)了興趣和擔(dān)憂的用例是 Facebook 的人臉識(shí)別系統(tǒng)。開發(fā)團(tuán)隊(duì)的一個(gè)主要目標(biāo)是阻止陌生人使用出現(xiàn)用戶人臉的圖像（見下圖的示例），或者向視障用戶告知圖像或視頻中出現(xiàn)的人物。

Facebook 人臉識(shí)別。（圖源：https://cdn0.tnwcdn.com/wp-content/blogs.dir/1/files/2017/12/Facebook-Tagging-796x428.jpg）

除了那些令人擔(dān)憂的部分以外，這項(xiàng)技術(shù)在很多場(chǎng)景中是有益的，比如對(duì)抗網(wǎng)絡(luò)騷擾。

Amazon Go

厭倦了超市和雜貨店的排隊(duì)等待？Amazon Go 商店提供別樣的體驗(yàn)。在計(jì)算機(jī)視覺的幫助下，這里不用排隊(duì)，也沒有包裝箱。

其思路很簡(jiǎn)單：顧客進(jìn)入商店，選擇所需商品，離開商店，不用排隊(duì)結(jié)賬。

這是如何實(shí)現(xiàn)的呢？多虧了 Amazon 的「Just Walk Out」技術(shù)。顧客必須下載一個(gè)移動(dòng) app，該 app 可以幫助 Amazon 識(shí)別他們的身份。當(dāng)他們想進(jìn)入 Amazon Go 商店時(shí)，該 app 提供一個(gè)二維碼。商店入口處有一些閘機(jī)供顧客出入商店，顧客進(jìn)入商店時(shí)，閘機(jī)讀取顧客的二維碼。一個(gè)有趣的功能是，其他人可以陪伴該顧客一起進(jìn)入商店，且陪伴者無需安裝該應(yīng)用程序。

顧客可以在商店內(nèi)自由移動(dòng)，而這也是計(jì)算機(jī)視覺發(fā)揮作用之處。商店內(nèi)安裝有一系列傳感器，包括攝像頭、運(yùn)動(dòng)傳感器和商品上的重量傳感器。這些設(shè)備收集了每個(gè)人的行為信息。它們實(shí)時(shí)檢測(cè)顧客從貨架上拿取的貨品。顧客可以取下某個(gè)貨品，改變主意的話再放回去。系統(tǒng)最終會(huì)向第一個(gè)拿起它的顧客收費(fèi)，即使它被遞給另一位想要購買的顧客，第一位拿起它的顧客仍然需要支付費(fèi)用。于是系統(tǒng)創(chuàng)建了一個(gè)包含所有拿起貨品的虛擬購物車，并進(jìn)行實(shí)時(shí)維護(hù)。這使得顧客的購物流程非常順利。

當(dāng)顧客完成購物，即可走出商店。當(dāng)他們經(jīng)過閘機(jī)時(shí)，系統(tǒng)不會(huì)讓顧客掃描貨品或二維碼，而是記錄交易額并向顧客發(fā)送確認(rèn)通知。

Amazon Go 是計(jì)算機(jī)視覺對(duì)現(xiàn)實(shí)世界和人類日常生活產(chǎn)生積極影響的一個(gè)案例。

特斯拉 Autopilot

讓汽車自動(dòng)行駛不只是一個(gè)遙遠(yuǎn)的夢(mèng)。特斯拉 Autopilot 技術(shù)提供非常方便的自動(dòng)駕駛功能。這并不是全自動(dòng)駕駛系統(tǒng)，而是可在特定路段上駕駛汽車的駕駛助手。這是特斯拉強(qiáng)調(diào)的重點(diǎn)：在所有情況下，控制汽車都是駕駛員的責(zé)任。

自動(dòng)駕駛通過目標(biāo)檢測(cè)和追蹤技術(shù)實(shí)現(xiàn)。

要想使 Autopilot 工作，特斯拉汽車必須「高度武裝」：八個(gè)全景攝像頭提供 250 米范圍內(nèi)的 360 度圖像、超聲波傳感器用于檢測(cè)對(duì)象、雷達(dá)用來處理周圍環(huán)境信息。這樣，特斯拉汽車才能夠根據(jù)交通條件調(diào)整行駛速度，在遇到障礙物時(shí)及時(shí)剎車，保持或變換車道，拐彎以及流暢地停車。

特斯拉 Autopilot 技術(shù)是計(jì)算機(jī)視覺對(duì)人類日常活動(dòng)帶來積極影響的另一個(gè)精彩案例。

微軟 InnerEye

在醫(yī)療行業(yè)中，微軟的 InnerEye 是幫助放射科醫(yī)生、腫瘤專家和外科醫(yī)生處理放射圖像的寶貴工具。其主要目的是從惡性腫瘤的 3D 圖像中準(zhǔn)確識(shí)別出腫瘤。

癌性腫瘤的 3D 圖像。

基于計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)，InnerEye 輸出非常詳細(xì)的腫瘤 3D 建模圖像。以上截圖展示了 InnerEye 創(chuàng)建的對(duì)腦部腫瘤的完整 3D 分割。從上述視頻中，你可以看到專家控制 InnerEye 工具，指引它執(zhí)行任務(wù)，InnerEye 像助手一樣運(yùn)行。

在放射療法中，InnerEye 結(jié)果使得不傷害重要器官直接針對(duì)目標(biāo)腫瘤進(jìn)行放射成為可能。

這些結(jié)果還幫助放射科醫(yī)生更好地理解圖像序列，基于腫瘤大小的變化，判斷疾病是否有進(jìn)一步發(fā)展、穩(wěn)定，或者對(duì)治療反應(yīng)良好。這樣，醫(yī)療圖像就成為一種重要的追蹤和衡量方式。

最后，InnerEye 可用于規(guī)劃精準(zhǔn)手術(shù)。

計(jì)算機(jī)視覺在小公司的應(yīng)用現(xiàn)狀

計(jì)算機(jī)視覺在大公司的實(shí)現(xiàn)常被大家談?wù)?，但這不意味著所有公司必須是谷歌或亞馬遜那種量級(jí)才能從該機(jī)器學(xué)習(xí)技術(shù)中受益。任何規(guī)模的公司都可以利用數(shù)據(jù)和計(jì)算機(jī)視覺技術(shù)變得更加高效，制定更好的決策。

我們來看一些小公司的現(xiàn)實(shí)案例：

Tryolabs 曾幫助一家位于舊金山的小型風(fēng)險(xiǎn)管理公司構(gòu)建和實(shí)現(xiàn)了一個(gè)計(jì)算機(jī)視覺系統(tǒng)，用于擴(kuò)展對(duì)屋頂檢查圖像的處理。

在使用計(jì)算機(jī)視覺技術(shù)之前，公司專家人工分析無人機(jī)拍攝的照片，檢測(cè)屋頂建設(shè)中的損傷。盡管分析結(jié)果很準(zhǔn)確，但由于服務(wù)耗時(shí)且人力資源有限，該服務(wù)無法得到有效擴(kuò)展。

為了解決這個(gè)問題，我們構(gòu)建了一個(gè)能夠理解圖像并自動(dòng)識(shí)別屋頂問題（如積水、電纜松散和鐵銹）的深度學(xué)習(xí)系統(tǒng)。為此，我們開發(fā)了一個(gè)能夠基于屋頂圖像檢測(cè)問題的深度神經(jīng)網(wǎng)絡(luò)、分析輸入圖像的流程，以及使檢測(cè)結(jié)果可用于外部工具的 API。

因此，這家公司的訂單量和收益都有所增長(zhǎng)。

如何實(shí)現(xiàn)計(jì)算機(jī)視覺項(xiàng)目

和在組織內(nèi)值得進(jìn)行的所有創(chuàng)新一樣，你應(yīng)該選擇一種有策略的方式來實(shí)現(xiàn)計(jì)算機(jī)視覺項(xiàng)目。

利用計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)成功創(chuàng)新取決于整體業(yè)務(wù)策略、資源和數(shù)據(jù)。

以下問題可以幫助你為計(jì)算機(jī)視覺項(xiàng)目構(gòu)建戰(zhàn)略路線圖。

1、計(jì)算機(jī)視覺解決方案應(yīng)該降低成本還是增加收益？

成功的計(jì)算機(jī)視覺項(xiàng)目要么降低成本要么提高收益（或者二者兼顧），你應(yīng)該定義該項(xiàng)目的目標(biāo)。只有這樣，它才能對(duì)組織及其發(fā)展產(chǎn)生重要影響。

2、如何衡量項(xiàng)目的成功？

每個(gè)計(jì)算機(jī)視覺項(xiàng)目都是不同的，你需要定義一個(gè)特定于該項(xiàng)目的成功指標(biāo)。設(shè)置好指標(biāo)后，你應(yīng)該確保它被業(yè)務(wù)人員和數(shù)據(jù)科學(xué)家等認(rèn)可。

3、能否保證信息的獲?。?/p>

開啟計(jì)算機(jī)視覺項(xiàng)目時(shí)，數(shù)據(jù)科學(xué)家應(yīng)該能夠輕松訪問數(shù)據(jù)。他們需要和來自不同部門（如 IT 部門）的重要同事合作。這些同事應(yīng)以其業(yè)務(wù)知識(shí)提供支持，內(nèi)部官僚主義則會(huì)成為主要約束。

4、組織收集的數(shù)據(jù)是否合適？

計(jì)算機(jī)視覺算法并非魔法。它們需要數(shù)據(jù)才能運(yùn)作，輸入數(shù)據(jù)的質(zhì)量決定其性能。有多種不同方法和來源可供收集合適數(shù)據(jù)，這取決于你的目標(biāo)。無論如何，擁有的輸入數(shù)據(jù)越多，計(jì)算機(jī)視覺模型性能優(yōu)秀的可能性越大。如果你對(duì)數(shù)據(jù)的量和質(zhì)存在疑慮，你可以請(qǐng)數(shù)據(jù)科學(xué)家?guī)兔υu(píng)估數(shù)據(jù)集質(zhì)量，必要情況下，找到獲取第三方數(shù)據(jù)的最優(yōu)方式。

5. 組織是否以恰當(dāng)格式收集數(shù)據(jù)？

除了擁有合適量和類型的數(shù)據(jù)以外，你還需要確保數(shù)據(jù)的格式。假設(shè)你使用數(shù)千張完美的手機(jī)照片（分辨率高，背景為白色）訓(xùn)練目標(biāo)檢測(cè)算法。然后發(fā)現(xiàn)算法無法運(yùn)行，因?yàn)閷?shí)際用例是在不同光照/對(duì)比度/背景條件下檢測(cè)持有手機(jī)的人，而不是檢測(cè)手機(jī)本身。這樣你之前的數(shù)據(jù)收集努力基本上就作廢了，你還需要重頭再來。此外，你應(yīng)該了解，如果數(shù)據(jù)存在偏見，算法會(huì)學(xué)到該偏見。

關(guān)于如何開啟成功的計(jì)算機(jī)視覺項(xiàng)目，參見博客：https://tryolabs.com/blog/2019/02/13/11-questions-to-ask-before-starting-a-successful-machine-learning-project/。

希望本文能夠幫助讀者了解計(jì)算機(jī)視覺概念、運(yùn)作原理以及現(xiàn)實(shí)應(yīng)用。

原文鏈接：

https://tryolabs.com/resources/introductory-guide-computer-vision/

責(zé)任編輯：xj

原文標(biāo)題：計(jì)算機(jī)視覺基礎(chǔ)概念、運(yùn)行原理和應(yīng)用案例詳解

文章出處：【微信公眾號(hào)：新機(jī)器視覺】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器視覺

機(jī)器視覺

+關(guān)注

關(guān)注
166

文章
4831

瀏覽量
126537
計(jì)算機(jī)視覺

計(jì)算機(jī)視覺

+關(guān)注

關(guān)注
9

文章
1716

瀏覽量
47731

原文標(biāo)題：計(jì)算機(jī)視覺基礎(chǔ)概念、運(yùn)行原理和應(yīng)用案例詳解

文章出處：【微信號(hào)：vision263com，微信公眾號(hào)：新機(jī)器視覺】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

計(jì)算機(jī)視覺入門指南

評(píng)論