美女少妇天堂免费视频,青青青青青艹

導(dǎo)讀

本文從五個需要進(jìn)行標(biāo)注的計算機(jī)視覺任務(wù)（物體檢測、線/邊緣檢測、分割、姿態(tài)預(yù)測、圖像分類）給大家介紹圖像標(biāo)注的種類，應(yīng)用場景，以及各種標(biāo)注的優(yōu)缺點。

介紹

“如果沒有數(shù)據(jù)分析，公司就會變得既盲又聾，就像高速公路上的鹿一樣在網(wǎng)絡(luò)上游蕩?！?/p>

— Geoffrey Moore

每個數(shù)據(jù)科學(xué)任務(wù)都需要數(shù)據(jù)。具體地說，是輸入系統(tǒng)的干凈易懂的數(shù)據(jù)。說到圖像，計算機(jī)需要看到人類眼睛看到的東西。

例如，人類有識別和分類物體的能力。同樣，我們可以使用計算機(jī)視覺來解釋它接收到的視覺數(shù)據(jù)。這就是圖像標(biāo)注的作用。

圖像標(biāo)注在計算機(jī)視覺中起著至關(guān)重要的作用。圖像標(biāo)注的目標(biāo)是為和任務(wù)相關(guān)的、特定于任務(wù)的標(biāo)簽。這可能包括基于文本的標(biāo)簽(類)，繪制在圖像上的標(biāo)簽(即邊框)，甚至是像素級的標(biāo)簽。我們將在下面探討這一系列不同的標(biāo)注技術(shù)。

人工智能需要的人工干預(yù)比我們想象的要多。為了準(zhǔn)備高精度的訓(xùn)練數(shù)據(jù)，我們必須對圖像進(jìn)行標(biāo)注以得到正確的結(jié)果。數(shù)據(jù)注釋通常需要較高水平的領(lǐng)域知識，只有來自特定領(lǐng)域的專家才能提供這些知識。

需要標(biāo)注的計算機(jī)視覺任務(wù)：

物體檢測

線/邊緣檢測

分割

姿態(tài)預(yù)測/關(guān)鍵點識別

圖像分類

1) 目標(biāo)檢測

進(jìn)行目標(biāo)檢測的技術(shù)主要有兩種，即2D和3D包圍框。

對于多邊形物體，可以使用多邊形方法。讓我們詳細(xì)討論一下。

2D 包圍框

在這種方法中，只需要在被檢測的物體周圍繪制矩形框。它們用于定義對象在圖像中的位置。邊框可以由矩形左上角的x、y軸坐標(biāo)和右下角的x、y軸坐標(biāo)來確定。

優(yōu)點和缺點：

標(biāo)注起來快速和容易。

不能提供重要的信息，如物體的方向，這對許多應(yīng)用來說是至關(guān)重要的。

包括不屬于物體一部分的背景像素。這可能會影響訓(xùn)練。

3D 包圍框或者立方體

類似于2D邊框，除了它們還可以顯示目標(biāo)的深度。這種標(biāo)注是通過將二維圖像平面上的邊界框向后投影到三維長方體來實現(xiàn)的。它允許系統(tǒng)區(qū)分三維空間中的體積和位置等特征。

優(yōu)點和缺點:

解決了物體方向的問題。

當(dāng)物體被遮擋，這種標(biāo)注可以想象包圍框的維度，這可能會影響訓(xùn)練。

這種標(biāo)注也會包括背景像素，可能會影響訓(xùn)練。

多邊形

有時，必須標(biāo)記形狀不規(guī)則的物體。在這種情況下，使用多邊形。注釋時只需標(biāo)記物體的邊緣，我們就能得到要檢測的物體的完美輪廓。

優(yōu)點和缺點:

多邊形標(biāo)記的主要優(yōu)點是它消除了背景像素，并捕獲了物體的精確尺寸。

非常耗時，如果物體的形狀是復(fù)雜的，很難標(biāo)注。

注：多邊形方法也用于物體形狀的分割。我們將在下面討論分割。

數(shù)據(jù)采集是ML冷啟動的問題。但是，即使你有了一個可行的數(shù)據(jù)集，構(gòu)建和測試模型也是需要技巧的。

2) 線/邊緣檢測（線和樣條）

在劃分邊界時，線和樣條是有用的。將區(qū)分一個區(qū)域和另一個區(qū)域的像素進(jìn)行標(biāo)注。

優(yōu)點和缺點:

這種方法的優(yōu)點是，連線上的像素不需要都是連續(xù)的。這樣在檢測有中斷的線或部分遮擋的物體是非常有用的。

手動標(biāo)注圖像中的線是非常累人和費時的，特別是圖像中有很多的線的時候。

當(dāng)物體碰巧是對齊的時候，可能會給出誤導(dǎo)的結(jié)果。

3) 姿態(tài)預(yù)測 / 關(guān)鍵點識別

在許多計算機(jī)視覺應(yīng)用中，神經(jīng)網(wǎng)絡(luò)常常需要識別輸入圖像中重要的感興趣的點。我們把這些點稱為地標(biāo)或關(guān)鍵點。在這種應(yīng)用中，我們希望神經(jīng)網(wǎng)絡(luò)輸出關(guān)鍵點的坐標(biāo)(x, y)。

4) 分割

圖像分割是將一幅圖像分割為多個部分的過程。圖像分割通常用于在像素級定位圖像中的物體和邊界。圖像分割方法有很多種。

語義分割: 語義分割是一項機(jī)器學(xué)習(xí)任務(wù)，它需要像素級標(biāo)注，其中圖像中的每個像素都被分配給一個類。每個像素都帶有語義意義。這主要用于環(huán)境背景非常重要的情況。

實例分割: 實例分割是圖像分割的一種子類型，它在像素級別上標(biāo)識圖像中每個物體的每個實例。實例分割和語義分割是圖像分割的兩種粒度級別之一。

全景分割: 全景分割結(jié)合了語義分割和實例分割，所有像素都被分配一個類標(biāo)簽，所有目標(biāo)實例都被唯一地分割。

5) 圖像分類

圖像分類不同于目標(biāo)檢測。目標(biāo)檢測的目的是識別和定位目標(biāo)，而圖像分類的目的是識別和識別特定的目標(biāo)類。這個用例的一個常見示例是對貓和狗的圖片進(jìn)行分類。標(biāo)注者必須為一只狗的圖像分配一個類標(biāo)簽“dog”，對貓的圖像分配類標(biāo)簽“cat”。

圖像標(biāo)注的用例

在本節(jié)中，我們將討論如何使用圖像標(biāo)注來幫助機(jī)器模型執(zhí)行特定行業(yè)的任務(wù)：

零售:2D邊框可以用于標(biāo)注產(chǎn)品的圖像，然后機(jī)器學(xué)習(xí)算法可以使用這些圖像來預(yù)測成本和其他屬性。圖像分類在這方面也有幫助。

醫(yī)學(xué)：多邊形可用于在醫(yī)用x射線中標(biāo)記器官，以便將它們輸入深度學(xué)習(xí)模型，以訓(xùn)練x射線中的畸形或缺陷。這是圖像標(biāo)注最重要的應(yīng)用之一，需要醫(yī)學(xué)專家具有較高的領(lǐng)域知識。

自動駕駛汽車：這是另一個重要的領(lǐng)域，圖像標(biāo)注可以應(yīng)用。利用語義分割對圖像中的每個像素進(jìn)行標(biāo)記，使車輛能夠感知到道路上的障礙物。這一領(lǐng)域的研究仍在進(jìn)行中。

情緒檢測：這是里程碑，可以用來檢測一個人的情緒(高興，悲傷，或自然)。這可以應(yīng)用于評估受試者對特定內(nèi)容的情緒反應(yīng)。

制造行業(yè)：線和樣條可用于標(biāo)注工廠的圖像線跟隨機(jī)器人工作。這可以幫助自動化生產(chǎn)過程，人力勞動可以最小化。

圖像標(biāo)注的一些挑戰(zhàn)

時間復(fù)雜度：手工標(biāo)注圖像需要很多時間，機(jī)器學(xué)習(xí)需要大量的數(shù)據(jù)集，需要大量的時間來有效地標(biāo)注這些基于圖像的數(shù)據(jù)集。

計算復(fù)雜度：機(jī)器學(xué)習(xí)需要精確標(biāo)注的數(shù)據(jù)來運行模型。如果標(biāo)注者在給圖像做標(biāo)注的時候，注入任何一種錯誤，都可能會影響到訓(xùn)練，所有的努力都可能付諸東流。

領(lǐng)域知識：如前所述，圖像標(biāo)注通常需要特定領(lǐng)域的高級領(lǐng)域知識。因此，我們需要知道該標(biāo)注什么的注解者，以及該領(lǐng)域的專家。

責(zé)任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴