編者按:本文作者Pete Warden是Jetpac公司的CTO,主要研究領(lǐng)域是數(shù)據(jù)科學(xué)和機器學(xué)習(xí)。在本文中,他結(jié)合自己的工作經(jīng)歷,發(fā)現(xiàn)了在圖像分類中的一個常見問題,即模型的不實用性。針對該問題他提出了自己的想法。以下是論智對原文的編譯。
幾天前,曾經(jīng)和我合作過的Plant Village團隊在開發(fā)一款移動APP時發(fā)現(xiàn),這款圖像識別器可以檢測植物病害,如下圖所示,性能不錯。
但是當(dāng)攝像頭指向電腦鍵盤時,這款A(yù)PP仍然認為它是被損壞的糧食。
對計算機視覺研究者來說,這種結(jié)果并不罕見,但是對大多數(shù)人來說還是有些出乎意料的。所以本文將研究這種情況為什么會發(fā)生,以及我們應(yīng)該如何應(yīng)對。
人類可以準(zhǔn)確分辨身邊的任何物體,所以我們自然就希望機器能擁有同樣的能力。但是大多數(shù)模型都只在非常有限的目標(biāo)物體上進行了訓(xùn)練,例如原始ImageNet競賽中只涵蓋了1000種物品類別。重要的是,訓(xùn)練過程中假設(shè)模型所看到的每個樣本都是目標(biāo)物體之一,而預(yù)測結(jié)果必須是已有種類中的一種。模型不能回答:“我不知道”,并且也沒有這樣的訓(xùn)練數(shù)據(jù)讓它學(xué)會這種回答。事實上這是符合研究設(shè)置的,但是一旦應(yīng)用到現(xiàn)實中就會出現(xiàn)問題。
當(dāng)我在Jetpac工作時,想要說服客戶我們的產(chǎn)品——AlexNet是一項創(chuàng)新型產(chǎn)品都非常困難,因為每次我們把Demo給客戶看的時候,他們都會對著自己的臉,模型就會判斷這是“氧氣罩”或者“安全帶”這種奇怪的東西。這是因為在ImageNet競賽類別中沒有關(guān)于人臉的標(biāo)簽,但是大多數(shù)關(guān)于面罩或安全帶的標(biāo)簽都含有人臉。甚至當(dāng)我們將手機對著盤子時,APP會將其認成“馬桶圈”,也是非常尷尬了。這是因為在原本的類別中沒有“盤子”,與圖片最相近的就是馬桶。
所以我不禁想到了“開放的世界”和“封閉的世界”的問題。模型在訓(xùn)練和評估的時候通常都是假設(shè)面對的物體屬于有限的類別中,但是當(dāng)它們走出實驗室,這種假設(shè)就不成立了,用戶們會根據(jù)隨機物體對它們的性能表現(xiàn)進行評價,不管該物體是不是訓(xùn)練集中的。
所以這一問題應(yīng)該如何解決呢?
不幸的是,目前還沒有一種簡單完美的解決方法,但是可以通過其他方案對這一問題稍稍改進。最直接的方法就是在訓(xùn)練數(shù)據(jù)中加入“未知”一類,或者直接對具體物體開設(shè)新的分類。具體來說應(yīng)該考慮以下幾個問題:
類別中應(yīng)該包含怎樣的樣本?現(xiàn)實世界中有無數(shù)符合含有目標(biāo)物體的圖片,你應(yīng)該如何選擇?
在“未知”類別中還需要設(shè)立多少不同的物體種類?
當(dāng)“未知物品”和已有類別很像時,應(yīng)該怎么做?例如你想在ImageNet的1000個類別中加入一個狗狗的種類,但是它看起來和未知種類的狗狗很像。
未知種類中,各類樣本的訓(xùn)練數(shù)據(jù)比例應(yīng)該如何分配?
最后一點確實是個更重要的問題,從圖像分類網(wǎng)絡(luò)中得到的預(yù)測值并不是概率,它們假設(shè)看到任意特殊類別物體的概率和訓(xùn)練數(shù)據(jù)中的類別相同。如果你將一種含有企鵝的動物分類器用在亞馬遜雨林中,你也會遇到同樣的問題。即使分類器有美國城市中常見的狗狗種類,稀有品種在ImageNet訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)也會比在狗狗公園中出現(xiàn)的頻率高。通常的解決方法是弄清楚你將在檢測過程中遇到的具體先驗概率是什么,然后用它們將校準(zhǔn)值應(yīng)用于網(wǎng)絡(luò)輸出,以獲得更接近真實概率的東西。
解決實際應(yīng)用中此類問題的主要思想就是限制模型的使用場景,這樣對目標(biāo)物體的預(yù)測假設(shè)就會匹配訓(xùn)練數(shù)據(jù)。一種直接的方法是進行產(chǎn)品設(shè)計,你可以在用戶界面設(shè)計一個引導(dǎo)人們將設(shè)備對準(zhǔn)目標(biāo)物體后,再開啟運行分類器。
再復(fù)雜一點的話,你可以設(shè)計一個單獨的圖像分類器,試著確定主要圖像分類器沒有關(guān)注的條件。這和創(chuàng)建一個單獨的“未知”分類不同,因為它的作用主要類似于一個在詳細模型之前的過濾器。在開頭的植物病害問題上,操作環(huán)境非常明顯,可以很輕易地訓(xùn)練模型辨別枝葉和其他照片。這和門控模型能判斷出圖像是否在不支持場景中拍攝非常相似。這個門控模型會在完整的圖像分類器之前運行,如果它沒有檢測到看起來像植物的東西,就會做出錯誤消息的提示,表明沒有找到植物。
那些讓你拍攝信用卡或者進行光學(xué)字符識別的應(yīng)用經(jīng)常會將屏幕上方向指引和檢測是否有模糊或偏移的模型結(jié)合起來,引導(dǎo)用戶拍攝能成功識別的照片,有時會在交互頁面上添加簡單的問題,例如“這里有樹葉嗎”。
也許這篇文章不能提供一個令人滿意的答案,但是這也反映了,機器學(xué)習(xí)一旦走出了研究問題的限制,就很容易達不到用戶所期望的效果。人們對一個目標(biāo)物體往往存在很多常識性理解和外界知識,而我們在傳統(tǒng)分類任務(wù)中并不能將這些因素考慮在內(nèi)。為了達到用戶希望看到的效果,我們必須設(shè)計一款能讓模型全面地了解世界的系統(tǒng),并基于該系統(tǒng)做出正確的決策,而不僅僅是輸出一個結(jié)果。
-
分類器
+關(guān)注
關(guān)注
0文章
153瀏覽量
13846 -
圖像分類
+關(guān)注
關(guān)注
0文章
97瀏覽量
12538 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
67文章
8567瀏覽量
137266
原文標(biāo)題:當(dāng)圖像分類器走出實驗室,碰到未知物體怎么辦?
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
機器學(xué)習(xí)應(yīng)用中的常見問題分類問題你了解多少
電氣二次常見問題有哪些_40個電氣二次常見問題盤點
labview有哪些常見問題?labview三個常見問題和解決方法概述
伺服線束生產(chǎn)加工過程中的常見問題
PCB設(shè)計中的常見問題有哪些?
圖像分類中的一個常見問題
評論