在圖像和物體識(shí)別方面,計(jì)算機(jī)表現(xiàn)優(yōu)于人類(lèi)。
像Google和Microsoft這樣的大公司在圖像識(shí)別方面已經(jīng)超越了人類(lèi)基準(zhǔn)[1,2]。平均而言,人類(lèi)大約有5%的時(shí)間在圖像識(shí)別任務(wù)上犯了錯(cuò)誤。截至2015年,微軟的圖像識(shí)別軟件的錯(cuò)誤率達(dá)到4.94%,與此同時(shí),谷歌宣布其軟件的錯(cuò)誤率降低到4.8%[3]
這是怎么做到的?
這可以通過(guò)在包含數(shù)百個(gè)對(duì)象類(lèi)別、數(shù)百萬(wàn)個(gè)訓(xùn)練樣本的ImageNet數(shù)據(jù)集上訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)[1]。
百萬(wàn)訓(xùn)練數(shù)據(jù)!
例如,要教計(jì)算機(jī)從多個(gè)角度識(shí)別出一只貓貓,可能需要成千上萬(wàn)張涵蓋不同角度的照片。
成功訓(xùn)練計(jì)算機(jī)視覺(jué)任務(wù)的深層卷積神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)。這是因?yàn)檫@些神經(jīng)網(wǎng)絡(luò)具有多個(gè)隱藏的處理層,并且隨著層數(shù)的增加,需要學(xué)習(xí)的樣本數(shù)也隨之增加。如果沒(méi)有足夠的訓(xùn)練數(shù)據(jù),則該模型往往會(huì)很好地學(xué)習(xí)訓(xùn)練數(shù)據(jù),這稱(chēng)為過(guò)度擬合。如果模型過(guò)擬合,則其泛化能力很差,因此對(duì)未見(jiàn)的數(shù)據(jù)的表現(xiàn)很差。
但是,如果沒(méi)有大量的訓(xùn)練數(shù)據(jù)怎么辦?
對(duì)于我們手頭的所有圖像識(shí)別任務(wù),并不是都會(huì)擁有數(shù)百萬(wàn)個(gè)訓(xùn)練樣本。對(duì)于某些任務(wù),收集成千上萬(wàn)個(gè)樣本圖像甚至是一個(gè)挑戰(zhàn)。對(duì)于醫(yī)學(xué)圖像而言通常是這種情況,例如用于乳房癌檢測(cè)和定位的乳房X線(xiàn)照相術(shù),用于肺癌檢測(cè)的胸部X射線(xiàn)或用于定位腦腫瘤的MRI掃描。
這可以歸結(jié)為一個(gè)問(wèn)題:當(dāng)我們只有有限的數(shù)據(jù)時(shí),我們?nèi)绾斡?xùn)練能夠很好地完成這些任務(wù)的模型?
使用數(shù)據(jù)增強(qiáng)(data augmentation)生成更多訓(xùn)練數(shù)據(jù)
當(dāng)我們只有少量圖像數(shù)據(jù)用于訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)時(shí),我們可以使用數(shù)據(jù)增強(qiáng)技術(shù)從已經(jīng)擁有的圖像數(shù)據(jù)中生成更多訓(xùn)練數(shù)據(jù)。
數(shù)據(jù)增強(qiáng)是一種為原始圖像生成多個(gè)圖像的技術(shù)。有幾種不同的數(shù)據(jù)增強(qiáng)技術(shù),Mikolajczyk和Grochowski在他們的論文中[4]將這些技術(shù)分為兩個(gè)子類(lèi)別:使用基本圖像處理的數(shù)據(jù)增強(qiáng)和使用深度學(xué)習(xí)方法的數(shù)據(jù)增強(qiáng)。
幾何變換
諸如翻轉(zhuǎn)(Flip),裁剪(Crop),旋轉(zhuǎn)(Rotation)和移位(Translation)之類(lèi)的幾何變換是一些常用的數(shù)據(jù)增強(qiáng)技術(shù)。我們將在本文中簡(jiǎn)要討論它們。
翻轉(zhuǎn)
翻轉(zhuǎn)是取任意給定圖像的鏡像。它是最簡(jiǎn)單的增強(qiáng)技術(shù)之一。圖像可以水平或垂直翻轉(zhuǎn)。但是,水平翻轉(zhuǎn)在這兩者之間更為常見(jiàn)。
裁剪
裁剪是一種數(shù)據(jù)增強(qiáng)技術(shù),用于通過(guò)裁剪邊界像素來(lái)減小原始圖像的大小。裁剪時(shí)不會(huì)保留空間尺寸。在這種類(lèi)型的數(shù)據(jù)增強(qiáng)中,不能保證轉(zhuǎn)換后的圖像與原始圖像屬于相同的輸出標(biāo)簽。
在上面的圖像中,通過(guò)從左右方向裁剪像素,從原始圖像生成了四個(gè)圖像。裁剪圖像的尺寸從256x256減小到227x277。
旋轉(zhuǎn)
圖像可以在軸上向左或向右旋轉(zhuǎn)1到359度。1到20度之間的旋轉(zhuǎn)稱(chēng)為輕微旋轉(zhuǎn),并且是用于增強(qiáng)原始圖像的有用技術(shù)。隨著旋轉(zhuǎn)度的增加,轉(zhuǎn)換后的數(shù)據(jù)可能無(wú)法保留其原始標(biāo)簽。
移位
翻譯是一種將圖像向左,向右,向上或向下平移的技術(shù)。這是一種非常有用的轉(zhuǎn)換技術(shù),可以避免數(shù)據(jù)中的位置偏差。移位圖像時(shí),剩余空間將被填充為0,255或被隨機(jī)噪聲填充,從而保留了圖像的原始大小。
基于GAN的數(shù)據(jù)增強(qiáng)
生成對(duì)抗網(wǎng)絡(luò)(GAN)也稱(chēng)為GAN,是一種生成建模技術(shù),其中可以從數(shù)據(jù)集中創(chuàng)建人工實(shí)例,從而保留原始集的相似特征[9]。
GAN由兩個(gè)相互競(jìng)爭(zhēng)的人工神經(jīng)網(wǎng)絡(luò)(ANN)組成,即生成器 generator 與判別器 discriminator。生成器創(chuàng)建新的數(shù)據(jù)實(shí)例,而判別器則評(píng)估它們的真實(shí)性[10]。
這是由GAN生成的人臉圖像,這是在人臉上訓(xùn)練出來(lái)的。請(qǐng)注意,這些是合成的面孔,而不是真實(shí)的人。
這些是一些數(shù)據(jù)增強(qiáng)技術(shù),通常用于從有限的數(shù)據(jù)集中生成更多數(shù)據(jù),從而可以訓(xùn)練出更有效的卷積神經(jīng)網(wǎng)絡(luò)。
Olaf和他的團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)有限的情況下,利用在圖像上的平移、旋轉(zhuǎn)和隨機(jī)彈性變換等數(shù)據(jù)增強(qiáng)技術(shù)訓(xùn)練U-net體系結(jié)構(gòu)模型,并在2015年ISBI細(xì)胞追蹤挑戰(zhàn)中以較大優(yōu)勢(shì)獲得這些類(lèi)別的冠軍。
因此,下次在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí),請(qǐng)使用這些技術(shù)來(lái)創(chuàng)建更多數(shù)據(jù)。
你平時(shí)使用了哪些數(shù)據(jù)增強(qiáng)技術(shù)?在下面評(píng)論分享的想法。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7841瀏覽量
93495 -
圖像識(shí)別
+關(guān)注
關(guān)注
9文章
535瀏覽量
40198
發(fā)布評(píng)論請(qǐng)先 登錄
數(shù)據(jù)傳輸拖慢訓(xùn)練?三維一體調(diào)度讓AI任務(wù)提速40%
芯盾時(shí)代揭秘訓(xùn)練數(shù)據(jù)投毒攻擊
自動(dòng)駕駛大模型的訓(xùn)練數(shù)據(jù)有什么具體要求?
labview如何實(shí)現(xiàn)數(shù)據(jù)的采集與實(shí)時(shí)預(yù)測(cè)
NVIDIA發(fā)布Isaac GR00T-Dreams合成數(shù)據(jù)生成與神經(jīng)仿真框架
在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)
NVIDIA助力湯元科技突破智能駕駛數(shù)據(jù)獲取與生成瓶頸
【Sipeed MaixCAM Pro開(kāi)發(fā)板試用體驗(yàn)】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)
基于大規(guī)模人類(lèi)操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT
利用NVIDIA Cosmos模型訓(xùn)練通用機(jī)器人
沒(méi)有大量訓(xùn)練數(shù)據(jù)時(shí)怎么生成更多的數(shù)據(jù)
評(píng)論