即將在6月美國鹽湖城舉行的計(jì)算機(jī)視覺頂級(jí)會(huì)議CVPR 2018,騰訊優(yōu)圖的其中兩篇入選論文,由于其較高的應(yīng)用價(jià)值,受到學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注。
作為計(jì)算機(jī)視覺領(lǐng)域最高級(jí)別的會(huì)議之一的CVPR,其論文集通常代表著計(jì)算機(jī)視覺領(lǐng)域最新的發(fā)展方向和水平。
騰訊優(yōu)圖多篇論文被CVPR2018收錄,其中基于尺度迭代深度神經(jīng)網(wǎng)絡(luò)的圖像去模糊算法(“Scale-recurrentNetwork for Deep Image Deblurring”),介紹了AI技術(shù)在處理非特定場(chǎng)景圖片去模糊中的應(yīng)用,和通過Facelet-Bank進(jìn)行快速肖像處理(Facelet-BankforFastPortraitManipulation),介紹了用AI技術(shù)快速處理肖像的應(yīng)用,這兩項(xiàng)技術(shù),解決了長期困擾圖片處理中的一些難題,因?yàn)闃O大的應(yīng)用價(jià)值而受到產(chǎn)業(yè)界和關(guān)注。
解密運(yùn)動(dòng)模糊:走向?qū)嵱玫姆翘囟▓?chǎng)景圖片去模糊技術(shù)
在慢速曝光或快速運(yùn)動(dòng)拍攝照片時(shí),圖像模糊常常困擾著照片拍攝者。優(yōu)圖實(shí)驗(yàn)室的研究人員開發(fā)了可以恢復(fù)模糊圖像的有效新算法。
在此之前,圖像去模糊一直是圖像處理中困擾業(yè)界的難題。 圖像模糊產(chǎn)生的原因可能非常復(fù)雜。比如,相機(jī)晃動(dòng),失焦,拍攝物體高速運(yùn)動(dòng)等等?,F(xiàn)有的圖片編輯軟件中的工具通常不盡如人意,例如,Photoshop CC中的“相機(jī)抖動(dòng)還原”工具,只能處理簡單的相機(jī)平移抖動(dòng)模糊。 這種類型的模糊在計(jì)算機(jī)視覺業(yè)內(nèi)被稱為“均勻模糊”。而大部分模糊圖片并不是“均勻模糊”的,因而現(xiàn)有圖片編輯軟件的應(yīng)用十分有限。
模糊的照片
去模糊后的照片
騰訊優(yōu)圖實(shí)驗(yàn)室的新算法,可以處理非特定場(chǎng)景中的圖片模糊。算法基于一種被稱為“動(dòng)態(tài)模糊”的模糊模型假設(shè)。它為每個(gè)像素的運(yùn)動(dòng)單獨(dú)建模,因而可以處理幾乎所有類型的運(yùn)動(dòng)模糊。比如,上圖中,由于相機(jī)抖動(dòng)而產(chǎn)生的平移和旋轉(zhuǎn),每個(gè)人物的運(yùn)動(dòng)軌跡都不相同。經(jīng)過騰訊優(yōu)圖實(shí)驗(yàn)室的新算法處理后,圖片已經(jīng)恢復(fù)到幾乎完全清晰,甚至背景中的書籍上的字也清晰可辨。
據(jù)騰訊優(yōu)圖實(shí)驗(yàn)室的研究員介紹,騰訊優(yōu)圖采用的方法采用的基本技術(shù)是深度神經(jīng)網(wǎng)絡(luò)。在經(jīng)歷了對(duì)數(shù)千對(duì)模糊/清晰的圖像組的處理訓(xùn)練后,強(qiáng)大的神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)了如何將模糊的圖像結(jié)構(gòu)清晰化。
盡管使用神經(jīng)網(wǎng)絡(luò)進(jìn)行圖片去模糊并不是一個(gè)新想法,但騰訊優(yōu)圖實(shí)驗(yàn)室別出心裁的將物理直覺結(jié)合進(jìn)來以促進(jìn)模型訓(xùn)練。在騰訊優(yōu)圖實(shí)驗(yàn)室新算法的論文中,其網(wǎng)絡(luò)模仿了一種被稱為“由粗到精”的成熟的圖像恢復(fù)策略。該策略首先將模糊圖像縮小成多種尺寸,然后從比較容易恢復(fù)的較小而偏清晰的圖像出發(fā),逐步處理更大尺寸的圖片。每一步中產(chǎn)生的清晰圖像則可以進(jìn)一步引導(dǎo)更大的圖像的恢復(fù),降低了網(wǎng)絡(luò)訓(xùn)練的難度。
AI肖像藝術(shù)家:以干凈優(yōu)雅的方式快速處理人像屬性
修改人像照片中的臉部屬性(不僅是美化)非常困難。藝術(shù)家通常需要對(duì)人像做很多層面上的處理才能使得修改后的圖像自然美觀。 AI可以接管這些復(fù)雜的操作嗎?
來自賈佳亞教授領(lǐng)導(dǎo)的騰訊優(yōu)圖實(shí)驗(yàn)室的研究人員提出了“自動(dòng)人像操縱”的最新模型。借助此模型,用戶只需簡單地提供所需效果的高級(jí)描述,模型就會(huì)根據(jù)命令自動(dòng)呈現(xiàn)照片,例如,使他變年輕/變老等。
完成這項(xiàng)任務(wù),面臨的主要挑戰(zhàn)是,無法收集到“輸入-輸出”的樣本用于訓(xùn)練。因此,無監(jiān)督學(xué)習(xí)中流行的“生成對(duì)抗”網(wǎng)絡(luò)通常用于此任務(wù)。然而,優(yōu)圖團(tuán)隊(duì)提出的這種方法并不依賴于生成對(duì)抗網(wǎng)絡(luò)。它通過生成帶噪聲的目標(biāo)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。由于深度卷積網(wǎng)絡(luò)的去噪效果,其網(wǎng)絡(luò)的輸出甚至優(yōu)于所學(xué)習(xí)的目標(biāo)。
“生成對(duì)抗網(wǎng)絡(luò)是一個(gè)強(qiáng)大的工具,但它很難優(yōu)化,我們希望找到更簡單的方法來解決這個(gè)問題,我們希望這項(xiàng)工作不僅能減輕藝術(shù)家的負(fù)擔(dān),還能減輕訓(xùn)練模型的工程師的負(fù)擔(dān)?!彬v訊的研究人員說。
據(jù)介紹,該模型的另一個(gè)吸引人的特點(diǎn)是它支持局部模型更新,也就是說,當(dāng)切換不同的操作任務(wù)時(shí),只需要替換模型的一小部分。這對(duì)系統(tǒng)開發(fā)人員十分友好。而且,從應(yīng)用層面,也使得應(yīng)用可以“增量更新”。
即使相片中的人臉沒有裁剪并且很好地對(duì)齊,該模型也可以隱式地參加正確的面部區(qū)域。在很多情況下,用戶僅僅將原始照片輸入給模型就足以產(chǎn)生高質(zhì)量的結(jié)果。甚至將視頻一幀一幀地輸入模型中,也可以處理整段視頻中人臉的屬性。
附:除以上兩篇,騰訊優(yōu)圖實(shí)驗(yàn)室其余入選CVPR2018的文章簡介
1、ReferringImageSegmentationviaRecurrentRefinementNetworks
通過循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行指定圖像指定區(qū)域的語義分割
根據(jù)自然語言的描述來分割圖片的指定區(qū)域是一個(gè)充滿挑戰(zhàn)的問題。此前的基于神經(jīng)網(wǎng)絡(luò)的方法通過融合圖像和語言的特征進(jìn)行分割,但是忽略了多尺度的信息,這導(dǎo)致分割結(jié)果質(zhì)量不高。對(duì)此,我們提出了一種基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的模型,在每一次迭代過程中加入底層卷積神經(jīng)網(wǎng)絡(luò)的特征來使得網(wǎng)絡(luò)可以逐漸捕獲圖片不同尺度下的信息。我們可視化了模型的中間結(jié)果并且在所有的相關(guān)公開數(shù)據(jù)集中都達(dá)到了最佳水平。
2、Weakly SupervisedHuman Body Part Parsing via Pose-Guided Knowledge Transfer
通過由姿態(tài)引導(dǎo)的知識(shí)遷移進(jìn)行弱監(jiān)督及半監(jiān)督的人體部位分割
人體部位解析,或稱人類語義部位分割,是許多計(jì)算機(jī)視覺任務(wù)的基礎(chǔ)。在傳統(tǒng)的語義分割方法中,我們需要提供手工標(biāo)注的標(biāo)簽,以便使用全卷積網(wǎng)絡(luò)(FCN)進(jìn)行端到端的訓(xùn)練。雖然過去的方法能達(dá)到不錯(cuò)的效果,但它們的性能高度依賴于訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量。
在本文中,我們提出了一種獲得訓(xùn)練數(shù)據(jù)的新方法,它可以使用容易獲得的人體關(guān)鍵點(diǎn)的數(shù)據(jù)來生成人體部位解析數(shù)據(jù)。我們的主要想法是利用人類之間的形態(tài)相似性,將一個(gè)人的部位解析結(jié)果傳遞給具有相似姿勢(shì)的另一個(gè)人。使用我們生成的結(jié)果作為額外的訓(xùn)練數(shù)據(jù),我們的半監(jiān)督模型在PASCAL-Person-Part數(shù)據(jù)集上優(yōu)于強(qiáng)監(jiān)督的方法6個(gè)mIOU,并且達(dá)到了最好的人類部位解析結(jié)果。我們的方法具有很好的通用性。它可以容易地?cái)U(kuò)展到其他物體或動(dòng)物的部位解析任務(wù)中,只要它們的形態(tài)相似性可以由關(guān)鍵點(diǎn)表示。我們的模型和源代碼將在之后公開。
3、Learning DualConvolutional Neural Networks for Low-Level Vision
基于雙層卷積神經(jīng)網(wǎng)絡(luò)處理低層視覺的方法
本文提出了一個(gè)雙層卷積神經(jīng)網(wǎng)絡(luò)來處理一些低層視覺問題,比如圖像超分辨率、保邊緣的圖像濾波、圖像去雨、圖像去霧等。這些低層視覺問題通常涉及到目標(biāo)結(jié)果的結(jié)構(gòu)和細(xì)節(jié)部分的估計(jì)。受此啟發(fā),本文提出的雙層卷積神經(jīng)網(wǎng)絡(luò)包含兩個(gè)分支,其中這兩個(gè)分支可端到端的估計(jì)目標(biāo)結(jié)果的結(jié)構(gòu)和細(xì)節(jié)信息?;诠烙?jì)的結(jié)構(gòu)和細(xì)節(jié)信息,目標(biāo)結(jié)果可分別通過特定問題的成像模型來得到。本文所提出的雙層卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)一般性的框架,它可以利用現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)來處理相關(guān)低層視覺問題。大量的實(shí)驗(yàn)結(jié)果表明,本文所提出的雙層卷積神經(jīng)網(wǎng)絡(luò)可以應(yīng)用于大多數(shù)低層視覺問題,并取得了較好的結(jié)果。
4、GeoNet:GeometricNeuralNetworkforJointDepthandSurfaceNormalEstimation
GeoNet:通過幾何神經(jīng)網(wǎng)絡(luò)進(jìn)行聯(lián)合的深度和平面法向量估計(jì)
在這篇論文中,我們提出了幾何神經(jīng)網(wǎng)絡(luò),用于同時(shí)預(yù)測(cè)圖片場(chǎng)景的深度和平面法向量。我們的模型基于兩個(gè)不同卷積神經(jīng)網(wǎng)絡(luò),通過對(duì)幾何關(guān)系的建模來循環(huán)迭代更新深度信息和平面法向量信息,這使得最后的預(yù)測(cè)結(jié)果有著極高的一致性和準(zhǔn)確率。我們?cè)贜YU數(shù)據(jù)集上驗(yàn)證了我們提出的幾何神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果表明我們的模型可以精確預(yù)測(cè)出幾何關(guān)系一致的深度和平面法向量。
5、Path AggregationNetwork for Instance Segmentation
通過路徑聚合網(wǎng)絡(luò)進(jìn)行實(shí)例分割
在神經(jīng)網(wǎng)絡(luò)中,信息傳遞的質(zhì)量是非常重要的。在本文中,我們提出了路徑聚合神經(jīng)網(wǎng)絡(luò),旨在提升基于區(qū)域的實(shí)例分割框架中信息傳遞的質(zhì)量。具體來講,我們構(gòu)建了自下而上的通路來傳遞儲(chǔ)存在低層神經(jīng)網(wǎng)絡(luò)層中精確的定位信息,縮短了底層網(wǎng)絡(luò)和高層網(wǎng)絡(luò)之間的信息傳輸距離,增強(qiáng)了整個(gè)特征層級(jí)的質(zhì)量。我們展示了適應(yīng)性特征池化,它連接了區(qū)域特征與所有的特征層級(jí),進(jìn)而使得所有有用的信息都能夠直接傳遞到后面的區(qū)域子網(wǎng)絡(luò)。我們?cè)黾恿艘粋€(gè)互補(bǔ)的分支去捕捉每個(gè)區(qū)域不同的特性,最終提升了掩膜的預(yù)測(cè)質(zhì)量。
這些改進(jìn)十分易于實(shí)現(xiàn),而且增加了較少的額外計(jì)算量。這些改進(jìn)幫助我們?cè)?017 COCO實(shí)例分割競(jìng)賽中取得第一名,在物體檢測(cè)競(jìng)賽中取得第二名。而且我們的方法也在MVD和Cityscapes數(shù)據(jù)集中取得最好成績。
6、FSRNet:End-to-EndLearningFaceSuper-ResolutionwithFacialPriors
FSRNet:基于先驗(yàn)信息的端到端訓(xùn)練的人臉超分辨率網(wǎng)絡(luò)
本文由騰訊優(yōu)圖實(shí)驗(yàn)室與南京理工大學(xué)主導(dǎo)完成,并入選Spotlight文章。人臉超分辨率是一個(gè)特定領(lǐng)域的超分辨率問題,其獨(dú)特的人臉先驗(yàn)信息可以用來更好超分辨率人臉圖像。本文提出一種新的端到端訓(xùn)練的人臉超分辨率網(wǎng)絡(luò),通過更好的利用人臉特征點(diǎn)熱度圖和分割圖等幾何信息,在無需人臉對(duì)齊的情況下提升非常低分辨率人臉圖像的質(zhì)量。具體來說,本文首先構(gòu)造一個(gè)粗粒度超分網(wǎng)絡(luò)恢復(fù)一個(gè)粗精度的高分辨率圖像。其次把該圖像分別送入一個(gè)細(xì)粒度超分編碼器和一個(gè)先驗(yàn)信息估計(jì)網(wǎng)絡(luò)兩條分支。細(xì)粒度超分編碼器抽取圖像特征,而先驗(yàn)網(wǎng)絡(luò)估計(jì)人臉的特征點(diǎn)和分割信息。最后兩條分支的結(jié)果匯合送入一個(gè)細(xì)粒度超分解碼器重構(gòu)出最終的高分辨率圖像。
為了進(jìn)一步生成更真實(shí)的人臉,本文提出人臉超分辨率生成對(duì)抗網(wǎng)絡(luò),將對(duì)抗思想融入超分網(wǎng)絡(luò)中。另外,我們引入人臉對(duì)齊和人臉分割兩種相關(guān)任務(wù),作為人臉超分的新的評(píng)估準(zhǔn)則。這兩種準(zhǔn)則克服了傳統(tǒng)準(zhǔn)則(比如PSNR/SSIM)在數(shù)值和視覺質(zhì)量不一致的問題。大量實(shí)驗(yàn)顯示,本文提出的方法在處理非常低分辨率人臉圖像時(shí),在數(shù)值和視覺質(zhì)量兩方面都顯著優(yōu)于以往超分方法。
7、Generative AdversarialLearning Towards Fast Weakly Supervised Detection
基于生成對(duì)抗學(xué)習(xí)的快速弱監(jiān)督目標(biāo)檢測(cè)
該論文提出一種面向快速弱監(jiān)督目標(biāo)檢測(cè)的生成對(duì)抗學(xué)習(xí)算法。近年來弱監(jiān)督目標(biāo)檢測(cè)領(lǐng)域有著大量的工作。在沒有人工標(biāo)注包圍盒的情況下,現(xiàn)有的方法大多是多階段流程,其中包括了候選區(qū)域提取階段。這使得在線測(cè)試的速度比快速有監(jiān)督目標(biāo)檢測(cè)(如SSD、YOLO等)慢一個(gè)數(shù)量級(jí)。該論文通過一種新穎的生成對(duì)抗學(xué)習(xí)算法來加速。在這過程中,生成器是一個(gè)單階段的目標(biāo)檢測(cè)器,引入了一個(gè)代理器來挖掘高質(zhì)量的包圍盒,同時(shí)用判別器來判斷包圍盒的來源。最后算法結(jié)合了結(jié)構(gòu)相似損失和對(duì)抗損失來訓(xùn)練模型。實(shí)驗(yàn)結(jié)果表明該算法取得了明顯的性能提升。
8、GroupCap: Group-based Image Captioning with Structured Relevance andDiversity Constraints
基于組群的帶結(jié)構(gòu)化相關(guān)性和差異性約束的圖像自動(dòng)描述
該論文提出了一種基于組群圖像結(jié)構(gòu)化語義關(guān)聯(lián)性分析的圖像自動(dòng)描述方法(GroupCap),對(duì)圖像間的語義相關(guān)性和差異性進(jìn)行建模。具體而言,該論文首先利用深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像的語義特征并利用提出的視覺解析模型構(gòu)建語義關(guān)聯(lián)結(jié)構(gòu)樹,然后在結(jié)構(gòu)樹基礎(chǔ)上采用三聯(lián)損失和分類損失對(duì)圖像間語義關(guān)聯(lián)性(相關(guān)性和差異性)進(jìn)行建模,最后將關(guān)聯(lián)性作為約束來引導(dǎo)深度循環(huán)神經(jīng)網(wǎng)絡(luò)生成文本。該方法新穎且有效,很好解決了當(dāng)前圖像自動(dòng)描述方法對(duì)于生成結(jié)果精確度不高且判別性不強(qiáng)的缺陷,并在圖像自動(dòng)描述的多項(xiàng)指標(biāo)上取得較高的性能。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4844瀏覽量
108203 -
圖像
+關(guān)注
關(guān)注
2文章
1096瀏覽量
42446 -
模糊算法
+關(guān)注
關(guān)注
0文章
16瀏覽量
8929
原文標(biāo)題:CVPR 2018:騰訊圖像去模糊、自動(dòng)人像操縱最新研究
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用
粒子群優(yōu)化模糊神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用
【案例分享】基于BP算法的前饋神經(jīng)網(wǎng)絡(luò)
如何設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò)圖像壓縮算法?
自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)研究
模糊神經(jīng)網(wǎng)絡(luò)在GPS高程轉(zhuǎn)換中的應(yīng)用
基于LO正則化去模糊算法
什么是模糊神經(jīng)網(wǎng)絡(luò)_模糊神經(jīng)網(wǎng)絡(luò)原理詳解
基于尺度迭代深度神經(jīng)網(wǎng)絡(luò)的圖像去模糊算法
評(píng)論