日韩加勒比人妻在线,婷婷午夜毛片

日前，曠視科技發(fā)布了一項新的開源AI人像視頻生成框架——MegActor。該框架讓用戶只需輸入一張靜態(tài)肖像圖片和一段視頻（如演講、表情包、rap），便可生成一段表情豐富、動作一致的AI人像視頻。生成的視頻長度取決于輸入的視頻長度。與阿里EMO、微軟VASA等最新AI視頻模型不同，曠視MegActor采用開源方式，供開發(fā)者社區(qū)使用。MegActor生成的視頻畫質更出色，面部細節(jié)更加豐富自然。

為了展示其泛化性，MegActor甚至可以將VASA中的人物肖像和視頻組合生成，得到生動的表情視頻。即使與阿里EMO的官方案例相比，MegActor也能生成近似的效果。

總的來說，無論是讓肖像開口說話、唱歌、模仿搞怪表情包，MegActor都能生成逼真的效果。

論文鏈接：https://arxiv.org/abs/2405.20851

代碼地址：https://github.com/megvii-research/megactor

項目地址：https://megactor.github.io/

MegActor是曠視研究院的最新研究成果。曠視研究院是曠視公司級研究機構，旨在通過基礎創(chuàng)新突破AI技術邊界，以工程創(chuàng)新實現(xiàn)技術到產(chǎn)品的快速轉化。多年來，曠視研究院已成為全球領先的人工智能研究機構。

目前的人像視頻生成領域中，許多工作通常使用高質量的閉源數(shù)據(jù)進行訓練，以追求更好的效果。而曠視研究院始終堅持全面開源，確保實際效果的可復現(xiàn)性。MegActor的訓練數(shù)據(jù)全部來自公開可獲取的開源數(shù)據(jù)集，配合開源代碼，使得感興趣的從業(yè)者可以從頭開始完整復現(xiàn)這些效果。

為了完全復刻原始視頻的表情和動作，MegActor采用原始圖像進行驅動，這與多數(shù)廠商使用的中間表示方法（如sketch、pose、landmark）不同，能夠捕捉到細致的表情和運動信息。

曠視科技研究總經(jīng)理范浩強表示，在AI視頻生成領域，我們發(fā)現(xiàn)目前主流的骨骼關鍵點控制方式不僅要求用戶提供難以獲取的專業(yè)控制信號，同時生成視頻的保真度也不盡如人意。通過研究發(fā)現(xiàn)，使用原視頻進行驅動，不僅降低了控制信號的門檻，更能生成保真且動作一致的視頻。

具體來說，MegActor主要由兩個階段構成：

使用ReferenceNet對參考圖像進行特征提取，獲取參考圖像的外觀和背景信息；

使用PoseGuider對輸入視頻進行運動和表情信息提取，將這些信息遷移到參考圖像上。

雖然使用原始視頻進行驅動能帶來更豐富的表情細節(jié)和運動信息，但也存在ID泄露和背景干擾等挑戰(zhàn)。為此，MegActor采用了條件擴散模型，引入了合成數(shù)據(jù)生成框架，創(chuàng)建具有一致動作和表情但不同身份ID的視頻，以減輕ID泄露的問題。MegActor還分割了參考圖像的前景和背景，并使用CLIP對背景細節(jié)進行編碼，確保背景的穩(wěn)定性。

在數(shù)據(jù)訓練方面，曠視研究院團隊使用公開數(shù)據(jù)集（VFHQ和CeleV）進行訓練，總時長超過700小時。為了避免ID泄露問題，團隊還使用換臉和風格化方法1:1生成合成數(shù)據(jù)，實現(xiàn)表情和動作一致但ID不一致的數(shù)據(jù)。此外，團隊使用注視檢測模型處理數(shù)據(jù)，獲取大約5%的高質量數(shù)據(jù)進行Finetune訓練。