日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

曠視AI開源新突破:上傳照片即可生成表情包視頻!

AI機械姬 ? 來源:AI機械姬 ? 作者:AI機械姬 ? 2024-07-12 11:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

日前,曠視科技發(fā)布了一項新的開源AI人像視頻生成框架——MegActor。該框架讓用戶只需輸入一張靜態(tài)肖像圖片和一段視頻(如演講、表情包、rap),便可生成一段表情豐富、動作一致的AI人像視頻。生成的視頻長度取決于輸入的視頻長度。與阿里EMO、微軟VASA等最新AI視頻模型不同,曠視MegActor采用開源方式,供開發(fā)者社區(qū)使用。MegActor生成的視頻畫質更出色,面部細節(jié)更加豐富自然。

wKgZomaQp8CARJnFAAAUzJBUboU053.png

為了展示其泛化性,MegActor甚至可以將VASA中的人物肖像和視頻組合生成,得到生動的表情視頻。即使與阿里EMO的官方案例相比,MegActor也能生成近似的效果。

wKgaomaQp0qAR1g4AAGuNBaURo8083.png

總的來說,無論是讓肖像開口說話、唱歌、模仿搞怪表情包,MegActor都能生成逼真的效果。

論文鏈接:https://arxiv.org/abs/2405.20851

代碼地址:https://github.com/megvii-research/megactor

項目地址:https://megactor.github.io/

MegActor是曠視研究院的最新研究成果。曠視研究院是曠視公司級研究機構,旨在通過基礎創(chuàng)新突破AI技術邊界,以工程創(chuàng)新實現(xiàn)技術到產(chǎn)品的快速轉化。多年來,曠視研究院已成為全球領先的人工智能研究機構。

目前的人像視頻生成領域中,許多工作通常使用高質量的閉源數(shù)據(jù)進行訓練,以追求更好的效果。而曠視研究院始終堅持全面開源,確保實際效果的可復現(xiàn)性。MegActor的訓練數(shù)據(jù)全部來自公開可獲取的開源數(shù)據(jù)集,配合開源代碼,使得感興趣的從業(yè)者可以從頭開始完整復現(xiàn)這些效果。

為了完全復刻原始視頻的表情和動作,MegActor采用原始圖像進行驅動,這與多數(shù)廠商使用的中間表示方法(如sketch、pose、landmark)不同,能夠捕捉到細致的表情和運動信息。

曠視科技研究總經(jīng)理范浩強表示,在AI視頻生成領域,我們發(fā)現(xiàn)目前主流的骨骼關鍵點控制方式不僅要求用戶提供難以獲取的專業(yè)控制信號,同時生成視頻的保真度也不盡如人意。通過研究發(fā)現(xiàn),使用原視頻進行驅動,不僅降低了控制信號的門檻,更能生成保真且動作一致的視頻。

具體來說,MegActor主要由兩個階段構成:

wKgaomaQp2yAMbsSAAINHxF7tf0305.png

使用ReferenceNet對參考圖像進行特征提取,獲取參考圖像的外觀和背景信息;

使用PoseGuider對輸入視頻進行運動和表情信息提取,將這些信息遷移到參考圖像上。

雖然使用原始視頻進行驅動能帶來更豐富的表情細節(jié)和運動信息,但也存在ID泄露和背景干擾等挑戰(zhàn)。為此,MegActor采用了條件擴散模型,引入了合成數(shù)據(jù)生成框架,創(chuàng)建具有一致動作和表情但不同身份ID的視頻,以減輕ID泄露的問題。MegActor還分割了參考圖像的前景和背景,并使用CLIP對背景細節(jié)進行編碼,確保背景的穩(wěn)定性。

在數(shù)據(jù)訓練方面,曠視研究院團隊使用公開數(shù)據(jù)集(VFHQ和CeleV)進行訓練,總時長超過700小時。為了避免ID泄露問題,團隊還使用換臉和風格化方法1:1生成合成數(shù)據(jù),實現(xiàn)表情和動作一致但ID不一致的數(shù)據(jù)。此外,團隊使用注視檢測模型處理數(shù)據(jù),獲取大約5%的高質量數(shù)據(jù)進行Finetune訓練。

wKgaomaQp4-Ad7nyAAIrJv12wFw194.png

通過新的模型框架和訓練方法,曠視研究院團隊僅使用了不到200塊V100顯卡小時的訓練時長,最終實現(xiàn)了以下特性:

根據(jù)輸入視頻生成任意持續(xù)時間的模仿視頻,確保角色身份一致性;

支持各種驅動視頻,如演講、唱歌、表情包等;

支持不同畫風(照片、傳統(tǒng)繪畫、漫畫、AI數(shù)字人等);

音頻生成方法相比,MegActor生成的視頻不僅能確保表情和動作一致,更能達到自然程度。

目前,MegActor已經(jīng)完全開源,供開發(fā)者和用戶即開即用。



審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    41315

    瀏覽量

    302691
  • 開源
    +關注

    關注

    3

    文章

    4368

    瀏覽量

    46464
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    可靈推出AI原生4K直出功能:開啟AI視頻生成“院線級”新紀元

    4月23日,可靈AI視頻3.0系列模型中推出業(yè)內(nèi)首個原生4K直出功能,以“無需后期、直出4K”的顛覆性能力,直接匹配影視行業(yè)4K制作標準,標志著AI視頻生成技術從“內(nèi)容
    的頭像 發(fā)表于 04-27 13:39 ?402次閱讀

    做智能體硬件的敏捷法則

    對話硬件研發(fā)負責人王飛:當算法從“感知”走向“行動”,硬件如何成為智能體的最佳載體?
    的頭像 發(fā)表于 04-15 09:34 ?485次閱讀

    NVIDIA和ComfyUI攜手簡化本地AI視頻生成工作流

    借助 ComfyUI 的應用視圖、NVIDIA RTX Video 超分辨率和全新的 NVFP4 模型,AI 驅動的視頻生成更加易用。
    的頭像 發(fā)表于 03-14 16:37 ?2529次閱讀
    NVIDIA和ComfyUI攜手簡化本地<b class='flag-5'>AI</b><b class='flag-5'>視頻生成</b>工作流

    歡迎使用中國香河英茂科工豆包智能體

    照片生成Q版/成人形象 → 調整細節(jié) 用于合拍、虛擬互動、直播 3. 專業(yè)平臺(騰訊云/訊飛/HeyGen) 上傳3分鐘口播視頻+100句語音 平臺自動
    發(fā)表于 02-14 07:22

    美泰開源事業(yè)部實訓箱

    美泰實訓平臺采用模塊化設計,集成了開源鴻蒙、AI計算與機器人控制等核心模塊。通過標準化的硬件接口與完善的軟件開發(fā)環(huán)境,將美泰技術一體打包,讓開發(fā)像搭積木一樣簡單,助力學生快速開展從
    發(fā)表于 01-16 09:10 ?1次下載

    積極參與國家人工智能應用中試基地建設

    12月4日,“AI終端共創(chuàng)未來”國家人工智能應用中試基地(深圳、東莞)發(fā)布會在珠海舉行。此次發(fā)布會響應國家“人工智能+”戰(zhàn)略,旨在匯聚粵港澳大灣區(qū)產(chǎn)業(yè)優(yōu)勢資源,推動AI+移動終端領域高質量發(fā)展,共同打造世界級AI終端產(chǎn)業(yè)創(chuàng)新高地
    的頭像 發(fā)表于 12-15 11:50 ?558次閱讀

    AI技術助力國家博物館票務系統(tǒng)智慧化升級

    在文博旅游熱潮之下,中國國家博物館作為國家最高歷史文化藝術殿堂,觀眾接待量呈現(xiàn)井噴式增長。為進一步提升觀眾的通行效率和通行體驗,利用最新的AI技術為國家博物館量身打造了一套完整的人機核驗閘機,通過身份核驗閘機建設和票務系統(tǒng)對
    的頭像 發(fā)表于 11-27 17:07 ?1096次閱讀

    開源鴻蒙MNN AI應用開發(fā)與MNN移植經(jīng)驗

    本期內(nèi)容由AI Model SIG提供,介紹了在開源鴻蒙中,利用MNN開源框架開發(fā)AI應用以及基于MNN源碼編譯與Har封裝的方法。
    的頭像 發(fā)表于 09-04 11:31 ?5045次閱讀
    <b class='flag-5'>開源</b>鴻蒙MNN <b class='flag-5'>AI</b>應用開發(fā)與MNN移植經(jīng)驗

    科技AIBOX雙版本重磅發(fā)布!本地安全與全球適配,解鎖視頻智能新可能

    未來,騰科技將繼續(xù)深耕AI邊緣計算與視頻分析技術,為更多行業(yè)打造“量身定制”的智能解決方案,讓科技真正服務于業(yè)務創(chuàng)新!即刻聯(lián)系騰科技,解鎖你的專屬
    的頭像 發(fā)表于 08-27 14:00 ?2179次閱讀
    騰<b class='flag-5'>視</b>科技AIBOX雙版本重磅發(fā)布!本地安全與全球適配,解鎖<b class='flag-5'>視頻</b>智能新可能

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    1. 項目概述 本項目旨在開發(fā)并部署一個高精度的深度學習模型,用于自動鑒別一張圖片是由AI生成(如Stable Diffusion, DALL-E, Midjourney等工具生成)還是真實的畫家
    發(fā)表于 08-21 13:59

    照片視頻太普通?涂鴉On-App AI黑科技,讓寵物/人像1秒C位出片!

    一鍵識別人/寵物并實現(xiàn)智能居中,點一下就能讓照片/視頻秒變質感大片呢?01涂鴉助你一鍵生成氛圍感寫真基于強大的On-AppAI技術架構,涂鴉重磅推出AI寫真+
    的頭像 發(fā)表于 08-14 18:55 ?1494次閱讀
    <b class='flag-5'>照片</b><b class='flag-5'>視頻</b>太普通?涂鴉On-App <b class='flag-5'>AI</b>黑科技,讓寵物/人像1秒C位出片!

    生成AI 重塑自動駕駛仿真:4D 場景生成技術的突破與實踐

    生成AI驅動的4D場景技術正解決傳統(tǒng)方法效率低、覆蓋不足等痛點,如何通過NeRF、3D高斯?jié)姙R等技術實現(xiàn)高保真動態(tài)建模?高效生成極端天氣等長尾場景?本文為您系統(tǒng)梳理AI驅動的4D場景
    的頭像 發(fā)表于 08-06 11:20 ?5406次閱讀
    <b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 重塑自動駕駛仿真:4D 場景<b class='flag-5'>生成</b>技術的<b class='flag-5'>突破</b>與實踐

    上傳壓縮的時候總是顯示上傳失敗,為什么?

    上傳壓縮的時候總是顯示上傳失敗是說明原因
    發(fā)表于 07-23 08:17

    微軟開源GitHub Copilot Chat,AI編程迎來新突破

    30分,微軟首席執(zhí)行官Satya Nadella向大家展示了VS Code的最新AI開源編輯器GitHub Copilot Chat。 GitHub Copilot Chat的一大技術亮點是其支持
    的頭像 發(fā)表于 07-02 09:34 ?1452次閱讀
    微軟<b class='flag-5'>開源</b>GitHub Copilot Chat,<b class='flag-5'>AI</b>編程迎來新<b class='flag-5'>突破</b>

    4K、多模態(tài)、長視頻AI視頻生成的下一個戰(zhàn)場,誰在領跑?

    電子發(fā)燒友網(wǎng)報道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動最新視頻模型,支持文字與圖片輸入,可生成多鏡頭無縫切換的1080P高品質
    的頭像 發(fā)表于 06-16 00:13 ?7586次閱讀
    广安市| 澎湖县| 岗巴县| 上杭县| 苏尼特左旗| 鄂温| 宝山区| 高邑县| 松阳县| 新晃| 天台县| 漳平市| 新疆| 海口市| 辽源市| 怀化市| 明星| 额尔古纳市| 弋阳县| 乌兰察布市| 哈尔滨市| 武宣县| 柳林县| 临漳县| 育儿| 建水县| 恩施市| 台东县| 延庆县| 北碚区| 易门县| 潢川县| 吉首市| 天台县| 葫芦岛市| 琼海市| 沙坪坝区| 海林市| 龙州县| 东乡| 托里县|