日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新范式ReMoDiffuse來了

智能感知與物聯(lián)網(wǎng)技術研究所 ? 來源:未知 ? 2023-09-10 22:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人體動作生成任務旨在生成逼真的人體動作序列,以滿足娛樂、虛擬現(xiàn)實、機器人技術等領域的需求。傳統(tǒng)的生成方法包括 3D 角色創(chuàng)建、關鍵幀動畫和動作捕捉等步驟,其存在諸多限制,如耗時較長,需要專業(yè)技術知識,涉及昂貴的系統(tǒng)和軟件,不同軟硬件系統(tǒng)之間可能存在兼容性問題等。隨著深度學習的發(fā)展,人們開始嘗試使用生成模型來實現(xiàn)人體動作序列的自動生成,例如通過輸入文本描述,要求模型生成與文本要求相匹配的動作序列。隨著擴散模型被引入這個領域,生成動作與給定文本的一致性不斷提高。

然而,生成動作的自然程度離使用需求仍有很大差距。為了進一步提升人體動作生成算法的能力,本文在 MotionDiffuse [1] 的基礎上提出了 ReMoDiffuse 算法(圖 1),通過利用檢索策略,找到高相關性的參考樣本,提供細粒度的參考特征,從而生成更高質量的動作序列。

wKgaomT91ByAJfNFAAFXJu_whUs405.png

  • 論文鏈接:https://arxiv.org/pdf/2304.01116.pdf

  • GitHub:https://github.com/mingyuan-zhang/ReMoDiffuse

  • 項目主頁:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

通過巧妙地將擴散模型和創(chuàng)新的檢索策略融合,ReMoDiffuse 為文本指導的人體動作生成注入了新的生命力。經(jīng)過精心構思的模型結構,ReMoDiffuse 不僅能夠創(chuàng)造出豐富多樣、真實度高的動作序列,還能有效地滿足各種長度和多粒度的動作需求。實驗證明,ReMoDiffuse 在動作生成領域的多個關鍵指標上表現(xiàn)出色,顯著地超越了現(xiàn)有算法。

wKgaomT91ByAZF-fAAIVPX6J5mM831.png

圖 1. ReMoDiffuse 概覽

方法介紹

ReMoDiffuse 主要由兩個階段組成:檢索和擴散。在檢索階段,ReMoDiffuse 使用混合檢索技術,基于用戶輸入文本以及預期動作序列長度,從外部的多模態(tài)數(shù)據(jù)庫中檢索出信息豐富的樣本,為動作生成提供強有力的指導。在擴散階段,ReMoDiffuse 利用檢索階段檢索到的信息,通過高效的模型結構,生成與用戶輸入語義一致的運動序列。

為了確保高效的檢索,ReMoDiffuse 為檢索階段精心設計了以下數(shù)據(jù)流(圖 2):

共有三種數(shù)據(jù)參與檢索過程,分別是用戶輸入文本、預期動作序列長度,以及一個外部的、包含多個 < 文本,動作 > 對的多模態(tài)數(shù)據(jù)庫。在檢索最相關的樣本時,ReMoDiffuse 利用公式wKgaomT91ByAJvU7AABIc-hXsEw192.jpg計算出每個數(shù)據(jù)庫中的樣本與用戶輸入的相似度。這里的第一項是利用預訓練的 CLIP [2] 模型的文本編碼器對用戶輸入文本和數(shù)據(jù)庫實體的文本計算余弦相似度,第二項計算預期動作序列長度和數(shù)據(jù)庫實體的動作序列長度之間的相對差異作為運動學相似度。計算相似度分數(shù)后,ReMoDiffuse 選擇相似度排名前 k 的樣本作為檢索到的樣本,并提取出文本特征wKgaomT91ByAERawAAAc-TaYXRo557.jpg,和動作特征wKgaomT91B2APqtpAAAgTdunvyo004.jpg。這兩者和從用戶輸入的文本中提取的特征wKgaomT91B2AKwE8AAAszx0bnmc131.jpg一同作為輸入給擴散階段的信號,指導動作生成。

wKgaomT91B2AT9ZKAAIx47aDiPw641.png

圖 2:ReMoDiffuse 的檢索階段

擴散過程(圖3.c)由正向過程和逆向過程兩個部分組成。在正向過程中,ReMoDiffuse 逐步將高斯噪聲添加到原始動作數(shù)據(jù)中,并最終將其轉化為隨機噪聲。逆向過程專注于除去噪聲并生成逼真的動作樣本。從一個隨機高斯噪聲開始,ReMoDiffuse 在逆向過程中的每一步都使用語義調制模塊(SMT)(圖3.a)來估測真實分布,并根據(jù)條件信號來逐步去除噪聲。這里 SMT 中的 SMA 模塊將會將所有的條件信息融入到生成的序列特征中,是本文提出的核心模塊。

wKgaomT91B2ASSzuAAJAGhFuaLk707.png

圖 3:ReMoDiffuse 的擴散階段

對于 SMA 層(圖 3.b),我們使用了高效的注意力機制(Efficient Attention)[3] 來加速注意力模塊的計算,并創(chuàng)造了一個更強調全局信息的全局特征圖。該特征圖為動作序列提供了更綜合的語義線索,從而提升了模型的性能。SMA 層的核心目標是通過聚合條件信息來優(yōu)化動作序列wKgaomT91B2ABzoxAAAdxhjtZao260.jpg的生成。在這個框架下:

1.Q 向量具體地代表了我們期望基于條件信息生成的預期動作序列wKgaomT91B2ABzoxAAAdxhjtZao260.jpg。

2.K 向量作為一種索引機制綜合考慮了多個要素,包括當前動作序列特征wKgaomT91B2ABzoxAAAdxhjtZao260.jpg、用戶輸入的語義特征wKgaomT91B2AKwE8AAAszx0bnmc131.jpg,以及從檢索樣本中獲取的特征wKgaomT91B2APqtpAAAgTdunvyo004.jpgwKgaomT91ByAERawAAAc-TaYXRo557.jpg。其中,wKgaomT91B2APqtpAAAgTdunvyo004.jpg表示從檢索樣本中獲取的動作序列特征,wKgaomT91ByAERawAAAc-TaYXRo557.jpg表示從檢索樣本中獲取的文描述特征。這種綜合性的構建方式保證了 K 向量在索引過程中的有效性。

3.V 向量提供了動作生成所需的實際特征。類似 K 向量,這里 V 向量也綜合考慮了檢索樣本、用戶輸入以及當前動作序列??紤]到檢索樣本的文本描述特征與生成的動作之間沒有直接關聯(lián),因此在計算 V 向量時我們選擇不使用這一特征,以避免不必要的信息干擾。

結合 Efficient Attention 的全局注意力模板機制,SMA 層利用來自檢索樣本的輔助信息、用戶文本的語義信息以及待去噪序列的特征信息,建立起一系列綜合性的全局模板,使得所有條件信息能夠被待生成序列充分吸收。

實驗及結果

我們在兩個數(shù)據(jù)集 HumanML3D [4] 和 KIT-ML [5] 上評估了 ReMoDiffuse。在與文本的一致性與動作質量兩個角度上,實驗結果(表 1、2)展示了我們提出的 ReMoDiffuse 框架的強大性能和優(yōu)勢。

wKgaomT91B2AJZskAAOGmlEXtww746.png

表 1. 不同方法在 HumanML3D 測試集上的表現(xiàn)

wKgaomT91B2ASgAKAAHjqaBlL_o118.png

表 2. 不同方法在 KIT-ML 測試集上的表現(xiàn)

以下是一些能定性展示 ReMoDiffuse 的強大性能的示例(圖 4)。與之前的方法相比,例如,在給定文本 “一個人在圓圈里跳躍” 時,只有 ReMoDiffuse 能夠準確捕捉到 “跳躍” 動作和 “圓圈” 路徑。這表明 ReMoDiffuse 能夠有效地捕捉文本細節(jié),并將內容與給定的運動持續(xù)時間對齊。

wKgaomT91B6AWLC-AAQ2rL4uyGM058.png

圖 4. ReMoDiffuse 生成的動作序列與其他方法生成的動作序列的比較

我們對 Guo 等人的方法 [4]、MotionDiffuse [1]、MDM [6] 以及 ReMoDiffuse 所生成的相應動作序列進行了可視化展示,并以問卷形式收集測試參與者的意見。結果的分布情況如圖 5 所示。從結果中可以清晰地看出,在大多數(shù)情況下,參與測試者認為我們的方法 —— 即 ReMoDiffuse 所生成的動作序列在四個算法中最貼合所給的文本描述,也最自然流暢。

wKgaomT91B6ANVwDAAEHvu5tSPY908.png

圖 5:用戶調研的結果分布

引用

[1] Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, and Ziwei Liu. Motiondiffuse: Text-driven human motion generation with diffusion model. arXiv preprint arXiv:2208.15001, 2022.

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152–5161, 2022.

[5] Matthias Plappert, Christian Mandery, and Tamim Asfour. The kit motion-language dataset. Big data, 4 (4):236–252, 2016.

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.


原文標題:ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新范式ReMoDiffuse來了

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新范式ReMoDiffuse來了

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    《多模態(tài)大模型 前沿算法與實戰(zhàn)應用 第一季》精品課程簡介

    的關鍵區(qū)域。例如在視覺問答任務中,模型會根據(jù)問題中的\"顏色\"一詞,重點關注圖像中物體的顏色特征。 3. 模態(tài)融合:協(xié)同決策的關鍵 融合策略直接影響
    發(fā)表于 05-01 17:46

    黑馬-Java+AI新版V16零基礎就業(yè)班百度云網(wǎng)盤下載+Java+AI全棧開發(fā)工程師

    與輸出約束。這種確定性優(yōu)先的設計思路,將大模型的非確定性壓縮在被限定的范圍內,其余交由 Java 的類型安全體系保障,是實現(xiàn)穩(wěn)健融合的關鍵理念。 六、工程化落地考量:鏈路追蹤、可觀測性與失敗策略 AI
    發(fā)表于 05-01 11:29

    [完結15章]Java轉 AI高薪領域必備-從0到1打通生產級AI Agent開發(fā)

    拒絕原地踏步:Java工程師AI轉型的底層技術破局之道 在軟件工程范式被大語言模型(LLM)徹底顛覆的今天,傳統(tǒng)的“Java CRUD boy”正面臨著前所未有的生存危機。當業(yè)務邏輯的生成可以被
    發(fā)表于 04-30 13:46

    網(wǎng)格為王,仿真破界——Altair HyperMesh 重塑CAE工程設計新范式?

    ,成為多數(shù)企業(yè)的首選工具,其核心競爭力體現(xiàn)在三個維度。 其一,網(wǎng)格質量與復雜模型處理能力更具優(yōu)勢。與ANSA相比,ANSA側重面網(wǎng)格的快速生成與CFD領域的應用,而HyperMesh在六面體網(wǎng)格、高質量
    發(fā)表于 04-23 14:47

    九天菜菜大模型agent智能體開發(fā)實戰(zhàn)2026一月班

    自主 AI 新范式:大模型 Agent 開發(fā)實戰(zhàn)火爆開課 在科技浪潮洶涌澎湃的當下,人工智能領域正經(jīng)歷著一場深刻變革,大模型 Agent 開發(fā)實戰(zhàn)課程如璀璨新星般閃耀登場,迅速成為科技圈的熱門焦點
    發(fā)表于 04-15 16:04

    RAG、MCP與智能體:大模型落地的三道關

    天生局限。RAG的思路很簡單:用戶提問時,先從知識庫里檢索相關內容,再讓模型基于這些資料生成答案。 數(shù)據(jù)分片是關鍵第一步 。文檔切太碎,上下文割裂;切太整,檢索不精準。技術手冊按章節(jié)切
    的頭像 發(fā)表于 03-19 13:55 ?154次閱讀

    RAG(檢索增強生成)原理與實踐

    模型更新 :跟蹤最新的Embedding和LLM模型 七、未來趨勢與展望 7.1 多模態(tài)RAG 支持圖像、音頻等多種模態(tài)的檢索生成。 7.2 自適應RAG 根據(jù)問題類型自動選擇最
    發(fā)表于 02-11 12:46

    ANSA人體模型姿態(tài)調整工具的使用案例

    中國體征人體數(shù)字模型(AC-HUMs)是中國汽研主持研發(fā)的人體有限元模型。BETA CAE Systems與中國汽研保持緊密合作,前、后處理軟件(ANSA/META)會全面支持AC-H
    的頭像 發(fā)表于 09-28 15:44 ?1494次閱讀
    ANSA<b class='flag-5'>人體模型</b>姿態(tài)調整工具的使用案例

    ANSA人體模型姿態(tài)調整工具介紹

    ANSA的人體模型姿態(tài)調整工具(HBM Articulation Tool)通過網(wǎng)格變形技術實現(xiàn)基于人體不同部位進行調節(jié),定位人體模型最終的姿態(tài)。
    的頭像 發(fā)表于 09-28 15:40 ?1866次閱讀
    ANSA<b class='flag-5'>人體模型</b>姿態(tài)調整工具介紹

    普強用大模型重塑TTS語音合成新高度

    普強依托自研深思大模型與神經(jīng)網(wǎng)絡算法,融合海量高質量音頻數(shù)據(jù),通過最新的擴散模型技術打造超自然音色,目前技術已用于部分車企出海車輛。
    的頭像 發(fā)表于 08-26 15:09 ?2111次閱讀

    中科曙光超智融合技術重塑生物醫(yī)藥研發(fā)新范式

    當前,海量生物數(shù)據(jù)的處理與分析能力已成為制約行業(yè)發(fā)展的關鍵瓶頸。近日,依托曙光超智融合技術建設的華東某全國產計算中心,與單細胞測序領域代表性企業(yè)墨卓生物達成戰(zhàn)略合作。以強大算力為單細胞測序、蛋白質結構預測及海量臨床樣本分析提供支撐,加速精準診斷進程,重塑生物醫(yī)藥研發(fā)與應用
    的頭像 發(fā)表于 08-11 11:12 ?1339次閱讀

    一種基于擴散模型的視頻生成框架RoboTransfer

    在機器人操作領域,模仿學習是推動具身智能發(fā)展的關鍵路徑,但高度依賴大規(guī)模、高質量的真實演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬到現(xiàn)實”(Sim2Real)鴻溝,制約了仿真數(shù)據(jù)訓練策略的泛化能力與落地應用。
    的頭像 發(fā)表于 07-09 14:02 ?964次閱讀
    一種基于<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的視頻<b class='flag-5'>生成</b>框架RoboTransfer

    格靈深瞳六篇論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結果,格靈深瞳團隊共有6篇論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?1750次閱讀

    理想汽車八篇論文入選ICCV 2025

    近日,ICCV 2025(國際計算機視覺大會)公布論文錄用結果,理想汽車共有8篇論文入選,其中5篇來自自動駕駛團隊,3篇來自基座模型團隊。ICCV作為計算機視覺領域的頂級學術會議,每兩年舉辦一次
    的頭像 發(fā)表于 07-03 13:58 ?1341次閱讀

    如何將一個FA模型開發(fā)的聲明式范式應用切換到Stage模型

    模型切換概述 本文介紹如何將一個FA模型開發(fā)的聲明式范式應用切換到Stage模型,您需要完成如下動作: 工程切換:新建一個Stage
    發(fā)表于 06-04 06:22
    蒲江县| 崇文区| 郴州市| 荣昌县| 齐河县| 平定县| 吴川市| 监利县| 灌阳县| 喀喇沁旗| 剑川县| 福安市| 泸西县| 达日县| 溆浦县| 怀来县| 新密市| 徐水县| 故城县| 常德市| 安义县| 宣化县| 蒲城县| 黔西县| 滨州市| 永修县| 高清| 徐闻县| 浠水县| 平谷区| 六安市| 蒲江县| 东乡族自治县| 宁津县| 温泉县| 佛学| 星座| 子洲县| 邹城市| 汨罗市| 新建县|