日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

單攝像頭輸入的基于學習的動作捕捉模型實例分析

mK5P_AItists ? 2017-12-11 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

目前,從單攝像頭中進行動作捕捉(motioncapture)的最好方法是優(yōu)化驅(qū)動的:通過優(yōu)化3D人體模型的參數(shù)從而使二次投影與視頻中的測量結(jié)果相匹配(例如,人像分割、光流、關(guān)鍵點檢測等)。優(yōu)化模型容易受到局部最小值(local minima)的影響。這成為了限制動作捕捉的瓶頸,致使每次捕捉動作時必須用干凈的綠布作為背景,并且要手動初始化或切換成多攝像頭作為輸入源。在本項研究中,我們提出了一個用于單攝像頭輸入的基于學習的動作捕捉模型。我們的模型沒有直接優(yōu)化網(wǎng)格和骨骼參數(shù),而是通過優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)重來預(yù)測給定單目RGB視頻的3D形狀和骨骼構(gòu)造。我們的的模型是使用來自合成數(shù)據(jù)的強監(jiān)督與來自一個端到端框架中(a)骨骼關(guān)鍵點(b)密集型網(wǎng)格運動(c)人物背景分割可微渲染中的自監(jiān)督進行聯(lián)合訓練的通過檢驗,我們證實,我們的模型結(jié)合了監(jiān)督學習和測試時間優(yōu)化二者的優(yōu)點:監(jiān)督學習在適時情況下初始化參數(shù),在測試中確保良好的姿態(tài)和表面初始化,不需要手動操作。通過可微渲染的反向傳播進行的自監(jiān)督,使得(無監(jiān)督的)模型適應(yīng)測試數(shù)據(jù),并且相較預(yù)訓練固定模型而言,可提供更好的擬合性。我們在此表示,此次提出的模型將隨著經(jīng)驗的不斷積累,以及總結(jié)過去的低誤差解決方案而不斷改進。

從“自然環(huán)境下”的單目裝置中詳細了解人體及其運動將為自動化健身房、舞蹈教師、康復(fù)指導(dǎo)、患者監(jiān)護以及更安全的人機交互的應(yīng)用開辟道路。這也會影響到電影行業(yè),因為目前,人物動作捕捉(MOCAP)和重定向,仍需要藝術(shù)家花費繁重的勞動力,或者使用昂貴的多攝像機設(shè)置和綠屏才能達到理想的精度。

當前,大多數(shù)動作捕捉系統(tǒng)都是優(yōu)化驅(qū)動,其并不能從經(jīng)驗中獲益。單目動作捕捉系統(tǒng)優(yōu)化3D人體模型的參數(shù)以在視頻中與測量結(jié)果相匹配(如人像分割、光流等)。背景雜亂和優(yōu)化困難顯著影響追蹤性能,這導(dǎo)致過去在工作中總使用綠色的背景幕布,并且進行細致的初始化工作。此外,通過這些費力的方法所捕捉到的動作數(shù)據(jù),并不能隨著時間的推移而改進。這意味著每次處理視頻時,都需要從頭重復(fù)進行優(yōu)化和手動操作。

圖1 動作捕捉的自監(jiān)督學習

給定一個視頻序列和一組2D肢體關(guān)節(jié)熱圖,我們的網(wǎng)絡(luò)可預(yù)測SMPL3D人體網(wǎng)格模型的肢體參數(shù)。神經(jīng)網(wǎng)絡(luò)權(quán)重使用合成數(shù)據(jù)進行預(yù)訓練,并使用可微關(guān)鍵點、分割和二次投影誤差分別針對檢測到的2D關(guān)鍵點、2D分割和2D光流的自監(jiān)督缺失驅(qū)動(self-supervised losses driven)進行微調(diào)。通過在測試時運用自監(jiān)督損失(self-supervised losses)微調(diào)其參數(shù),本文提出的模型要比基于模型的純監(jiān)督或純優(yōu)化具有更高的3D重建精度。其中,基于模型的純監(jiān)督或純優(yōu)化模型既不能適應(yīng)也不能從訓練數(shù)據(jù)中受益。

我們提出了一個在單目視頻中進行動作捕捉的神經(jīng)網(wǎng)絡(luò)模型,學習將一個圖像序列映射到一個相應(yīng)的3D網(wǎng)格序列中。深度學習模型的成功在于從大規(guī)模注釋數(shù)據(jù)集中進行監(jiān)督。然而,詳細的3D網(wǎng)格標注是非常繁瑣而耗時的,因此在實際生活中,大規(guī)模的標注3D人體姿態(tài)是不現(xiàn)實的。在真實視頻中,我們的工作通過將手動渲染模型的大規(guī)模合成數(shù)據(jù)中的強監(jiān)督、與3D關(guān)鍵點的3D轉(zhuǎn)2D可微渲染、動作和分割以及真實獨目視頻中2D相應(yīng)檢測量的匹配中所包含的監(jiān)督相結(jié)合,從而避免了真實視頻中缺乏3D網(wǎng)格注釋這一問題。我們的自監(jiān)督利用了2D身體關(guān)節(jié)檢測、2D圖底分割和2D光流技術(shù)的最新研發(fā)成果,分別使用真實或合成數(shù)據(jù)集(如MPII、COCO和flying chairs)的強大監(jiān)督進行學習。事實上,注釋2D身體關(guān)節(jié)比注釋3D關(guān)節(jié)或3D網(wǎng)格更容易,而光流被證明可以很容易地從合成數(shù)據(jù)泛化到真實數(shù)據(jù)。我們展示了最先進的2D關(guān)節(jié)、光流和2D人像分割模型是如何用于推理出自認環(huán)境下視頻中密集的3D人體結(jié)構(gòu)的,而這些工作是難以通過手動操作來完成。與之前基于優(yōu)化的動作捕捉研究相比,我們現(xiàn)在對光流和分割損耗使用的可微變形(differentiable warping)和可微相機投影技術(shù),使得模型可以通過標準的反向傳播進行端對端的訓練。

我們使用SMPL作為我們的密集人體3D網(wǎng)格模型。它由一定數(shù)量的固定拓撲結(jié)構(gòu)頂點和三角形拓撲結(jié)構(gòu)組成,其中,全局姿勢由身體各部分之間的角度θ控制,局部姿勢由網(wǎng)格表面參數(shù)β控制。對于給定姿勢和表面參數(shù),密集網(wǎng)格可以以一種分析法(可微分)形式生成,然后將其全局旋轉(zhuǎn)并轉(zhuǎn)換到期望的位置。我們模型的任務(wù)是對渲染過程進行逆向工程,并且預(yù)測SMPL模型(θ和β)的參數(shù)以及每個輸入幀中的焦距、3D旋轉(zhuǎn)和3D翻譯,在檢測到的人身周圍提供圖像分割。

給定兩個連續(xù)幀中的3D網(wǎng)絡(luò)預(yù)測,我們可以對網(wǎng)格頂點的3D動作向量進行差分投影,并將它們與已評估的2D可見光流向量進行有針對性的匹配(圖1)??晌幼麂秩竞推ヅ湫枰獙旤c可見性進行評估,對于這一點,我們使用光線投射(ray casting),以及用來執(zhí)行代碼加速的我們神經(jīng)模型實現(xiàn)。類似地,在每一幀中,3D關(guān)鍵點都會被投影,并且他們與相應(yīng)被檢測到的2D關(guān)鍵點之間的距離將會被懲罰。最后,重要的是,可微分割匹配使用倒角距離(Chamferdistances)針對人類前景2D分割的投影頂點的欠擬合和過度擬合進行懲罰。請注意,由于3D網(wǎng)格是無紋理的,因此我們的預(yù)測中,二次投影的誤差只存在于形態(tài)上而非設(shè)計的紋理上。

我們提供了在SURREAL和H3.6M數(shù)據(jù)集上進行的3D密集型人體形態(tài)追蹤的定量和定性分析結(jié)果。我們將其與相應(yīng)的優(yōu)化版本進行比較,在這些版本中,網(wǎng)格參數(shù)通過最小化我們的自監(jiān)督損失而優(yōu)化,并且在測試時不使用自監(jiān)督,進而達到屏蔽監(jiān)督模型的效果。優(yōu)化基線很容易陷入局部極小值,而且它對初始化非常敏感。相比之下,我們的基于學習的MOCAP模型通過預(yù)訓練(合成數(shù)據(jù))可在測試時提供良好的姿態(tài)初始化。此外,自監(jiān)督適應(yīng)模型比預(yù)訓練的非適應(yīng)模型的3D重建誤差低。最后,我們的ablation研究突出了三種自監(jiān)督損失的互補性。

相關(guān)研究

3D動作捕捉

使用多臺攝像機進行3D動作捕捉(四個或四個以上)是一個已被詳細研究的問題,其中現(xiàn)有的方法取得了令人印象深刻的結(jié)果。然而,即使對于僅有骨架的捕捉/追蹤,單個單目照相機的動作捕捉仍是一個尚待解決的問題。由于單目動作捕捉中的模糊和遮擋可能是嚴重的,大多數(shù)方法依賴于先前的姿勢和動作模型。早期的研究考慮線性動作模型。諸如高斯過程動力學模型、以及雙高斯過程這樣的非線性先驗,都已經(jīng)被提出,并且被證明優(yōu)于其線性對應(yīng)結(jié)構(gòu)。最近,Bogo等人提出了一種靜態(tài)圖像姿勢和3D密集形狀預(yù)測模型,其工作分為兩個階段:首先,從圖像中預(yù)測一個三維人體骨架,然后使用優(yōu)化過程將參數(shù)3D形狀擬合到預(yù)測骨架,在此過程中骨架保持不變。相反,我們的研究通過測試時間適應(yīng),將3D骨架和3D網(wǎng)格估計結(jié)合到一個端到端的可微框架中。

3D人體姿態(tài)評估

早期的3D姿態(tài)評估研究考慮了優(yōu)化方法和硬編碼的擬人約束(anthropomorphic constraints)(例如肢體對稱),以消除2D-to-3D提升期間的模糊性,。許多最近研究使用深度神經(jīng)網(wǎng)絡(luò)和大型監(jiān)督訓練集,對于給定給定RGB圖像,學習直接復(fù)歸為3D人體姿勢。一些研究已經(jīng)探索使用2D身體姿態(tài)作為中間表征,或者作為多任務(wù)設(shè)置中的輔助任務(wù),其中豐富的被標注的2D姿勢訓練實例有助于特征學習,并補充有限的3D人體姿勢監(jiān)督,這需要一個Vicon系統(tǒng),因此被限制只能在實驗室儀器化的環(huán)境中進行。Rogez和Schmid通過將合成的3D人體模型與逼真的背景相結(jié)合,獲得了大規(guī)模的RGB到3D的合成注釋,也在這項研究中使用的數(shù)據(jù)集。

深度幾何學習

我們的可微渲染器遵循最近將深度學習和幾何推理相結(jié)合的研究??晌⒆冃魏涂珊笾脭z像頭投影已經(jīng)被用于學習3D攝像機動作,以及學習一個以端到端的自監(jiān)督的方式進行的3D攝像機和3D物體聯(lián)合動作,從而使光度損失最小化。Garg等人學習單目深度預(yù)測器,由光度誤差監(jiān)督,給定一個立體圖像且已知基線作為輸入?!秅vnn:幾何計算機視覺的神經(jīng)網(wǎng)絡(luò)庫》中貢獻了一個深度學習庫,有許多幾何操作,包括一個可后置的攝像頭投影層,類似于Yan等人和吳等人所使用的攝像頭。

結(jié)論

我們已經(jīng)提出了一個基于學習的用于密集人體3D動作追蹤的模型,用合成數(shù)據(jù)進行監(jiān)督,并并通過動網(wǎng)格、關(guān)鍵點和分割的可微渲染進行自監(jiān)督,并與2D等價量相匹配。我們發(fā)現(xiàn),我們的模型通過使用未標記的視頻數(shù)據(jù)得到了改進,這對于動作捕捉非常有價值,其中,密集3D對照數(shù)據(jù)難以進行標記。未來研究的一個明確方向是對網(wǎng)格參數(shù)的迭代加性反饋,以獲得更高的3D重建精度,然后同樣以自監(jiān)督的方式,在參數(shù)SMPL模型的頂部學習殘差自由形態(tài)變形(residual free formdeformation)。 我們的模型在人類3D姿勢之外的擴展將使神經(jīng)智能體以人類的經(jīng)驗學習3D,而其僅由視頻動作進行監(jiān)督。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 攝像頭
    +關(guān)注

    關(guān)注

    61

    文章

    5119

    瀏覽量

    103552
  • RGB
    RGB
    +關(guān)注

    關(guān)注

    4

    文章

    837

    瀏覽量

    62263

原文標題:卡內(nèi)基梅隆大學提出基于學習的動作捕捉模型,用自監(jiān)督學習實現(xiàn)人類3D動作追蹤

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI智能攝像頭:為低空經(jīng)濟裝上智慧的眼睛

    傳統(tǒng)攝像頭在城市安防中往往只能提供事后取證的價值,而AI智能攝像頭通過集成先進的AI算法,能夠?qū)崟r分析視頻內(nèi)容,主動識別異常情況。
    的頭像 發(fā)表于 04-23 19:08 ?93次閱讀
    AI智能<b class='flag-5'>攝像頭</b>:為低空經(jīng)濟裝上智慧的眼睛

    視覺攝像頭vs毫米波雷達:誰才是全屋智能的“終極眼睛”?

    ”?答案或許并非二選一。一、視覺攝像頭攝像頭的優(yōu)勢無可替代:它能捕捉色彩、紋理、人臉和姿態(tài),實現(xiàn)身份識別、物品檢測甚至表情分析。這種語義級理解能力讓智能家居可以預(yù)
    的頭像 發(fā)表于 04-09 13:55 ?164次閱讀
    視覺<b class='flag-5'>攝像頭</b>vs毫米波雷達:誰才是全屋智能的“終極眼睛”?

    攝像頭可靠性EMC設(shè)計優(yōu)化

    一前言攝像頭作為現(xiàn)代電子設(shè)備的重要組成部分,已廣泛應(yīng)用于智能手機、安防監(jiān)控、自動駕駛等領(lǐng)域。詳細了解攝像頭,不僅有助于我們更好地使用相關(guān)設(shè)備,也為后續(xù)探討其應(yīng)用場景和技術(shù)優(yōu)化奠定了基礎(chǔ),并且能快速
    的頭像 發(fā)表于 04-07 11:34 ?196次閱讀
    <b class='flag-5'>攝像頭</b>可靠性EMC設(shè)計優(yōu)化

    ESP32-S3在初始化攝像頭時檢測到攝像頭模組型號不被支持

    你現(xiàn)在遇到的核心問題是:ESP32-S3在初始化攝像頭時檢測到攝像頭模組型號不被支持(錯誤碼0x106(ESP_ERR_NOT_SUPPORTED)),導(dǎo)致攝像頭探測失敗并觸發(fā)設(shè)備重啟。這個錯誤
    發(fā)表于 02-11 06:38

    Termux手機攝像頭采集圖像/視頻流 部署 YOLO 模型推理

    Termux手機攝像頭采集圖像/視頻流 部署 YOLO 模型推理
    的頭像 發(fā)表于 12-14 07:26 ?3373次閱讀

    智能攝像頭行業(yè)分析:從被動監(jiān)控到主動思考的安全伙伴

    智能攝像頭行業(yè)正經(jīng)歷從基礎(chǔ)智能到高級智能的深刻變革,通過AI大模型賦能、多目成像與高像素技術(shù)升級,逐步實現(xiàn)從"看得見"到"看得懂"的智能化轉(zhuǎn)型。隨著全球消費級市場出貨量突破2億臺、車載攝像頭單車配置
    的頭像 發(fā)表于 12-09 18:14 ?1778次閱讀
    智能<b class='flag-5'>攝像頭</b>行業(yè)<b class='flag-5'>分析</b>:從被動監(jiān)控到主動思考的安全伙伴

    自動駕駛既然有雙目攝像頭了,為什么還要三目攝像頭?

    [首發(fā)于智駕最前沿微信公眾號]在自動駕駛領(lǐng)域,純視覺方案一直受到不少人的認可。雙目攝像頭由于模擬了人眼的工作方式,能夠通過視差計算還原三維信息,在距離判斷和空間感知上具有天然優(yōu)勢,因此被廣泛應(yīng)用于純
    的頭像 發(fā)表于 12-09 08:59 ?1320次閱讀
    自動駕駛既然有雙目<b class='flag-5'>攝像頭</b>了,為什么還要三目<b class='flag-5'>攝像頭</b>?

    車載雙目攝像頭如何“看見”世界?

    源自:網(wǎng)絡(luò) 車載雙目攝像頭(也稱立體視覺攝像頭,Stereo Camera)模仿人眼的視覺機制,通過兩個略有間距的攝像頭同時拍攝同一場景,比較兩幅圖像之間的差異,從而計算出深度信息。 與
    的頭像 發(fā)表于 11-13 09:17 ?1724次閱讀
    車載雙目<b class='flag-5'>攝像頭</b>如何“看見”世界?

    索尼4K超高清攝像頭模塊——FCB-ER8530

    攝像頭
    szxuanzhan
    發(fā)布于 :2025年08月13日 17:12:43

    創(chuàng)世SD NAND貼片卡:智能攝像頭存儲難題的完美解決方案 #人工智能 #智能攝像頭 #攝像頭

    攝像頭
    深圳市雷龍發(fā)展有限公司
    發(fā)布于 :2025年08月05日 11:17:13

    紅外攝像頭模組是什么?科技時代的眼睛

    深入探討紅外攝像頭模組的工作原理、應(yīng)用領(lǐng)域以及選擇紅外攝像頭時需要考慮的因素。什么是紅外攝像頭模組?紅外攝像頭模組是一種能夠捕捉紅外線圖像的
    的頭像 發(fā)表于 07-31 10:07 ?1386次閱讀
    紅外<b class='flag-5'>攝像頭</b>模組是什么?科技時代的眼睛

    【干貨分享】基于QT和ffmpeg硬解碼的多路攝像頭取流

    前言其實官方為我們已經(jīng)提供了三個官方實例,我打開學習了一下,QT實例雖然也用到了信號槽,是點擊按鈕的信號槽,我覺的QT妙就妙在了信號槽和多線程,而且官方的是QT5;多路攝像頭取流案例使
    的頭像 發(fā)表于 07-29 08:05 ?1363次閱讀
    【干貨分享】基于QT和ffmpeg硬解碼的多路<b class='flag-5'>攝像頭</b>取流

    【EASY EAI Orin Nano開發(fā)板試用體驗】--USB攝像頭使用

    .代碼準備與編譯運行 1.代碼準備 代碼使用官方外設(shè)02_camera攝像頭,結(jié)合攝像頭資料,將像素寬高設(shè)為1280*720。。 代碼如下: 2.編譯cd /home/orin-nano/Desktop
    發(fā)表于 07-13 18:21

    【Milk-V Duo S 開發(fā)板免費體驗】4 - OV5647 攝像頭攝像頭測試

    引言 以前使用Milk-V Duo的時候,覺得它的攝像頭支持比較弱,只能支持特定型號的攝像頭,還不好買。我有個學生甚至因為這個原因退出了集創(chuàng)賽。這次特意測試了一下它的攝像頭。 DuoS的攝像頭
    發(fā)表于 07-08 21:26

    廬山派K230可以直接使用usb攝像頭嗎,可以的話攝像頭有啥要求嗎?

    廬山派K230可以直接使用usb攝像頭嗎,可以的話攝像頭有啥要求嗎
    發(fā)表于 06-24 07:07
    盐源县| 屯昌县| 嘉鱼县| 阳新县| 娄底市| 丰镇市| 东阳市| 腾冲县| 唐海县| 会昌县| 康平县| 观塘区| 东莞市| 高要市| 卓资县| 雅江县| 宝应县| 泾川县| 鄄城县| 静安区| 平武县| 读书| 岐山县| 九江县| 呼图壁县| 华阴市| 襄樊市| 梁平县| 杨浦区| 青河县| 山西省| 黑龙江省| 六盘水市| 新巴尔虎左旗| 芷江| 托里县| 平凉市| 会宁县| 东阳市| 循化| 建德市|