案例簡(jiǎn)介
樞途科技(Synapath AI)基于NVIDIA GPU、Jetson AGX Orin等算力底座、成熟的 AI 加速生態(tài)、NVIDIAIsaac Sim、Omniverse平臺(tái)的仿真合成技術(shù),加速了從互聯(lián)網(wǎng)視頻提取具身智能模型訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)了從視頻三維大世界重建、任務(wù)語(yǔ)義信息理解、物體細(xì)節(jié)及軌跡提取、多模態(tài)數(shù)據(jù)采集、具身智能算法訓(xùn)練的全鏈路打通。
在 NVIDIA 軟硬件生態(tài)的支持下,樞途科技整體數(shù)據(jù)提取和處理效率大幅提升,實(shí)現(xiàn)了多具身模型的數(shù)據(jù)訓(xùn)練驗(yàn)證和實(shí)機(jī)部署。
視頻驅(qū)動(dòng)的具身智能新興企業(yè)
樞途科技是一家專(zhuān)注從視頻提取多模態(tài)具身智能訓(xùn)練數(shù)據(jù)的公司,致力于解決具身智能模型行業(yè)當(dāng)前最急迫的訓(xùn)練數(shù)據(jù)缺乏問(wèn)題,以數(shù)據(jù)驅(qū)動(dòng)機(jī)器人智能化。
作為具身智能訓(xùn)練數(shù)據(jù)采集技術(shù)的新興企業(yè),樞途科技憑借視頻高精度三維重建、跨域映射 Re-target 等技術(shù),自研 SynaData 算法,實(shí)現(xiàn)從單目 2D-RGB 視頻數(shù)據(jù)中提取高精度“人-手-物”交互多模態(tài)具身數(shù)據(jù),并在 RDT、EquiBOT、UniVLA 等 VLA 模型上驗(yàn)證了數(shù)據(jù)精度和質(zhì)量。
公司應(yīng)用 NVIDIA GPU 提供的高效并行能力實(shí)現(xiàn)了 2D 視頻到 3D 數(shù)據(jù)的高速重建,以及 3D 數(shù)據(jù)至具身多模態(tài)訓(xùn)練數(shù)據(jù)的高速提取,并將所提取的具身多模態(tài)訓(xùn)練數(shù)據(jù)與 Isaac Sim 平臺(tái)進(jìn)行了融合,實(shí)現(xiàn)了從視頻 3D 重建、軌跡等多模態(tài)數(shù)據(jù)提取、仿真環(huán)境融合、VLA 模型訓(xùn)練的全棧批量化視頻數(shù)據(jù)具身模型訓(xùn)練閉環(huán)。
在 NVIDIA GPU 工作站的高效計(jì)算和多并行能力加持下,以及 Isaac Sim 平臺(tái)的高保真物理仿真和多傳感器仿真環(huán)境支撐下,樞途科技的具身數(shù)據(jù)采集速度提升了 15+ 倍,模型訓(xùn)練速度和落地度提升 60+ 倍。借助 NVIDIA 技術(shù),樞途科技正實(shí)現(xiàn)讓機(jī)器人通過(guò)輸入人類(lèi)視頻學(xué)習(xí)各種操作技能,將具身智能訓(xùn)練范式從勞動(dòng)密集型的“手把手教學(xué)”升級(jí)為高效可擴(kuò)展的“觀看教學(xué)”模式,加速突破具身智能的 Scaling Law。
具身智能領(lǐng)域的三大數(shù)據(jù)困境
數(shù)據(jù)是具身智能的靈魂,但與文本大模型可以直接使用互聯(lián)網(wǎng)上的文本數(shù)據(jù)不同,具身智能行業(yè)目前正深陷數(shù)據(jù)嚴(yán)重不足的泥潭。當(dāng)前行業(yè)所依賴(lài)的數(shù)據(jù)采集方式或純依靠算法生成,存在較大的物理失真;或需要人工操作,以至邊際成本過(guò)高。
視頻數(shù)據(jù)兼具真實(shí)世界的物理完備性、人類(lèi)交互的真實(shí)性和近乎為零的邊際成本,是具身智能大模型的理想數(shù)據(jù)源。但要想實(shí)現(xiàn)從視頻數(shù)據(jù)中提取高質(zhì)量的具身智能訓(xùn)練數(shù)據(jù)還需要克服以下三大挑戰(zhàn):
1. 視頻維度坍塌
單目相機(jī)丟失場(chǎng)景深度維度信息:從單目視頻的 2D 像素流重建 3D 物理世界,本質(zhì)是欠約束的逆向求解過(guò)程。解決此類(lèi)問(wèn)題需要大量依賴(lài)先驗(yàn)知識(shí)(如人體骨骼長(zhǎng)度)反推,并靠大量算力進(jìn)行多并發(fā)推理,否則會(huì)造成較大的數(shù)據(jù)推導(dǎo)誤差,例如人手抓取玻璃杯時(shí),指尖與杯壁接觸點(diǎn)的深度歧義會(huì)導(dǎo)致抓握姿態(tài)誤判率超過(guò) 40%。
物體交互導(dǎo)致的自遮擋:手掌與物體交互時(shí)會(huì)導(dǎo)致 30% 以上關(guān)節(jié)點(diǎn)不可見(jiàn),傳統(tǒng)插值法會(huì)產(chǎn)生累計(jì)誤差,根據(jù) ICRA 2023 基準(zhǔn)測(cè)試數(shù)據(jù),遮擋超過(guò) 5 幀時(shí),軌跡重建的誤差會(huì)呈指數(shù)增長(zhǎng)。
2. 提取精度不足
信號(hào)衰減鏈:包括光學(xué)成像損失、運(yùn)動(dòng)軌跡模糊、傳感器噪聲、算法量化誤差等。例如鏡頭畸變?cè)斐傻膱D像邊緣坐標(biāo)偏移會(huì)導(dǎo)致 3%-8% 的徑向誤差;快速運(yùn)動(dòng)會(huì)造成邊緣定位失敗,一般會(huì)導(dǎo)致不低于 10 像素的位移誤差等。這些挑戰(zhàn)直接影響了從視頻中提取到的軌跡數(shù)據(jù)精度,數(shù)據(jù)精度不足不僅無(wú)法優(yōu)化具身智能模型,反而會(huì)導(dǎo)致模型數(shù)據(jù)污染等問(wèn)題。
3. 算法遷移失真
人體與機(jī)械運(yùn)動(dòng)差異:人體動(dòng)作提取的軌跡數(shù)據(jù)到機(jī)器人執(zhí)行存在較大的動(dòng)力學(xué)代溝。例如人類(lèi)實(shí)現(xiàn)流暢抓取的動(dòng)作由于超出了機(jī)械臂的諧振頻率,其所提取軌跡訓(xùn)練的算法遷移到機(jī)械臂會(huì)出現(xiàn) 10Hz 以上的高頻震顫。要解決這一問(wèn)題,既需要強(qiáng)化學(xué)習(xí)進(jìn)行算法微調(diào),又需要擁有多種動(dòng)力學(xué)參數(shù)擾動(dòng)的虛擬環(huán)境生成目標(biāo)算法的補(bǔ)償策略。
NVIDIA 生態(tài)賦能樞途科技
突破視頻提取具身數(shù)據(jù)技術(shù)鴻溝
基于前述挑戰(zhàn),樞途科技選擇采用 NVIDIA GPU 作為算力硬件基礎(chǔ)加速模型訓(xùn)練和真實(shí)世界視頻數(shù)據(jù)提取,并結(jié)合 Omniverse 和 Isaac Sim 仿真環(huán)境將數(shù)據(jù)應(yīng)用到機(jī)器人訓(xùn)練中,成功攻克 2D 視頻難以被有效用于具身智能模型訓(xùn)練的技術(shù)難題,開(kāi)辟了讓行業(yè)真正有機(jī)會(huì)獲取海量訓(xùn)練數(shù)據(jù)的新渠道。
1. NVIDIA GPU 賦能視頻三維重建提質(zhì)增效
樞途科技采用 NVIDIA GPU 及CUDA進(jìn)行大規(guī)模并行處理計(jì)算。
在 NVIDIA GPU 的高帶寬和高現(xiàn)存容量支持下,原本需要花費(fèi)數(shù)小時(shí)才能實(shí)現(xiàn)的視頻逐幀深度推理被加速在10 分鐘內(nèi)完成。
結(jié)合 NVIDIA GPU 的算力資源和對(duì) CUDA 工具的充分調(diào)用,樞途科技的視頻深度估計(jì)算法可以實(shí)現(xiàn)高效混合精度計(jì)算,吞吐量提升3 倍以上。
在 NVIDIA GPU 的支持下,樞途科技將視頻 3D 重建的欠約束逆問(wèn)題轉(zhuǎn)化為海量先驗(yàn)假設(shè)的并行驗(yàn)證,綜合重建速度提升25 倍以上。
2. NVIDIA SDK 助力高精度軌跡采集
得益于 NVIDIA GPU 在 Tensor Core 與 Transformer Engine 上的原生加速,將 3D 重建、深度估計(jì)和關(guān)鍵點(diǎn)推理等核心環(huán)節(jié)全部固化在顯存端完成,配合 NVIDIA 最新 SDK 構(gòu)建的端到端流水線,樞途科技實(shí)現(xiàn)了單卡視頻處理 FPS15 倍于 Ampere 系列的持續(xù)吞吐。
樞途科技采用 NVIDIA SDK 等生態(tài)實(shí)現(xiàn)了將原本需要數(shù)周才能跑完的海量視頻預(yù)處理,縮減到30 小時(shí)交付,大大加速模型迭代。
基于高速的模型迭代和大量先驗(yàn)知識(shí)的算法化,實(shí)現(xiàn)了視頻軌跡數(shù)據(jù)提取精度突破亞厘米,為后續(xù)具身數(shù)據(jù)提取打下堅(jiān)實(shí)基礎(chǔ)。
3.NVIDIAIsaac Sim 賦能具身算法高效 Re-target
樞途科技從視頻中提取的具身數(shù)據(jù)與 Isaac Sim 進(jìn)行深度融合,借助 Isaac Sim 的高保真物理物理仿真能力,打通具身數(shù)據(jù)與具身模型算法之間的訓(xùn)練通路。
Isaac Sim 內(nèi)包含超千項(xiàng)動(dòng)力學(xué)參數(shù)擾動(dòng),包括摩擦系數(shù)、負(fù)載慣性等,疊加 NVIDIA GPU 高效的實(shí)時(shí)渲染,具身智能的模仿學(xué)習(xí)(IL)、強(qiáng)化學(xué)習(xí)(RL)、具身智能算法(VLA)等先進(jìn)訓(xùn)練算法得以在虛擬環(huán)境中進(jìn)行,現(xiàn)實(shí)世界需要耗費(fèi)數(shù)周時(shí)間、數(shù)十臺(tái)機(jī)器人硬件成本的訓(xùn)練過(guò)程被顛覆。
樞途科技視頻具身數(shù)據(jù)配合 Isaac 的數(shù)據(jù)增擴(kuò)能力,能夠在數(shù)小時(shí)內(nèi)生成海量高質(zhì)量步態(tài)樣本,并支持多機(jī)器人并行訓(xùn)練,使模型收斂速度提升至過(guò)去的數(shù)十倍。
在連續(xù)軌跡優(yōu)化和動(dòng)力學(xué)一致性約束的加持下,學(xué)得的抓取策略更加智能、泛化且穩(wěn)定,幫助夾爪或靈巧手針對(duì)復(fù)雜對(duì)象的抓取位姿推理更加準(zhǔn)確,迅速拓展交互、運(yùn)送、分揀等應(yīng)用場(chǎng)景。
在 NVIDIA GPU、CUDA、SDK 等技術(shù)及生態(tài)的賦能下,樞途科技實(shí)現(xiàn)視頻三維重建、高精度軌跡提取、具身多模態(tài)數(shù)據(jù)采集、具身智能算法訓(xùn)練的全鏈路打通,為具身智能數(shù)據(jù)采集找到高質(zhì)量、低成本、規(guī)?;囊粭l新路。
目前,樞途科技 SynaData 算法從視頻中提取到的具身智能訓(xùn)練數(shù)據(jù)已經(jīng)在 RDT、UniVLA(VLA based)、EquiBOT(Diffusion Policy Based)等具身模型算法上實(shí)現(xiàn)了訓(xùn)練驗(yàn)證。依托 NVIDIA 算力及 Isaac Sim 仿真平臺(tái),樞途科技將為更多具身智能開(kāi)發(fā)企業(yè)、院校批量化交付高保真、低成本、可遷移的視頻具身數(shù)據(jù),助力具身智能模型突破 Scaling Law,實(shí)現(xiàn)真正的通用具身智能。
NVIDIA 加速樞途科技具身模型落地
樞途科技依托 NVIDIA 軟硬件全棧生態(tài)、高性能 AI 加速集群、端到端視頻算子優(yōu)化、Isaac 虛擬仿真環(huán)境,在海量視頻到具身訓(xùn)練的數(shù)據(jù)管線上實(shí)現(xiàn)了行業(yè)領(lǐng)先的高速處理與算法精煉,為行業(yè)探索出了突破具身算法 Scaling Law 的一條數(shù)據(jù)采集新路,樹(shù)立了新興數(shù)據(jù)采集技術(shù)的風(fēng)向標(biāo)。
樞途科技首席技術(shù)官林嘯表示:“隨著具身智能邁入‘?dāng)?shù)據(jù)原生 2.0’時(shí)代,真正規(guī)?;涞氐暮诵钠款i已從模型設(shè)計(jì)轉(zhuǎn)向數(shù)據(jù)采集策略。NVIDIA 強(qiáng)大的 GPU 算力矩陣、AI 加速方案和 SDK 生態(tài)為樞途科技構(gòu)筑了堅(jiān)實(shí)的底層算力底座。在此基礎(chǔ)上,樞途科技得以實(shí)現(xiàn)將數(shù)以?xún)|計(jì)的視頻幀在極短時(shí)間內(nèi)完成三維重建、軌跡提取、自動(dòng)標(biāo)注。借助 NVIDIA Isaac Sim,視頻具身數(shù)據(jù)到具身模型算法訓(xùn)練的最后一公里得以閉環(huán),讓 SynaData 數(shù)據(jù)飛輪真正跑了起來(lái),為行業(yè)驗(yàn)證了具身數(shù)據(jù)采集的新路徑和新范式?!?/p>
在這一技術(shù)協(xié)同下,樞途科技的數(shù)據(jù)流水線可將復(fù)雜的三維場(chǎng)景重建、關(guān)鍵點(diǎn)追蹤與動(dòng)力學(xué)一致性校正全部常駐顯存端執(zhí)行,實(shí)現(xiàn)多倍量級(jí)的吞吐提升;同時(shí),靈活的增擴(kuò)策略與仿真對(duì)齊機(jī)制確保了每一條數(shù)據(jù)都能在虛實(shí)之間保持高度一致,為具身智能模型提供跨場(chǎng)景、跨本體的穩(wěn)健泛化能力。
林嘯強(qiáng)調(diào):“正是 NVIDIA 的算力支撐與樞途科技自主的數(shù)據(jù)基座,讓機(jī)器人擁有快速學(xué)習(xí)、可靠部署的全鏈路能力,并正在為諸多有實(shí)際應(yīng)用落地需求的行業(yè)解鎖數(shù)據(jù)驅(qū)動(dòng)的智能新紀(jì)元?!?/p>
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5696瀏覽量
110138 -
仿真
+關(guān)注
關(guān)注
55文章
4539瀏覽量
138694 -
具身智能
+關(guān)注
關(guān)注
0文章
488瀏覽量
909
原文標(biāo)題:初創(chuàng)加速計(jì)劃 | NVIDIA 全棧技術(shù)加速樞途科技構(gòu)建具身訓(xùn)練數(shù)據(jù)新范式
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
精密感知賦能具身智能:靈途科技高性能傳感器加速機(jī)器人多場(chǎng)景落地
《具身智能發(fā)展報(bào)告(2025年)》
具身智能交流會(huì)
安路科技榮膺2026 IC風(fēng)云榜年度具身智能技術(shù)突破獎(jiǎng)
2025開(kāi)放原子開(kāi)發(fā)者大會(huì)具身智能分論壇成功舉辦
靈途科技亮相NEPCON ASIA 2025 以光電感知點(diǎn)亮具身智能未來(lái)
華為無(wú)線網(wǎng)絡(luò)筑基助力具身智能體驗(yàn)躍遷
靈途科技亮相CIOE2025 | 光電感知賦能具身智能升級(jí)
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+具身智能芯片
智瀚星途多款具身智能新品重磅發(fā)布
寫(xiě)給小白的“具身智能”入門(mén)科普
圖為科技錨定具身智能新時(shí)代:NVIDIA Jetson引領(lǐng)邊緣計(jì)算融合創(chuàng)新
東風(fēng)汽車(chē)加速具身智能領(lǐng)域技術(shù)攻關(guān)
AMTS & AHTE 具身智能成制造升級(jí)新引擎 靈途科技助力更強(qiáng)感知
NVIDIA助力樞途科技突破視頻提取具身數(shù)據(jù)技術(shù)鴻溝
評(píng)論