日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

普渡機器人正式發(fā)布具身智能大模型PuduFM 1.0

普渡科技 ? 來源:普渡科技 ? 2026-05-15 11:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)語

2026年5月11日,普渡機器人正式發(fā)布具身智能大模型Pudu Foundation Model(PuduFM 1.0)。該模型構(gòu)建了三大核心技術(shù)維度,實現(xiàn)了從“簡單執(zhí)行”向“物理認知”的跨越:對三維空間的深度感知與推理、面向未來的物理狀態(tài)預(yù)測,在真實交互中持續(xù)進化的學(xué)習(xí)機制,基于對物理世界的理解,從而支持異構(gòu)機器統(tǒng)一運行。

全文導(dǎo)覽目錄

1. 具身智能落地困境

2. 讓機器人理解世界

3. 三階段訓(xùn)練法

4. 真實世界數(shù)據(jù)飛輪

5. 打造General Physical Agent

普渡機器人立足真實應(yīng)用場景,致力于研發(fā)能夠勝任超長程任務(wù)、深度融合導(dǎo)航與操作能力,并兼具空間理解與物理直覺的具身大模型。普渡機器人通過廣泛的真實場景覆蓋和數(shù)據(jù)閉環(huán)持續(xù)驅(qū)動模型迭代和世界仿真引擎的演進。在此過程中,具身大模型在仿真與現(xiàn)實環(huán)境的深度交互中不斷進化,賦能千行百業(yè),走進千家萬戶。

1. 具身智能落地困境

1.1 協(xié)作斷層:導(dǎo)航與操作的割裂

在落地的上萬個真實場景中,深刻認識到機器人需要頻繁的移動和操作,兩者無法割裂。當(dāng)前大部分具身大模型為了簡化任務(wù),往往將基座固定,僅僅訓(xùn)練雙臂去執(zhí)行任務(wù)。業(yè)界為了解決這一問題,普遍是將移動與操作拆分成兩個獨立模塊,導(dǎo)航負責(zé)“到達”,操作負責(zé)“執(zhí)行”,二者缺乏統(tǒng)一的決策中樞與反饋閉環(huán)。這種“架構(gòu)性分離”導(dǎo)致機器人在復(fù)雜任務(wù)中出現(xiàn)顯著的行為斷層,難以規(guī)避“到達后無法銜接動作”或“作業(yè)執(zhí)行過程邏輯中斷”等協(xié)同困局。

1.2 操作困境:物理直覺缺失

現(xiàn)有的具身大模型在執(zhí)行任務(wù)時,常因缺乏對三維環(huán)境結(jié)構(gòu)的深度認知,導(dǎo)致機械臂出現(xiàn)脫離目標(biāo)的無效執(zhí)行。表明當(dāng)前的范式尚未建立對三維環(huán)境結(jié)構(gòu)的認知,無法理解“可達性”、“可操作性”等物理約束關(guān)系。更不理解,接觸物體會帶來怎樣的狀態(tài)變化,例如“杯子傾斜45度水會灑出”(重力與流體規(guī)律)、“濕滑的陶瓷盤需要更大夾持力”(摩擦系數(shù)感知)、“海綿受壓形變后重心已偏移”(材料特性理解)。讓機器人在復(fù)雜環(huán)境中淪為“高度近視的操作員”:看得見物體,卻看不懂物理因果;動得了關(guān)節(jié),卻算不準接觸后果。在毫米級精度、柔順控制與接觸動態(tài)場景下,上述問題被無限放大。

1.3 構(gòu)型鴻溝:異構(gòu)數(shù)據(jù)難復(fù)用

在當(dāng)前豐富的跨業(yè)務(wù)的產(chǎn)品矩陣下,當(dāng)前行業(yè)“一機一?!钡难邪l(fā)范式正成為協(xié)同效能的最大桎梏。不同構(gòu)型的機器人各自訓(xùn)練專用模型,模型能力無法跨形態(tài)遷移,知識經(jīng)驗更難以在異構(gòu)本體間共享流通。更深層的危機在于,各場景產(chǎn)生的海量真實數(shù)據(jù)彼此割裂,形成“數(shù)據(jù)孤島”,無法匯聚成合力。這種范式不僅造成研發(fā)資源的重復(fù)投入,更從根本上制約了模型泛化能力的躍遷,數(shù)據(jù)無法協(xié)同,模型便難以進化。

2. 讓機器人理解世界:重塑具身智能新范式

針對上述行業(yè)困境,為提升機器人在復(fù)雜現(xiàn)實場景中的核心價值,普渡機器人正式發(fā)布具身智能大模型Pudu Foundation Model(PuduFM 1.0)。該模型構(gòu)建了三大核心技術(shù)維度,實現(xiàn)了從“簡單執(zhí)行”向“深度認知”的跨越:對三維空間的深度感知與推理、面向未來的物理狀態(tài)預(yù)測,在真實交互中持續(xù)進化的學(xué)習(xí)機制,基于對物理世界的理解,從而支持異構(gòu)機器統(tǒng)一運行。為此,PuduFM1.0采用了分層解耦、協(xié)同進化的系統(tǒng)架構(gòu)。通過模擬生物神經(jīng)系統(tǒng)的“大腦”高層邏輯規(guī)劃與“小腦”底層精細控制的清晰分工,賦予了機器人應(yīng)對復(fù)雜、不確定性場景的卓越魯棒性。

面向未來的物理狀態(tài)預(yù)測:Physical Intuition Model(PIM),專精于物理規(guī)律的隱式表征與建模。PIM 接收規(guī)劃指令及機器人的實時狀態(tài),通過類世界模型架構(gòu)預(yù)演狀態(tài)變化,輸出物理直覺特征(Future Feature)與價值評估(Value)。該模型為動作生成提供“物理直覺”約束,能夠預(yù)判受力后的運動軌跡并評估抓取穩(wěn)定性,使決策具備科學(xué)的前瞻性。

對三維空間的深度感知與執(zhí)行:Vision Language Action(VLA),承擔(dān)實時感知與精細控制。其Visual Language Model處理機器人本體的視覺和語言輸入,并結(jié)合PIM注入的物物理直覺特征(Future Feature)與價值評估(Value),指導(dǎo)Action Expert生成去噪后的精確動作用于最終的執(zhí)行。語言理解、視覺感知與動作控制在同一潛空間對齊,確保"看到即理解,理解即執(zhí)行"。

虛實雙空間的持續(xù)進化:World Model負責(zé)構(gòu)建高保真的數(shù)字仿真環(huán)境(Simulation World),與真實商業(yè)現(xiàn)場(Real World)形成虛實雙數(shù)據(jù)閉環(huán)。在仿真端,千萬級對抗性軌跡預(yù)演生成合成數(shù)據(jù);在現(xiàn)實端,人在環(huán)(Human-in-Loop)機制捕獲修正數(shù)據(jù)。雙源數(shù)據(jù)協(xié)同驅(qū)動 PIM,VLA 的三體進化,推動物理直覺在虛實迭代中實現(xiàn)精度躍遷。

2.1 通用具身基座大模型:Pudu Foundation Model

當(dāng)前世界模型(World Model)和VLA的結(jié)合主要有兩種方式:利用世界模型輸出中間值(操作軌跡),或者使用世界模型預(yù)測狀態(tài)和價值,指導(dǎo)VLA進行后續(xù)動作。但前者丟掉了大量隱式表達的物理信息,后者直接耦合世界模型過于臃腫,真實操作不需要稠密的預(yù)測。為解決這些問題,構(gòu)建了業(yè)內(nèi)首創(chuàng)輕量級的物理直覺驅(qū)動的基座模型Pudu Foundation Model 1.0(PuduFM 1.0),由PIM與VLA深度耦合而成。這并非簡單的模塊化疊加,而是認知層與執(zhí)行層在神經(jīng)層級的表征協(xié)同。PuduFM 1.0 既保留了對復(fù)雜物理因果的深刻洞察,又確保了底層控制的實時性與輕量化,實現(xiàn)了物理理解與精準執(zhí)行的完美閉環(huán)。

PIM是系統(tǒng)的"物理預(yù)言家":隱式、稀疏、具備對未來狀態(tài)的精準推演能力。它不沉迷于像素級的表象復(fù)刻,而是在潛空間(Latent Space)中捕捉物體運動的動力學(xué)本質(zhì)——"杯子傾斜會灑"、"重心偏移會倒"、"摩擦不足會滑"這些物理常識,被編碼為可計算的未來狀態(tài)表征。

VLA則是系統(tǒng)的"多模態(tài)軀干":首次實現(xiàn)語言、視覺、動作三大模態(tài)在統(tǒng)一特征空間內(nèi)的深度對齊。它不再讓機器人"看得見卻聽不懂"或"聽得懂卻動不了",而是讓自然語言指令、視覺場景理解與機器人控制指令在同一語義框架下自由轉(zhuǎn)換。

這套架構(gòu)徹底打通了導(dǎo)航與操作的認知壁壘。無論是穿越酒店長廊的路徑規(guī)劃,還是抓取異形包裹的力控執(zhí)行,背后都是同一套物理規(guī)律在起作用。PIM輸出的稀疏未來預(yù)測,為長達數(shù)小時的導(dǎo)航任務(wù)提供"前瞻視野";VLA則在此基礎(chǔ)上,統(tǒng)一輸出底盤移動與末端操作的融合控制量,讓"走到哪"與"怎么做"無縫銜接。

與此同時,更好的支持了“一腦多形”。無論是配送機器人,清潔機器人,工業(yè)機器人還是具身智能機器人,不同構(gòu)型不再是模型能力的邊界,而是同一大腦在不同物理載體上的具身投射。PIM與VLA的協(xié)同機制,天然具備對異構(gòu)本體的泛化能力,可無縫遷移至各類形態(tài)的機器人。更重要的是,所有機器人在真實場景中產(chǎn)生的海量交互數(shù)據(jù),將匯聚至統(tǒng)一架構(gòu)下形成正向循環(huán):數(shù)據(jù)協(xié)同反哺模型進化,模型進化賦能更多形態(tài),最終實現(xiàn)“一腦多形”的規(guī)?;涞?。

2.1.1直覺引擎:Physical Intuition Model

具身智能需要的模型不是對數(shù)據(jù)的擬合,而是對三維空間的理解,對未來的預(yù)測,構(gòu)建物理直覺。為什么物理直覺如此關(guān)鍵?因為它賦予機器人"預(yù)測未來"的能力。這種直覺不是隨機猜測,而是在潛空間中習(xí)得的動力學(xué),隱性地包含了對空間結(jié)構(gòu)、物理定律的深刻理解。當(dāng)模型能夠基于當(dāng)前狀態(tài)與擬執(zhí)行動作,精準預(yù)測"下一秒物理世界會如何變化",它就不再是簡單模仿訓(xùn)練數(shù)據(jù)的"復(fù)讀機",而是具備"牽引動作執(zhí)行"能力的智能體。這種對物理因果的理解,正是突破泛化瓶頸的關(guān)鍵,面對從未見過的物體形態(tài),只要理解其物理屬性,就能預(yù)判交互后果。

為此,我們開發(fā)了PIM框架。采用因果注意力Transformer(Causal-Attention Transformer)架構(gòu),精準建模現(xiàn)實空間的時序因果特性。通過在編碼器中融入槽注意力(Slot Attention)與圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN),PIM能夠聚焦關(guān)鍵物體,顯式建模物體間的物理交互關(guān)系。

17585880-4d2c-11f1-90a1-92fbcf53809c.png

當(dāng)前業(yè)界許多方案直接復(fù)制World Model的像素級未來預(yù)測,試圖生成下一幀的每一個RGB值。這不僅是對算力的巨大浪費,更是對控制任務(wù)的無關(guān)信息過載。PIM堅決摒棄這種"暴力美學(xué)",轉(zhuǎn)而進行稀疏狀態(tài)預(yù)測,在技術(shù)層面實現(xiàn)了三大核心突破:

算力效能優(yōu)化:通過規(guī)避逐像素的冗余計算,大幅降低了端側(cè)算力負擔(dān),從而支撐更高頻次的實時推理,確保系統(tǒng)響應(yīng)的敏捷性。

控制導(dǎo)向?qū)R:預(yù)測的是狀態(tài)表征而非視覺像素,與控制決策直接相關(guān),避免"看得清卻控不準"的脫節(jié)。

認知本質(zhì)提?。涸跐摽臻g(Latent Space)內(nèi)剝離視覺紋理等表象干擾,精準捕捉物理動力學(xué)本質(zhì),使預(yù)測機制真正服務(wù)于高層決策邏輯。

更重要的是,PIM不僅是"預(yù)言家",更是"評估師"。它輸出的優(yōu)勢評估值(Advantage Value),實時指導(dǎo)VLA生成最優(yōu)動作軌跡。當(dāng)預(yù)測模型識別到預(yù)設(shè)路徑存在碰撞沖突或失穩(wěn)滑脫風(fēng)險時,系統(tǒng)將主動觸發(fā)策略修正,驅(qū)動 VLA 擇優(yōu)選取物理魯棒性更高、更符合動力學(xué)約束的動作方案,從而確保作業(yè)執(zhí)行的高效性與絕對安全性。

2.1.2多模態(tài)VLA:統(tǒng)一語言–視覺–動作三模態(tài)

當(dāng)前主流VLA架構(gòu)存在一個結(jié)構(gòu)性缺陷:語言、視覺、動作三大模態(tài)在獨立的特征空間中處理,導(dǎo)致機器人在推理時出現(xiàn)"模態(tài)錯位",理解指令時停留在語義抽象層,感知環(huán)境時局限于像素特征層,執(zhí)行動作時又落入低維控制層,三者難以形成統(tǒng)一的物理決策流。

鑒于上述問題的分析,我們采用了分層注入機制和漸進式融合機制,讓語言-視覺-動作在統(tǒng)一的潛空間(Latent Space)中實現(xiàn)深度對齊。確保了高層語義意圖能夠無損地轉(zhuǎn)化為底層動力學(xué)指令,使機器人在復(fù)雜交互中具備了“感知即語義、語義即執(zhí)行”的全局一致性。

1831c30e-4d2c-11f1-90a1-92fbcf53809c.png

物理直覺引導(dǎo)

作為執(zhí)行層的核心約束,PIM 將物理直覺未來特征(Future Feature)與價值評估(Value)轉(zhuǎn)化為高維先驗知識。通過分層注入機制,這些物理先驗深度融入 VLA 的決策流,為動作生成提供底層的物理合理性約束,確保每一個動作指令均符合動力學(xué)邏輯。

語言-視覺的層級編碼

VLM對視覺、語言及機器人狀態(tài)輸入進行多尺度編碼,其中低層特征捕捉紋理與幾何細節(jié),高層特征提取任務(wù)語義與意圖理解。更具突破性的是,VLM建立了統(tǒng)一的注意力表征空間:通過交叉注意力機制,模型將PIM的輸出作為關(guān)鍵特征向量,與視覺、語言特征深度融合。這一機制確保模型生成輸出特征時,能夠協(xié)同整合物理先驗與實時感知信息,顯著提升決策魯棒性與物理一致性。

動作的漸進生成

VLM的輸出特征通過漸進式融合的形式逐步融合到動作生成模型(Action Expert)中。帶有噪聲的動作經(jīng)歷了一個從粗到細的去噪過程:高層語義特征先確立動作的意圖框架,低層視覺特征再精化末端執(zhí)行器軌跡,物理直覺特征則持續(xù)監(jiān)督動作的物理可行性。同時,在訓(xùn)練階段我們保留離散的動作輸出,用于約束多模態(tài)潛空間的一致性。

這種"語義定方向、視覺控細節(jié)、物理守約束"的層級化信息流動,使生成的動作不再是模態(tài)間的生硬拼接,而是在統(tǒng)一潛空間中涌現(xiàn)的合理決策。機器人真正實現(xiàn)了"看懂"場景上下文、"理解"任務(wù)意圖、"生成"符合物理直覺的流暢動作。

2.2 進化飛輪:基于強化學(xué)習(xí)的策略提升

具身智能的本質(zhì)并非海量數(shù)據(jù)的機械擬合,而是在“預(yù)見—驗證—糾錯”的循環(huán)迭代中,構(gòu)建雙閉環(huán)數(shù)據(jù)飛輪:

數(shù)字孿生閉環(huán):利用基于Diffusion Transformer 架構(gòu)的 World Simulator進行高保真環(huán)境模擬與多概率路徑預(yù)演,為模型提供大規(guī)模、高多樣性的仿真環(huán)境。

物理交互閉環(huán):通過真實場景的部署反饋與人在環(huán)(Human-in-Loop)機制,精準捕捉并修正現(xiàn)實作業(yè)中的邏輯偏差。

兩個閉環(huán)深度耦合,共享同一套策略網(wǎng)絡(luò)PuduFM 1.0,實現(xiàn)了仿真數(shù)據(jù)與真機數(shù)據(jù)在特征空間的無縫對齊。這一架構(gòu)使PuduFM 1.0擺脫了對海量真機數(shù)據(jù)的過度依賴,在持續(xù)迭代中實現(xiàn)了物理直覺的精細化與認知能力的快速躍遷。

2.2.1 虛擬淬煉:在構(gòu)建的世界模擬器中預(yù)演未來

普渡機器人突破傳統(tǒng)具身智能對實體硬件的強依賴。基于橫跨工業(yè)、倉儲、商超、餐飲、酒店等20余類行業(yè)積累的多模態(tài)數(shù)據(jù)資產(chǎn),我們將World Simulator演進為高保真物理推演引擎。在純數(shù)字隱空間(Latent Space)內(nèi),系統(tǒng)以歷史觀測序列與動作/文本條件為輸入,運用Diffusion Transformer精確預(yù)測未來狀態(tài);通過獎勵評估頭(Reward Head)對生成向量實時打分,自主篩選并保留高成功率的執(zhí)行軌跡。

針對數(shù)小時級別的長程任務(wù),World Simulator在時序維度進行了深度優(yōu)化。面對復(fù)雜的巡檢或配送場景,模型能夠精準預(yù)判關(guān)鍵決策點的物理狀態(tài)變遷——無論是貨架轉(zhuǎn)角的動力學(xué)約束,還是高密度客流下的動態(tài)避障策略。推演軌跡匯入仿真采樣數(shù)據(jù)緩沖池(Simulation Rollout Data Buffer),系統(tǒng)主動生成“接觸失效”、“突發(fā)障礙”等對抗性極端的場景,持續(xù)產(chǎn)出具有高商業(yè)價值的合成數(shù)據(jù)流。

這種以仿真替代實體采集的訓(xùn)練模式,不僅顯著降低了研發(fā)成本,更憑借對20多個行業(yè)深度場景邏輯的精準建模,讓機器人在部署前完成數(shù)百萬次虛擬演練與邏輯淬煉,確保算法在真實場景中的極速適配與穩(wěn)定落地。

2.2.2 真實校準:“人在環(huán)”極速進化

仿真是預(yù)演,而非終局。當(dāng)機器人進入全球化渠道覆蓋的真實商業(yè)現(xiàn)場,系統(tǒng)將激活延遲低于100ms的人在環(huán)進化機制。在復(fù)雜物理環(huán)境中,機器人持續(xù)采集多模態(tài)觸覺反饋與軌跡偏差數(shù)據(jù)。

針對長尾場景中的非預(yù)期工況,無論是異形包裹的抓取失穩(wěn),還是極端動態(tài)障礙的規(guī)避挑戰(zhàn),人類專家可通過低延遲遙操作通道即時接管。專家在毫秒級響應(yīng)中完成毫米級位姿修正,而每一次人工介入均會被真實場景數(shù)據(jù)緩沖池(Real World Rollout Data Buffer)完整記錄。這些數(shù)據(jù)被結(jié)構(gòu)化存儲為“狀態(tài)-動作-修正”三元組,進而轉(zhuǎn)化為極具價值的負樣本與專家示范數(shù)據(jù)。

這些源自一線商業(yè)實況的真實交互數(shù)據(jù)實時回流至訓(xùn)練資源池,不僅持續(xù)優(yōu)化World Simulator的物理模擬精度,更推動PGAFM架構(gòu)向高成功率快速收斂。通過這種“現(xiàn)場即訓(xùn)練場”的閉環(huán)設(shè)計,普渡機器人已成功驗證:僅需不足50條專家軌跡,即可實現(xiàn)新任務(wù)的高效適配,顯著提升了具身智能的商業(yè)化落地速度。

3. 三階段訓(xùn)練法

為了真正實現(xiàn)可泛化的通用動作專家,我們提出了獨特的三段式訓(xùn)練法,如下圖所示,雪花()代表凍結(jié),火()代表可訓(xùn)練。

1917fe46-4d2c-11f1-90a1-92fbcf53809c.jpg

3.1 預(yù)訓(xùn)練:海量數(shù)據(jù)中構(gòu)建物理常識與多模態(tài)基礎(chǔ)

第一階段,大部分模塊均處于訓(xùn)練更新狀態(tài),包括PIM、VLM、World Simulator。訓(xùn)練的目標(biāo)是利用海量、跨模態(tài)的互聯(lián)網(wǎng)數(shù)據(jù),第一人稱操作數(shù)據(jù),為模型注入物理常識和多模態(tài)理解能力。具體而言,在大規(guī)模圖文對上學(xué)習(xí)視覺與語言的聯(lián)合表征;PIM通過分析海量視頻數(shù)據(jù),以自監(jiān)督方式內(nèi)化物體運動規(guī)律、物理交互等“世界常識”;這一階段的數(shù)據(jù)主要是無標(biāo)注的圖文對和視頻數(shù)據(jù),規(guī)模龐大,讓模型成為一個擁有廣泛知識的“通才”,為后續(xù)的動作學(xué)習(xí)奠定認知基礎(chǔ)。

3.2 基于World Simulator的強化學(xué)習(xí):在虛擬世界中打磨決策能力

進入第二階段,模型被放置在一個高度仿真的World Simulator中進行強化學(xué)習(xí)。此時,為了保留預(yù)訓(xùn)練階段習(xí)得的通用知識并專注于策略優(yōu)化,我們采用模塊化凍結(jié)策略:PIM,VLM均被凍結(jié),不再更新;而僅更新Action Expert模塊。通過強化學(xué)習(xí),模型在與模擬器的交互中不斷試錯,學(xué)習(xí)如何根據(jù)指令完成具體動作任務(wù)(如抓取、導(dǎo)航)。此階段依賴的數(shù)據(jù)來自可交互的物理仿真環(huán)境,它提供了無限且安全的練習(xí)場景,使模型快速成長為某一領(lǐng)域的“動作專家”。

3.3 基于Real World交互的迭代學(xué)習(xí):在人類反饋中持續(xù)進化與校準

第三階段將模型部署到真實物理世界,并引入人在環(huán)的反饋機制。為了適應(yīng)真實世界與模擬環(huán)境之間的差異,我們利用真實反饋的數(shù)據(jù)更新PIM和World Simulator。這樣設(shè)計的目的是讓模型的核心物理預(yù)測能力根據(jù)真實交互數(shù)據(jù)進行調(diào)整,從而校準對重力、摩擦、材料特性等真實物理規(guī)律的認知,同時避免其他模塊的災(zāi)難性遺忘?;谖⒄{(diào)后的PIM可以進一步提升Action Expert。整個過程形成了“模擬預(yù)訓(xùn)練—真實微調(diào)—人類反饋”的閉環(huán),讓模型從一個“紙上談兵”的專家進化成能夠適應(yīng)復(fù)雜真實環(huán)境的“實戰(zhàn)派”。最后基于更新的World Simulator又可以進一步在階段2中進行仿真優(yōu)化,在“虛實結(jié)合”的框架下持續(xù)學(xué)習(xí)。

4. 真實世界數(shù)據(jù)飛輪:構(gòu)筑物理智能的護城河

具身智能模型能力的上限,取決于數(shù)據(jù)的規(guī)模和質(zhì)量。因此數(shù)據(jù)質(zhì)量與獲取效率,決定了迭代的速度。普渡機器人依托全球化的商業(yè)布局與深厚的場景滲透,構(gòu)建起業(yè)內(nèi)最龐大的真實世界數(shù)據(jù)資產(chǎn),這不僅是數(shù)量的堆砌,是獲取效率,質(zhì)量的碾壓。

4.13650萬小時導(dǎo)航數(shù)據(jù)

作為全球范圍內(nèi)擁有最多機器人導(dǎo)航數(shù)據(jù)資產(chǎn)的具身智能公司。公司數(shù)據(jù)版圖橫跨全球80多個國家,覆蓋工業(yè)、倉儲、商超、餐廳、酒店等20多個行業(yè)的3D場景,沉淀了100余種不同任務(wù)類型的復(fù)雜環(huán)境交互數(shù)據(jù)。

依托部署在全球的13萬臺商用機器人,每年累計生產(chǎn)達3650萬小時真實的,有效的,多樣的導(dǎo)航數(shù)據(jù)。這不僅是數(shù)字的累積,更是真實物理世界的不同人機交互,不同空間結(jié)構(gòu)下的密集采樣。與此同時,普渡機器人每年以60%的速度增長,深入更多細分行業(yè)。每年新增的機器預(yù)計可以增加842萬小時的數(shù)據(jù)。這不簡單是數(shù)據(jù)規(guī)模的擴大,是更復(fù)雜業(yè)務(wù)場景,更復(fù)雜的人機交互,更豐富的空間結(jié)構(gòu)和動態(tài)場景帶來的數(shù)據(jù)多樣性的極大增加。

自動駕駛行業(yè)作為對比,最新行業(yè)公開的自動駕駛數(shù)據(jù)集NVIDIA Physical AV Dataset,大概真實駕駛時長1727小時,我們每年真實環(huán)境中產(chǎn)生的數(shù)據(jù)相當(dāng)于公開數(shù)據(jù)集的20000倍以上。Tesla有數(shù)十億公里的駕駛數(shù)據(jù),我們根據(jù)機器人平均運行時速0.8m/s(2.88km/h),單年生產(chǎn)大概1億公里的數(shù)據(jù)。這在具身智能機器人公司里面遙遙領(lǐng)先。

盡管導(dǎo)航數(shù)據(jù)不能直接遷移至操作技能訓(xùn)練,但其戰(zhàn)略價值無可替代:這些數(shù)據(jù)源于真實場景采集、機器人第一視角、真實傳感器的原始信號,相較于互聯(lián)網(wǎng)視頻數(shù)據(jù),具有極小的領(lǐng)域鴻溝(Domain Gap)?;ヂ?lián)網(wǎng)視頻是人類視角的“旁觀者記錄”,而導(dǎo)航數(shù)據(jù)是機器人本體的“親歷者記憶”——包含真實的深度信息、運動畸變、光照變化與空間尺度感。這種“原生機器人視角”的數(shù)據(jù),對于訓(xùn)練具備物理一致性的世界模型而言,是不可替代的黃金資產(chǎn)。

4.21580萬小時操作數(shù)據(jù)

在操作數(shù)據(jù)層面,我們堅信“規(guī)?;迸c“低成本”是數(shù)據(jù)飛輪轉(zhuǎn)動的關(guān)鍵,而真正讓機器人建立物理直覺的,并不是刻意設(shè)計的數(shù)據(jù),而是“人無感操作”的真實交互數(shù)據(jù)。

當(dāng)前數(shù)據(jù)主要來源:

第一層:互聯(lián)網(wǎng)數(shù)據(jù)。缺乏物理交互細節(jié),無法支撐精細操作,適合作為冷啟動,幫助模型快速建立基礎(chǔ)概念。需要量級大概在數(shù)百萬到數(shù)千萬視頻。

第二層:仿真數(shù)據(jù)。數(shù)據(jù)量大,但受限于仿真與現(xiàn)實的鴻溝,導(dǎo)致復(fù)雜任務(wù)真實世界效果不佳,但伴隨World Simulator迭代,主要用于強化學(xué)習(xí)(RL)的“虛擬練兵”。

第三層:無感采集。需要對數(shù)據(jù)進行映射到機器人上,但動作都是來自真實工作流程中的自然操作,這類數(shù)據(jù)天然內(nèi)涵了豐富的物理規(guī)律信息。

第四層:手持采集。數(shù)據(jù)后處理難度低,但存在嚴重缺陷:由于末端執(zhí)行器構(gòu)型與人手差異,操作者會下意識改變動作習(xí)慣以適應(yīng)設(shè)備,導(dǎo)致依賴人類物理直覺的“自然操作”數(shù)據(jù)變形失真。

第五層:遙操數(shù)據(jù)。行業(yè)目前主流方案,但成本高昂、效率低下。采集員一天工作8小時,僅能獲得約4小時有效數(shù)據(jù),且人力成本極高,只適合單任務(wù)微調(diào)的“精修階段”。

通過對行業(yè)的深入洞察以及對技術(shù)的深刻剖析,普渡機器人提出了以人類視頻和機器人視頻數(shù)據(jù)為根基的數(shù)據(jù)金字塔體系。

其中“無感采集”,我們認為是數(shù)據(jù)破局之道。依托在20多個行業(yè)的深厚落地優(yōu)勢,我們聯(lián)合全球渠道伙伴與客戶,部署無感化的數(shù)據(jù)采集設(shè)備。操作人員無需改變?nèi)粘9ぷ髁?xí)慣,在日常作業(yè)中即可完成數(shù)據(jù)收集——每人每天可產(chǎn)生6小時有效數(shù)據(jù),單人年產(chǎn)1580小時。通過生態(tài)協(xié)作,將快速聚合1000個合作伙伴,每個伙伴10名操作員,即可形成每年1580萬小時的操作數(shù)據(jù)洪流。同時,合作伙伴每年30%的增加,每年新增474萬小時的真實操作數(shù)據(jù)。目前已知的最大數(shù)據(jù)規(guī)模,是Gen-1公布的在一個50萬小時的真實世界操作軌跡上訓(xùn)練。普渡機器人每年數(shù)據(jù)獲取規(guī)模是當(dāng)前公布的最大的機器人操作數(shù)據(jù)規(guī)模的58倍。

這種“場景即采集、工作即數(shù)據(jù)”的模式,不僅將數(shù)據(jù)采集成本降低一個數(shù)量級,更確保了數(shù)據(jù)的物理真實性與動作自然度,讓機器人在海量真實交互中,真正習(xí)得人類的物理直覺。依賴大量的無感采集數(shù)據(jù),PuduFM會學(xué)習(xí)到大量的先驗知識和操作概念。在此基礎(chǔ)上,通過共建數(shù)據(jù)采集工廠的方式,快速積累起數(shù)萬小時的高質(zhì)量真機數(shù)據(jù),為垂類應(yīng)用奠定了基礎(chǔ)。此外,為了解決落地最后一公里的問題,普渡機器人提出了利用糾正數(shù)據(jù)和故障數(shù)據(jù)進行強化學(xué)習(xí)微調(diào)的學(xué)習(xí)范式,支持大規(guī)模機器人在線分布式策略更新和持續(xù)進化。

5. 打造General Physical Agent,服務(wù)行業(yè),走進生活

普渡機器人具身智能的目標(biāo),不是單點能力的提升,而是讓機器開始理解物理世界的運行方式。通過創(chuàng)新性的PIM,VLA的深度協(xié)同統(tǒng)一框架,以及虛實雙空間的數(shù)據(jù)閉環(huán),打通了“規(guī)劃—預(yù)測—執(zhí)行”的完整鏈路,讓機器人能夠在真實環(huán)境中完成跨小時的復(fù)雜任務(wù),在變化中持續(xù)修正,在不確定中穩(wěn)定運行。

更重要的是,依托全球真實場景的持續(xù)沉淀與高速增長的數(shù)據(jù)飛輪,PuduFM1.0并不是一次性的能力釋放,而是一個不斷進化的系統(tǒng)。在每一次真實交互中變得更穩(wěn)、更準、更懂世界。當(dāng)機器人開始理解空間、預(yù)見物理結(jié)果并主動修正行為,它就不再只是執(zhí)行工具,而成為長期協(xié)作,持續(xù)創(chuàng)造價值的通用物理智能體(General Physical Agent)。

普渡機器人將以領(lǐng)先的技術(shù)能力與真實世界數(shù)據(jù)壁壘,將持續(xù)推進具身基座大模型的創(chuàng)新和產(chǎn)業(yè)生態(tài)合作,打造面向廣泛場景的General Physical Agent。既深入千行百業(yè),推動規(guī)模化落地;也走進大眾生活, 融入日常場景與人協(xié)作。

關(guān)于普渡機器人

深圳市普渡科技股份有限公司,簡稱“普渡機器人(Pudu Robotics)”,是全球商用服務(wù)機器人領(lǐng)導(dǎo)者,致力于打造全球性的智能機器人基礎(chǔ)設(shè)施,讓機器人服務(wù)100億人。基于“具身導(dǎo)航、具身操作、具身交互”三大具身智能技術(shù)棧,普渡實現(xiàn)“一腦多形”技術(shù)架構(gòu),并率先在行業(yè)內(nèi)完成專用、類人形和人形機器人全形態(tài)布局。普渡機器人已構(gòu)建配送、清潔、工業(yè)和通用具身智能四條產(chǎn)品線,產(chǎn)品廣泛應(yīng)用于零售、酒店、工業(yè)、倉儲物流、餐飲、物業(yè)地產(chǎn)保潔、醫(yī)療、娛樂體育、教育、公共交通與服務(wù)等多個行業(yè),業(yè)務(wù)遍及全球80多個國家,截至2025年底累計出貨量超12萬臺。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    214

    文章

    31585

    瀏覽量

    224172
  • 普渡科技
    +關(guān)注

    關(guān)注

    0

    文章

    197

    瀏覽量

    4199
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3842

    瀏覽量

    5289

原文標(biāo)題:普渡機器人正式發(fā)布具身智能大模型PuduFM 1.0

文章出處:【微信號:pudutech,微信公眾號:普渡科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    星源智機器人榮獲LeadeRobot 2026年度智能模型架構(gòu)引擎獎

    近日,以“競逐人形萬億賽道?重塑未來產(chǎn)業(yè)新紀元”為主題的第三屆中國智能與人形機器人產(chǎn)業(yè)大
    的頭像 發(fā)表于 05-12 17:35 ?1126次閱讀

    智能工業(yè)機器人任務(wù)規(guī)劃大模型GRID:重塑柔性制造的“核心大腦”

    當(dāng)前制造業(yè)面臨多品種、小批量需求與傳統(tǒng)機器人剛性自動化之間的核心矛盾。智能工業(yè)機器人因其自主規(guī)劃與執(zhí)行能力成為破局關(guān)鍵,而任務(wù)規(guī)劃正是其
    的頭像 發(fā)表于 05-09 18:05 ?1062次閱讀

    普渡機器人正式發(fā)布全新一代人形機器人PUDU D9

    普渡機器人正式發(fā)布全新一代人形機器人 PUDU D9。作為普渡
    的頭像 發(fā)表于 05-07 15:40 ?156次閱讀

    一文厘清:智能與人形機器人的技術(shù)邊界與差異

    一、定義 1. 智能 智能是通過物理實體與真實環(huán)境交互,實現(xiàn)感知、決策、執(zhí)行、反饋閉環(huán)的
    的頭像 發(fā)表于 04-29 11:23 ?373次閱讀

    破解柔性生產(chǎn)難題:知識驅(qū)動智能工業(yè)機器人的實戰(zhàn)應(yīng)用指南

    在工業(yè)4.0邁向工業(yè)5.0的進程中,傳統(tǒng)的“固定編程”機器人已無法滿足多品種、小批量、高柔性的生產(chǎn)需求。隨著人工智能與大模型技術(shù)的爆發(fā),
    的頭像 發(fā)表于 03-06 15:49 ?341次閱讀
    破解柔性生產(chǎn)難題:知識驅(qū)動<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>工業(yè)<b class='flag-5'>機器人</b>的實戰(zhàn)應(yīng)用指南

    我國首個人形機器人智能標(biāo)準體系發(fā)布,靈境智源參與編制

    2026年2月28日,人形機器人智能標(biāo)準化(HEIS)年會在北京召開。會上正式發(fā)布《人形機器人
    的頭像 發(fā)表于 03-04 17:27 ?726次閱讀

    智能交流會

    。展會匯聚 90%+ 核心部件國產(chǎn)化供應(yīng)鏈,可快速實現(xiàn)技術(shù)落地,坐享粵港澳大灣區(qū) “機器人谷” 核心紅利。 2 、同期多展聯(lián)動 與工業(yè)自動化展、機器視覺展同期舉辦,形成 “感知(視覺)→決策(
    發(fā)表于 01-22 09:55

    資訊速遞 | 智能PMC(籌)發(fā)布“零成本”開源鴻蒙智能機器人系統(tǒng)

    ,開源鴻蒙智能PMC(籌)在元旦發(fā)布了開發(fā)者可使用的機器人開發(fā)環(huán)境。 “零元購” 開源鴻蒙
    的頭像 發(fā)表于 01-05 16:24 ?943次閱讀
    資訊速遞 | <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>PMC(籌)<b class='flag-5'>發(fā)布</b>“零成本”開源鴻蒙<b class='flag-5'>智能</b><b class='flag-5'>機器人</b>系統(tǒng)

    【前瞻技術(shù)布局】咖啡機器人智能技術(shù)首階段探索與實踐

    -動作”大模型等方法研究。本文主要以第一階段 咖啡機器人 任務(wù)場景為切入點,來闡述所取得的技術(shù)突破,以及后續(xù)技術(shù)優(yōu)化方向。如下是機器人全程自主完成打咖啡的視頻。 二、問題定義和路徑選擇
    的頭像 發(fā)表于 12-23 18:56 ?212次閱讀
    【前瞻技術(shù)布局】咖啡<b class='flag-5'>機器人</b>:<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>技術(shù)首階段探索與實踐

    普渡機器人智能產(chǎn)品矩陣亮相第138屆廣交會

    10月15日至19日,第138屆中國進出口商品交易會(簡稱“廣交會”)在廣州盛大舉行,全球服務(wù)機器人領(lǐng)軍企業(yè)普渡機器人攜「全品類、多形態(tài)」
    的頭像 發(fā)表于 10-23 12:47 ?709次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+智能芯片

    。 決策層: 決策層是智能的第三個主要層次,負責(zé)根據(jù)已有信息做出決策或行動。 包括各種規(guī)則引擎、決策配套系統(tǒng)等。它的作用是根據(jù)已有信息做出最優(yōu)決策或行動。決策層可以使用各種控制器,如機器人
    發(fā)表于 09-18 11:45

    機器人十大發(fā)展趨勢

    在2025世界機器人大會開幕式上發(fā)布了《2025智能機器人十大發(fā)展趨勢》,以下為全文。趨勢一
    的頭像 發(fā)表于 08-12 13:22 ?2179次閱讀
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>機器人</b>十大發(fā)展趨勢

    普渡機器人閃耀2025世界機器人大會,全形態(tài)智能產(chǎn)品矩陣震撼首秀

    有限公司(簡稱“普渡機器人”)攜其突破性的全形態(tài)智能產(chǎn)品矩陣重磅參展,成為本屆展會關(guān)注的焦點之一。 本次盛會,
    的頭像 發(fā)表于 08-11 14:46 ?1307次閱讀
    <b class='flag-5'>普渡</b><b class='flag-5'>機器人</b>閃耀2025世界<b class='flag-5'>機器人</b>大會,全形態(tài)<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>產(chǎn)品矩陣震撼首秀

    瑞可達榮獲智能機器人技術(shù)先鋒獎

    近日,“2025年(第二屆)“智能機器人場景應(yīng)用生態(tài)大會暨
    的頭像 發(fā)表于 06-16 18:09 ?1506次閱讀
    包头市| 和田市| 朝阳市| 博湖县| 吴桥县| 惠州市| 永清县| 石柱| 郴州市| 五大连池市| 竹山县| 伊金霍洛旗| 河西区| 五大连池市| 清原| 清流县| 博客| 丰台区| 滨海县| 前郭尔| 威宁| 东方市| 花莲市| 庆元县| 台北县| 海淀区| 长丰县| 湖口县| 宣化县| 通化市| 平谷区| 郎溪县| 武穴市| 阜城县| 交城县| 迁西县| 桐柏县| 彭水| 湛江市| 南澳县| 汕尾市|