日韩一页精品乱码,久久久精品少妇人妻

一、黑馬落子：從看見世界到預(yù)見未來

Yann LeCun押注的世界模型路線，一匹深圳黑馬也已提前落子。

他們就是視啟未來——曾打造出全球第一視覺大模型Grounding DINO、DINO-X的那支團(tuán)隊(duì)。

他們并不滿足于「看見世界」，而是正努力把AI進(jìn)一步推向「預(yù)見未來」的能力邊界。

現(xiàn)在，他們押注的是隱空間世界模型。

要知道，LeCun為了這條技術(shù)路線，離開Meta、創(chuàng)辦AMI Labs，完成10.3億美元融資，創(chuàng)下歐洲史上最大種子輪紀(jì)錄。

不同于主流世界模型預(yù)測(cè)下一幀畫面長(zhǎng)什么樣，隱空間世界模型要求AI在更抽象的表征空間里，學(xué)習(xí)動(dòng)作和世界狀態(tài)變化之間的因果規(guī)律。

5月15日，在2026全球人工智能終端展暨第七屆深圳國(guó)際人工智能展覽會(huì)舉辦的「AGI前夜：大模型的覺醒時(shí)刻」論壇上，視啟未來創(chuàng)始人張磊在主題演講中直言：

做世界模型很難，做隱空間世界模型更難，但我們會(huì)知難而進(jìn)。

二、知難而進(jìn)：隱空間世界模型的核心理念與挑戰(zhàn)

隨著人工智能加速?gòu)臄?shù)字世界走向物理世界，智能體面臨的核心任務(wù)已經(jīng)變了。

不僅要「看見」，而且要「預(yù)見」——理解因果關(guān)系，把握時(shí)空動(dòng)態(tài)，在稀疏反饋與復(fù)雜約束下完成規(guī)劃、決策與學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)提供了從交互經(jīng)驗(yàn)中學(xué)習(xí)的基本范式。大語言模型這邊，從ChatGPT應(yīng)用強(qiáng)化學(xué)習(xí)，到o系列模型以及coding能力的突破，本質(zhì)上都是一系列強(qiáng)化學(xué)習(xí)算法應(yīng)用的突破。

但物理世界的樣本效率低、安全約束嚴(yán)、交互成本高、環(huán)境不可重置，單純依賴在線試錯(cuò)的方法，難以擴(kuò)展到真實(shí)場(chǎng)景。

張磊的判斷是，真正的智能不能只停留在「看到當(dāng)前狀態(tài)就輸出動(dòng)作」的層面。

如果沒有對(duì)未來狀態(tài)的預(yù)想、對(duì)行動(dòng)后果的預(yù)判，智能體就無法在物理世界中持續(xù)展開決策鏈條，也難以真正進(jìn)入現(xiàn)實(shí)環(huán)境。

這正是世界模型的意義所在：讓AI從經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)動(dòng)作、狀態(tài)與結(jié)果之間的因果關(guān)系，在行動(dòng)前先「想象」下一步可能發(fā)生什么，為強(qiáng)化學(xué)習(xí)提供可擴(kuò)展的內(nèi)部預(yù)演空間。

在張磊看來，當(dāng)前各種世界模型路線都在不同方向上推進(jìn)得很快。但對(duì)于機(jī)器人和物理智能而言，一個(gè)核心挑戰(zhàn)仍然存在：

模型學(xué)到的究竟是像素級(jí)相關(guān)性，還是可用于規(guī)劃和控制的物理規(guī)律與因果關(guān)系？

模型在像素層面學(xué)習(xí)，很容易被紋理、光照、背景等細(xì)節(jié)干擾，學(xué)習(xí)效率低下，不利于學(xué)習(xí)真實(shí)的因果關(guān)系和物理規(guī)律。

這正是LeCun說「在輸入空間做預(yù)測(cè)是糟糕的」的原因，也是隱空間世界模型的出發(fā)點(diǎn)。

Latent表征的價(jià)值在于，它可以把高維、冗余的視覺輸入壓縮成更抽象的狀態(tài)表示，過濾掉大量與決策無關(guān)的像素細(xì)節(jié)，把學(xué)習(xí)重點(diǎn)放到更本質(zhì)的變化規(guī)律上。

可以說，表征學(xué)習(xí)是世界模型中最為核心的問題。

換句話說，隱空間世界模型不執(zhí)著于「未來畫面長(zhǎng)什么樣」，而更關(guān)注「世界狀態(tài)如何演化」，因此更適合學(xué)習(xí)物理規(guī)律和因果關(guān)系。

三、視覺原生：以物體理解為核心的結(jié)構(gòu)化隱空間

但視啟發(fā)現(xiàn)，現(xiàn)有的隱空間方案還差了關(guān)鍵的一步。

大多數(shù)latent表征雖然脫離了像素，卻并不真正「理解物體」。

如果模型不知道場(chǎng)景里哪些是獨(dú)立物體、物體之間是什么關(guān)系、哪些變化來自視角、哪些變化來自交互，那么它要直接在隱空間中學(xué)習(xí)物理規(guī)律，難度仍然非常高。

原因很簡(jiǎn)單：物理規(guī)律本質(zhì)上并不作用在像素上，而是作用在物體、結(jié)構(gòu)和關(guān)系上。

張磊認(rèn)為，latent表征必須具備理解物體的能力，才能更好地學(xué)習(xí)物理規(guī)律。

視啟的解法是把物體理解能力引入latent表征學(xué)習(xí)中，通過2D感知、3D表征、分割和語義理解，讓latent表征具備「世界由哪些物體構(gòu)成、它們處于什么空間位置、具有什么語義屬性」的基礎(chǔ)認(rèn)知，再進(jìn)一步學(xué)習(xí)動(dòng)作驅(qū)動(dòng)下的狀態(tài)轉(zhuǎn)移和物理演化。

通過引入物體理解的結(jié)構(gòu)信息，模型可以更高效地對(duì)數(shù)據(jù)進(jìn)行壓縮，從海量數(shù)據(jù)中學(xué)到內(nèi)在的、更為本質(zhì)的規(guī)律。

這樣，模型學(xué)習(xí)的不再是黑盒式表征，而是一個(gè)更具對(duì)象性、空間性和物理性的結(jié)構(gòu)化latent世界。

因此，視啟將自己的路線稱為「視覺原生世界模型」，這也是他們和其他隱空間世界模型的關(guān)鍵區(qū)別。

為了實(shí)現(xiàn)真正可落地的物理世界模型，張磊認(rèn)為，這類模型需要同時(shí)具備三個(gè)核心特征：

Object-Centric，以物體為中心。
表征不能停留在像素層面，要具備對(duì)物體的理解能力，能夠識(shí)別世界由哪些對(duì)象構(gòu)成、它們之間如何交互。只有這樣，模型才有可能從海量數(shù)據(jù)中學(xué)習(xí)到更穩(wěn)定、更可泛化的物理規(guī)律，而不是停留在表面的視覺相關(guān)性上。

Ac tion-Aligned，跨本體動(dòng)作對(duì)齊。
把人手動(dòng)作、機(jī)械臂操作以及不同機(jī)器人本體的數(shù)據(jù)對(duì)齊到統(tǒng)一表示空間，從而更高效地利用大量人類交互數(shù)據(jù)，幫助機(jī)器人更快學(xué)會(huì)如何與環(huán)境互動(dòng)。

Causality-Driven，因果驅(qū)動(dòng)。
世界模型要學(xué)的，是「執(zhí)行某個(gè)動(dòng)作之后，世界狀態(tài)將如何變化」。只有具備這種因果建模能力，世界模型才能真正與強(qiáng)化學(xué)習(xí)結(jié)合，支持機(jī)器人在與環(huán)境持續(xù)交互中不斷提升決策、學(xué)習(xí)和泛化能力。

張磊說，視啟對(duì)方向的判斷始終正確，只是賽道的熱鬧程度，確實(shí)超出了當(dāng)初的預(yù)想。

不過，這反而印證了視啟堅(jiān)守隱空間路線的前瞻性——在所有人都往像素空間沖的時(shí)候，視啟已經(jīng)在更難、也更正確的方向上積累了先發(fā)優(yōu)勢(shì)。

四、厚積薄發(fā)：DINO系列奠基，順勢(shì)而上

張磊對(duì)于世界模型的見地，并非空穴來風(fēng)。

背后是視啟長(zhǎng)期構(gòu)建的以物體為中心的視覺理解能力，也是這支團(tuán)隊(duì)數(shù)年的積累。

視啟未來，其核心團(tuán)隊(duì)來自粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院計(jì)算機(jī)視覺與機(jī)器人研究中心（IDEA CVR）孵化的DINO-X團(tuán)隊(duì)。

團(tuán)隊(duì)已連續(xù)推出DINO、Grounding DINO、DINO-X等代表性工作，持續(xù)推動(dòng)開放世界目標(biāo)檢測(cè)與物體級(jí)視覺理解的發(fā)展。

Grounding DINO已成為開放集檢測(cè)的重要里程碑之一，而DINO-X則是面向開放世界物體理解的全球領(lǐng)先視覺大模型。

今年4月，谷歌DeepMind發(fā)表的Vision Banana論文中，多處提到視啟未來的DINO-X模型。這篇論文的署名作者包括何愷明和謝賽寧，在SA-CO/Gold instance segmentation任務(wù)上，強(qiáng)調(diào)DINO-X是zero-shot transfer物體理解的全球SOTA。

此外，DINO系列論文也廣泛被Meta的SAM2/SAM3、阿里的Qwen系列、字節(jié)的Seed系列引用。這反映出視覺物體理解基模門檻極高，依賴強(qiáng)大的視覺基座大模型預(yù)訓(xùn)練能力。

自2023年以來，視啟未來憑借Grounding-DINO與DINO-X系列，在開放物體理解榜單上保持了最長(zhǎng)的連續(xù)領(lǐng)先時(shí)間。

有趣的是，DINO的意思是「恐龍」，恐龍也是這個(gè)團(tuán)隊(duì)各種模型的標(biāo)志。他們還有一個(gè)基于視覺提示做物體檢測(cè)的模型T-Rex2（ECCV 2024），正是恐龍家族的霸王龍。

DINO系列解決的核心問題，正是Object-Centric世界模型最需要的底層能力：讓機(jī)器真正「看懂」世界由哪些物體構(gòu)成、它們?cè)谀睦?、它們之間是什么關(guān)系。

視啟未來的路線，更強(qiáng)調(diào)面向真實(shí)世界交互的Object-Centric表征能力，即圍繞「物體是什么、在哪里、如何被引用、如何與環(huán)境發(fā)生關(guān)系」建立統(tǒng)一建模能力。

在此基礎(chǔ)上，視啟未來不僅在2D物體檢測(cè)與分割、3D物體理解與語義理解上建立了顯著優(yōu)勢(shì)，也持續(xù)向3D動(dòng)作理解延伸，形成了從看見物體，到理解物體，再到理解動(dòng)作與物體交互的完整能力棧。

從這個(gè)意義上說，視啟做世界模型并不是轉(zhuǎn)型，而是在其原有技術(shù)基礎(chǔ)上的順勢(shì)延伸。

單個(gè)模型的成功還能歸因于機(jī)會(huì)，那么連續(xù)做出Grounding DINO、DINO-X等全球領(lǐng)先物體理解視覺基座大模型，更多說明的是團(tuán)隊(duì)底層能力已經(jīng)成型。

對(duì)一家做基礎(chǔ)模型的團(tuán)隊(duì)來說，這意味著它不僅會(huì)「做模型」，更掌握了數(shù)據(jù)組織、預(yù)訓(xùn)練范式、能力遷移和任務(wù)擴(kuò)展的系統(tǒng)方法，這恰恰是基模訓(xùn)練能力最有說服力的體現(xiàn)。

五、從數(shù)據(jù)引擎到OS愿景：世界模型的產(chǎn)業(yè)化路徑

這種能力已經(jīng)開始在產(chǎn)品上體現(xiàn)。5月15日，視啟未來聯(lián)合百度智能云在2026全球人工智能終端展上正式發(fā)布EgoTwin——全球最新的高質(zhì)量Ego人手3D對(duì)齊引擎。

如果說視覺原生世界模型是視啟未來的長(zhǎng)期技術(shù)路線，那么EgoTwin就是這條路線在具身智能數(shù)據(jù)層面的第一個(gè)產(chǎn)品化抓手。

EgoTwin直擊行業(yè)最卡脖子的難題——把人手操作數(shù)據(jù)轉(zhuǎn)化為機(jī)器人能用的訓(xùn)練數(shù)據(jù)，數(shù)據(jù)采集效率是行業(yè)主流方案的3.75倍。

更重要的是，EgoTwin并不只是一個(gè)數(shù)據(jù)采集工具：它一方面把人類Ego操作視頻轉(zhuǎn)化為機(jī)器人可學(xué)習(xí)的數(shù)據(jù)資產(chǎn)，另一方面也為世界模型提供Action-Aligned的訓(xùn)練底座，成為「數(shù)據(jù)引擎—模型迭代—本體落地」閉環(huán)的第一步。

更大的愿景，張磊直言：世界模型將成為物理世界AI的核心基礎(chǔ)設(shè)施。

在他看來，數(shù)字世界中，大語言模型正在承擔(dān)類似于OS（操作系統(tǒng)）的角色，底層是GPU算力，中間是大語言模型，上層是各種各樣的Agent。這條路已經(jīng)被充分驗(yàn)證，無論是Coding領(lǐng)域還是其他Agent形態(tài)，都已經(jīng)證明走得通。

物理世界里，同樣的范式變化正在發(fā)生。只不過，物理世界的基礎(chǔ)設(shè)施除了算力之外，還會(huì)加入機(jī)器人本體。在這一層之上，張磊帶領(lǐng)的世界模型團(tuán)隊(duì)正在打通Learning From Experience的范式，讓機(jī)器人在學(xué)習(xí)過程中變得更加自主、更加高效，由此獲得更強(qiáng)的物理任務(wù)技能。

英偉達(dá)科學(xué)家Jim Fan年初說，下一個(gè)詞預(yù)測(cè)是第一種預(yù)訓(xùn)練范式，現(xiàn)在我們正在經(jīng)歷第二次范式轉(zhuǎn)變：下一個(gè)物理狀態(tài)預(yù)測(cè)。他預(yù)言，2026年將被載入史冊(cè)，成為世界模型為機(jī)器人技術(shù)奠定真正基礎(chǔ)的第一年。

張磊支持這個(gè)判斷，同時(shí)強(qiáng)調(diào)一點(diǎn)：視覺，是物理智能最主要的信息入口，也是通向世界模型的關(guān)鍵優(yōu)勢(shì)方向。

視啟未來長(zhǎng)期積累的檢測(cè)、識(shí)別、分割、跟蹤、3D物體理解、3D動(dòng)作理解與開放世界感知能力，不僅讓機(jī)器更好地「看見」世界，也為其進(jìn)一步建模世界、預(yù)演未來、支撐行動(dòng)提供了堅(jiān)實(shí)基礎(chǔ)。

六、名師高徒：一支能打硬仗的世界級(jí)團(tuán)隊(duì)

要做世界級(jí)的模型，首先得有世界級(jí)的團(tuán)隊(duì)。

視啟未來創(chuàng)始人兼CEO張磊，是這支團(tuán)隊(duì)最重要的底色。

張磊博士師承中國(guó)人工智能奠基人張鈸院士，并曾長(zhǎng)期在計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域世界級(jí)專家、美國(guó)國(guó)家工程院外籍院士沈向洋先生領(lǐng)導(dǎo)下工作。作為IEEE Fellow，他累計(jì)發(fā)表200余篇頂級(jí)會(huì)議和期刊論文，Google Scholar總引用已超過7.3萬次。他曾在微軟亞洲研究院、微軟總部研究院及計(jì)算機(jī)視覺相關(guān)產(chǎn)品部門任首席研究員，帶領(lǐng)研究組從事計(jì)算機(jī)視覺基礎(chǔ)研究及其在大規(guī)模圖像分析、物體檢測(cè)、視覺語言多模態(tài)理解方面的應(yīng)用，研究成果被廣泛用于微軟必應(yīng)搜索及認(rèn)知服務(wù)云計(jì)算平臺(tái)。

值得一提的是，張磊博士深造之前，是國(guó)內(nèi)最早一批參與室內(nèi)移動(dòng)機(jī)器人研究的人員之一。繞了一個(gè)大圈，從機(jī)器人到計(jì)算機(jī)視覺，再?gòu)囊曈X回到機(jī)器人，這條軌跡并非偶然，而是他對(duì)物理世界AI判斷的一貫邏輯在驅(qū)動(dòng)。

2021年，張磊加入IDEA研究院，帶領(lǐng)團(tuán)隊(duì)研發(fā)DINO-X視覺大模型，為機(jī)器賦予物體級(jí)理解能力。隨后其孵化視啟未來，將這套能力推向世界模型賽道。

視啟未來還邀請(qǐng)了張鈸院士、沈向洋院士擔(dān)任科學(xué)顧問。團(tuán)隊(duì)核心成員主要來自清華大學(xué)、微軟、騰訊等頂尖高校與國(guó)內(nèi)外科技大廠。據(jù)視啟透露，團(tuán)隊(duì)中約50%具有清華背景，約20%擁有智能駕駛相關(guān)經(jīng)驗(yàn)，80%為90后青年人才，100%具備海外或國(guó)內(nèi)頭部科技企業(yè)經(jīng)歷。

近期，視啟在北京進(jìn)一步吸引了多位國(guó)內(nèi)機(jī)器人和強(qiáng)化學(xué)習(xí)方向的優(yōu)秀年輕算法人才加入。他們的主動(dòng)選擇加入，本身就是一種投票——投的是視啟在世界模型方向上的技術(shù)判斷，也是他們對(duì)這支團(tuán)隊(duì)能夠再創(chuàng)輝煌的信心。

做世界模型很難，做隱空間世界模型更難。

曾經(jīng)做出世界第一視覺大模型的視啟團(tuán)隊(duì)，正把同樣的信念，押注在隱空間世界模型上。

張磊和他的視啟未來，正走在將隱空間世界模型貫徹到底、知難而進(jìn)的路上。

四信車載通信產(chǎn)品推薦

四信FTV300是一款專為智能車聯(lián)網(wǎng)領(lǐng)域開發(fā)的5G車載網(wǎng)關(guān)，集成了新一代車聯(lián)網(wǎng)通信、定位與邊緣計(jì)算能力，為車輛提供穩(wěn)定可靠的網(wǎng)絡(luò)連接服務(wù)。該產(chǎn)品通過5G蜂窩網(wǎng)絡(luò)和雙頻WiFi構(gòu)建高速數(shù)據(jù)傳輸通道，提供高速、不間斷、安全的網(wǎng)絡(luò)接入，為車輛管理構(gòu)建可靠且易于擴(kuò)展的車聯(lián)網(wǎng)系統(tǒng)，全面提升管理與運(yùn)營(yíng)效率。產(chǎn)品采用抗震設(shè)計(jì)、M12接口及寬電壓輸入，滿足各類車載應(yīng)用場(chǎng)景的需求。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴