日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

「視覺原生」破局:視啟未來的隱空間世界模型,與物理世界AI的OS野心

嚴(yán)冠君 ? 來源:jf_93370094 ? 作者:jf_93370094 ? 2026-06-04 15:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、黑馬落子:從看見世界到預(yù)見未來

Yann LeCun押注的世界模型路線,一匹深圳黑馬也已提前落子。

他們就是視啟未來——曾打造出全球第一視覺大模型Grounding DINO、DINO-X的那支團(tuán)隊(duì)。

他們并不滿足于「看見世界」,而是正努力把AI進(jìn)一步推向「預(yù)見未來」的能力邊界。

現(xiàn)在,他們押注的是隱空間世界模型。

要知道,LeCun為了這條技術(shù)路線,離開Meta、創(chuàng)辦AMI Labs,完成10.3億美元融資,創(chuàng)下歐洲史上最大種子輪紀(jì)錄。

不同于主流世界模型預(yù)測(cè)下一幀畫面長(zhǎng)什么樣,隱空間世界模型要求AI在更抽象的表征空間里,學(xué)習(xí)動(dòng)作和世界狀態(tài)變化之間的因果規(guī)律。

5月15日,在2026全球人工智能終端展暨第七屆深圳國(guó)際人工智能展覽會(huì)舉辦的「AGI前夜:大模型的覺醒時(shí)刻」論壇上,視啟未來創(chuàng)始人張磊在主題演講中直言:

做世界模型很難,做隱空間世界模型更難,但我們會(huì)知難而進(jìn)。

wKgZPGohKtGATMlMAAgRNODPtX0674.png

二、知難而進(jìn):隱空間世界模型的核心理念與挑戰(zhàn)

隨著人工智能加速?gòu)臄?shù)字世界走向物理世界,智能體面臨的核心任務(wù)已經(jīng)變了。

不僅要「看見」,而且要「預(yù)見」——理解因果關(guān)系,把握時(shí)空動(dòng)態(tài),在稀疏反饋與復(fù)雜約束下完成規(guī)劃、決策與學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)提供了從交互經(jīng)驗(yàn)中學(xué)習(xí)的基本范式。大語言模型這邊,從ChatGPT應(yīng)用強(qiáng)化學(xué)習(xí),到o系列模型以及coding能力的突破,本質(zhì)上都是一系列強(qiáng)化學(xué)習(xí)算法應(yīng)用的突破。

但物理世界的樣本效率低、安全約束嚴(yán)、交互成本高、環(huán)境不可重置,單純依賴在線試錯(cuò)的方法,難以擴(kuò)展到真實(shí)場(chǎng)景。

張磊的判斷是,真正的智能不能只停留在「看到當(dāng)前狀態(tài)就輸出動(dòng)作」的層面。

如果沒有對(duì)未來狀態(tài)的預(yù)想、對(duì)行動(dòng)后果的預(yù)判,智能體就無法在物理世界中持續(xù)展開決策鏈條,也難以真正進(jìn)入現(xiàn)實(shí)環(huán)境。

這正是世界模型的意義所在:讓AI從經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)動(dòng)作、狀態(tài)與結(jié)果之間的因果關(guān)系,在行動(dòng)前先「想象」下一步可能發(fā)生什么,為強(qiáng)化學(xué)習(xí)提供可擴(kuò)展的內(nèi)部預(yù)演空間。

在張磊看來,當(dāng)前各種世界模型路線都在不同方向上推進(jìn)得很快。但對(duì)于機(jī)器人和物理智能而言,一個(gè)核心挑戰(zhàn)仍然存在:

模型學(xué)到的究竟是像素級(jí)相關(guān)性,還是可用于規(guī)劃和控制的物理規(guī)律與因果關(guān)系?

模型在像素層面學(xué)習(xí),很容易被紋理、光照、背景等細(xì)節(jié)干擾,學(xué)習(xí)效率低下,不利于學(xué)習(xí)真實(shí)的因果關(guān)系和物理規(guī)律。

這正是LeCun說「在輸入空間做預(yù)測(cè)是糟糕的」的原因,也是隱空間世界模型的出發(fā)點(diǎn)。

Latent表征的價(jià)值在于,它可以把高維、冗余的視覺輸入壓縮成更抽象的狀態(tài)表示,過濾掉大量與決策無關(guān)的像素細(xì)節(jié),把學(xué)習(xí)重點(diǎn)放到更本質(zhì)的變化規(guī)律上。

可以說,表征學(xué)習(xí)是世界模型中最為核心的問題。

換句話說,隱空間世界模型不執(zhí)著于「未來畫面長(zhǎng)什么樣」,而更關(guān)注「世界狀態(tài)如何演化」,因此更適合學(xué)習(xí)物理規(guī)律和因果關(guān)系。

wKgZO2ohKtGAbfuzAAwVuj5TECs206.png

三、視覺原生:以物體理解為核心的結(jié)構(gòu)化隱空間

但視啟發(fā)現(xiàn),現(xiàn)有的隱空間方案還差了關(guān)鍵的一步。

大多數(shù)latent表征雖然脫離了像素,卻并不真正「理解物體」。

如果模型不知道場(chǎng)景里哪些是獨(dú)立物體、物體之間是什么關(guān)系、哪些變化來自視角、哪些變化來自交互,那么它要直接在隱空間中學(xué)習(xí)物理規(guī)律,難度仍然非常高。

原因很簡(jiǎn)單:物理規(guī)律本質(zhì)上并不作用在像素上,而是作用在物體、結(jié)構(gòu)和關(guān)系上。

張磊認(rèn)為,latent表征必須具備理解物體的能力,才能更好地學(xué)習(xí)物理規(guī)律。

視啟的解法是把物體理解能力引入latent表征學(xué)習(xí)中,通過2D感知、3D表征、分割和語義理解,讓latent表征具備「世界由哪些物體構(gòu)成、它們處于什么空間位置、具有什么語義屬性」的基礎(chǔ)認(rèn)知,再進(jìn)一步學(xué)習(xí)動(dòng)作驅(qū)動(dòng)下的狀態(tài)轉(zhuǎn)移和物理演化。

通過引入物體理解的結(jié)構(gòu)信息,模型可以更高效地對(duì)數(shù)據(jù)進(jìn)行壓縮,從海量數(shù)據(jù)中學(xué)到內(nèi)在的、更為本質(zhì)的規(guī)律。

這樣,模型學(xué)習(xí)的不再是黑盒式表征,而是一個(gè)更具對(duì)象性、空間性和物理性的結(jié)構(gòu)化latent世界。

因此,視啟將自己的路線稱為「視覺原生世界模型」,這也是他們和其他隱空間世界模型的關(guān)鍵區(qū)別。

為了實(shí)現(xiàn)真正可落地的物理世界模型,張磊認(rèn)為,這類模型需要同時(shí)具備三個(gè)核心特征:

Object-Centric,以物體為中心
表征不能停留在像素層面,要具備對(duì)物體的理解能力,能夠識(shí)別世界由哪些對(duì)象構(gòu)成、它們之間如何交互。只有這樣,模型才有可能從海量數(shù)據(jù)中學(xué)習(xí)到更穩(wěn)定、更可泛化的物理規(guī)律,而不是停留在表面的視覺相關(guān)性上。

Action-Aligned,跨本體動(dòng)作對(duì)齊。
把人手動(dòng)作、機(jī)械臂操作以及不同機(jī)器人本體的數(shù)據(jù)對(duì)齊到統(tǒng)一表示空間,從而更高效地利用大量人類交互數(shù)據(jù),幫助機(jī)器人更快學(xué)會(huì)如何與環(huán)境互動(dòng)。

Causality-Driven,因果驅(qū)動(dòng)。
世界模型要學(xué)的,是「執(zhí)行某個(gè)動(dòng)作之后,世界狀態(tài)將如何變化」。只有具備這種因果建模能力,世界模型才能真正與強(qiáng)化學(xué)習(xí)結(jié)合,支持機(jī)器人在與環(huán)境持續(xù)交互中不斷提升決策、學(xué)習(xí)和泛化能力。

張磊說,視啟對(duì)方向的判斷始終正確,只是賽道的熱鬧程度,確實(shí)超出了當(dāng)初的預(yù)想。

不過,這反而印證了視啟堅(jiān)守隱空間路線的前瞻性——在所有人都往像素空間沖的時(shí)候,視啟已經(jīng)在更難、也更正確的方向上積累了先發(fā)優(yōu)勢(shì)。

四、厚積薄發(fā):DINO系列奠基,順勢(shì)而上

張磊對(duì)于世界模型的見地,并非空穴來風(fēng)。

背后是視啟長(zhǎng)期構(gòu)建的以物體為中心的視覺理解能力,也是這支團(tuán)隊(duì)數(shù)年的積累。

視啟未來,其核心團(tuán)隊(duì)來自粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院計(jì)算機(jī)視覺與機(jī)器人研究中心(IDEA CVR)孵化的DINO-X團(tuán)隊(duì)。

團(tuán)隊(duì)已連續(xù)推出DINO、Grounding DINO、DINO-X等代表性工作,持續(xù)推動(dòng)開放世界目標(biāo)檢測(cè)與物體級(jí)視覺理解的發(fā)展。

Grounding DINO已成為開放集檢測(cè)的重要里程碑之一,而DINO-X則是面向開放世界物體理解的全球領(lǐng)先視覺大模型。

今年4月,谷歌DeepMind發(fā)表的Vision Banana論文中,多處提到視啟未來的DINO-X模型。這篇論文的署名作者包括何愷明和謝賽寧,在SA-CO/Gold instance segmentation任務(wù)上,強(qiáng)調(diào)DINO-X是zero-shot transfer物體理解的全球SOTA。

此外,DINO系列論文也廣泛被Meta的SAM2/SAM3、阿里的Qwen系列、字節(jié)的Seed系列引用。這反映出視覺物體理解基模門檻極高,依賴強(qiáng)大的視覺基座大模型預(yù)訓(xùn)練能力。

自2023年以來,視啟未來憑借Grounding-DINO與DINO-X系列,在開放物體理解榜單上保持了最長(zhǎng)的連續(xù)領(lǐng)先時(shí)間。

有趣的是,DINO的意思是「恐龍」,恐龍也是這個(gè)團(tuán)隊(duì)各種模型的標(biāo)志。他們還有一個(gè)基于視覺提示做物體檢測(cè)的模型T-Rex2(ECCV 2024),正是恐龍家族的霸王龍。

DINO系列解決的核心問題,正是Object-Centric世界模型最需要的底層能力:讓機(jī)器真正「看懂」世界由哪些物體構(gòu)成、它們?cè)谀睦?、它們之間是什么關(guān)系。

視啟未來的路線,更強(qiáng)調(diào)面向真實(shí)世界交互的Object-Centric表征能力,即圍繞「物體是什么、在哪里、如何被引用、如何與環(huán)境發(fā)生關(guān)系」建立統(tǒng)一建模能力。

在此基礎(chǔ)上,視啟未來不僅在2D物體檢測(cè)與分割、3D物體理解與語義理解上建立了顯著優(yōu)勢(shì),也持續(xù)向3D動(dòng)作理解延伸,形成了從看見物體,到理解物體,再到理解動(dòng)作與物體交互的完整能力棧。

從這個(gè)意義上說,視啟做世界模型并不是轉(zhuǎn)型,而是在其原有技術(shù)基礎(chǔ)上的順勢(shì)延伸。

單個(gè)模型的成功還能歸因于機(jī)會(huì),那么連續(xù)做出Grounding DINO、DINO-X等全球領(lǐng)先物體理解視覺基座大模型,更多說明的是團(tuán)隊(duì)底層能力已經(jīng)成型。

對(duì)一家做基礎(chǔ)模型的團(tuán)隊(duì)來說,這意味著它不僅會(huì)「做模型」,更掌握了數(shù)據(jù)組織、預(yù)訓(xùn)練范式、能力遷移和任務(wù)擴(kuò)展的系統(tǒng)方法,這恰恰是基模訓(xùn)練能力最有說服力的體現(xiàn)。

五、從數(shù)據(jù)引擎到OS愿景:世界模型的產(chǎn)業(yè)化路徑

這種能力已經(jīng)開始在產(chǎn)品上體現(xiàn)。5月15日,視啟未來聯(lián)合百度智能云在2026全球人工智能終端展上正式發(fā)布EgoTwin——全球最新的高質(zhì)量Ego人手3D對(duì)齊引擎。

如果說視覺原生世界模型是視啟未來的長(zhǎng)期技術(shù)路線,那么EgoTwin就是這條路線在具身智能數(shù)據(jù)層面的第一個(gè)產(chǎn)品化抓手。

EgoTwin直擊行業(yè)最卡脖子的難題——把人手操作數(shù)據(jù)轉(zhuǎn)化為機(jī)器人能用的訓(xùn)練數(shù)據(jù),數(shù)據(jù)采集效率是行業(yè)主流方案的3.75倍。

更重要的是,EgoTwin并不只是一個(gè)數(shù)據(jù)采集工具:它一方面把人類Ego操作視頻轉(zhuǎn)化為機(jī)器人可學(xué)習(xí)的數(shù)據(jù)資產(chǎn),另一方面也為世界模型提供Action-Aligned的訓(xùn)練底座,成為「數(shù)據(jù)引擎—模型迭代—本體落地」閉環(huán)的第一步。

更大的愿景,張磊直言:世界模型將成為物理世界AI的核心基礎(chǔ)設(shè)施。

在他看來,數(shù)字世界中,大語言模型正在承擔(dān)類似于OS(操作系統(tǒng))的角色,底層是GPU算力,中間是大語言模型,上層是各種各樣的Agent。這條路已經(jīng)被充分驗(yàn)證,無論是Coding領(lǐng)域還是其他Agent形態(tài),都已經(jīng)證明走得通。

物理世界里,同樣的范式變化正在發(fā)生。只不過,物理世界的基礎(chǔ)設(shè)施除了算力之外,還會(huì)加入機(jī)器人本體。在這一層之上,張磊帶領(lǐng)的世界模型團(tuán)隊(duì)正在打通Learning From Experience的范式,讓機(jī)器人在學(xué)習(xí)過程中變得更加自主、更加高效,由此獲得更強(qiáng)的物理任務(wù)技能。

英偉達(dá)科學(xué)家Jim Fan年初說,下一個(gè)詞預(yù)測(cè)是第一種預(yù)訓(xùn)練范式,現(xiàn)在我們正在經(jīng)歷第二次范式轉(zhuǎn)變:下一個(gè)物理狀態(tài)預(yù)測(cè)。他預(yù)言,2026年將被載入史冊(cè),成為世界模型為機(jī)器人技術(shù)奠定真正基礎(chǔ)的第一年。

張磊支持這個(gè)判斷,同時(shí)強(qiáng)調(diào)一點(diǎn):視覺,是物理智能最主要的信息入口,也是通向世界模型的關(guān)鍵優(yōu)勢(shì)方向。

視啟未來長(zhǎng)期積累的檢測(cè)、識(shí)別、分割、跟蹤、3D物體理解、3D動(dòng)作理解與開放世界感知能力,不僅讓機(jī)器更好地「看見」世界,也為其進(jìn)一步建模世界、預(yù)演未來、支撐行動(dòng)提供了堅(jiān)實(shí)基礎(chǔ)。

六、名師高徒:一支能打硬仗的世界級(jí)團(tuán)隊(duì)

要做世界級(jí)的模型,首先得有世界級(jí)的團(tuán)隊(duì)。

視啟未來創(chuàng)始人兼CEO張磊,是這支團(tuán)隊(duì)最重要的底色。

張磊博士師承中國(guó)人工智能奠基人張鈸院士,并曾長(zhǎng)期在計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域世界級(jí)專家、美國(guó)國(guó)家工程院外籍院士沈向洋先生領(lǐng)導(dǎo)下工作。作為IEEE Fellow,他累計(jì)發(fā)表200余篇頂級(jí)會(huì)議和期刊論文,Google Scholar總引用已超過7.3萬次。他曾在微軟亞洲研究院、微軟總部研究院及計(jì)算機(jī)視覺相關(guān)產(chǎn)品部門任首席研究員,帶領(lǐng)研究組從事計(jì)算機(jī)視覺基礎(chǔ)研究及其在大規(guī)模圖像分析、物體檢測(cè)、視覺語言多模態(tài)理解方面的應(yīng)用,研究成果被廣泛用于微軟必應(yīng)搜索及認(rèn)知服務(wù)云計(jì)算平臺(tái)。

值得一提的是,張磊博士深造之前,是國(guó)內(nèi)最早一批參與室內(nèi)移動(dòng)機(jī)器人研究的人員之一。繞了一個(gè)大圈,從機(jī)器人到計(jì)算機(jī)視覺,再?gòu)囊曈X回到機(jī)器人,這條軌跡并非偶然,而是他對(duì)物理世界AI判斷的一貫邏輯在驅(qū)動(dòng)。

2021年,張磊加入IDEA研究院,帶領(lǐng)團(tuán)隊(duì)研發(fā)DINO-X視覺大模型,為機(jī)器賦予物體級(jí)理解能力。隨后其孵化視啟未來,將這套能力推向世界模型賽道。

視啟未來還邀請(qǐng)了張鈸院士、沈向洋院士擔(dān)任科學(xué)顧問。團(tuán)隊(duì)核心成員主要來自清華大學(xué)、微軟、騰訊等頂尖高校與國(guó)內(nèi)外科技大廠。據(jù)視啟透露,團(tuán)隊(duì)中約50%具有清華背景,約20%擁有智能駕駛相關(guān)經(jīng)驗(yàn),80%為90后青年人才,100%具備海外或國(guó)內(nèi)頭部科技企業(yè)經(jīng)歷。

近期,視啟在北京進(jìn)一步吸引了多位國(guó)內(nèi)機(jī)器人和強(qiáng)化學(xué)習(xí)方向的優(yōu)秀年輕算法人才加入。他們的主動(dòng)選擇加入,本身就是一種投票——投的是視啟在世界模型方向上的技術(shù)判斷,也是他們對(duì)這支團(tuán)隊(duì)能夠再創(chuàng)輝煌的信心。

做世界模型很難,做隱空間世界模型更難。

曾經(jīng)做出世界第一視覺大模型的視啟團(tuán)隊(duì),正把同樣的信念,押注在隱空間世界模型上。

張磊和他的視啟未來,正走在將隱空間世界模型貫徹到底、知難而進(jìn)的路上。

四信車載通信產(chǎn)品推薦

四信FTV300是一款專為智能車聯(lián)網(wǎng)領(lǐng)域開發(fā)的5G車載網(wǎng)關(guān),集成了新一代車聯(lián)網(wǎng)通信、定位與邊緣計(jì)算能力,為車輛提供穩(wěn)定可靠的網(wǎng)絡(luò)連接服務(wù)。該產(chǎn)品通過5G蜂窩網(wǎng)絡(luò)和雙頻WiFi構(gòu)建高速數(shù)據(jù)傳輸通道,提供高速、不間斷、安全的網(wǎng)絡(luò)接入,為車輛管理構(gòu)建可靠且易于擴(kuò)展的車聯(lián)網(wǎng)系統(tǒng),全面提升管理與運(yùn)營(yíng)效率。產(chǎn)品采用抗震設(shè)計(jì)、M12接口及寬電壓輸入,滿足各類車載應(yīng)用場(chǎng)景的需求。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    42696

    瀏覽量

    303582
  • 人工智能
    +關(guān)注

    關(guān)注

    1822

    文章

    50631

    瀏覽量

    268335
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Cosmos 3全新世界基礎(chǔ)模型正式發(fā)布

    NVIDIA Cosmos 3 正是為打破這一循環(huán)而構(gòu)建。這款全新世界基礎(chǔ)模型在 COMPUTEX 期間的 NVIDIA GTC 臺(tái)北大會(huì)上發(fā)布,它將視覺推理和跨文本、視頻、圖像、環(huán)境音和動(dòng)作的多模態(tài)生成功能整合至單一
    的頭像 發(fā)表于 06-07 14:37 ?532次閱讀
    NVIDIA Cosmos 3全新<b class='flag-5'>世界</b>基礎(chǔ)<b class='flag-5'>模型</b>正式發(fā)布

    酷哇科技發(fā)布CooWAIM 2.0交互式世界模型

    近期,由上海交大博士團(tuán)隊(duì)創(chuàng)立的酷哇科技正式發(fā)布全新一代交互式世界模型 **CooWAIM 2.0** (基于DAWN架構(gòu)),論文與代碼均已全面開源。該模型首次將
    的頭像 發(fā)表于 06-05 10:51 ?493次閱讀

    NVIDIA正式推出Cosmos 3開放物理AI世界基礎(chǔ)模型

    NVIDIA Cosmos 3 是一款全新且位居排行榜首位的開放物理 AI 基礎(chǔ)模型,基于突破性的混合 Transformer 架構(gòu)所構(gòu)建,適用于物理
    的頭像 發(fā)表于 06-04 10:07 ?691次閱讀

    智行者科技發(fā)布物理AI世界模型TransWorld

    6月1日,智行者宣布公司全無人物理AI商業(yè)化運(yùn)營(yíng)里程累計(jì)突破1.6億公里,迎來新的里程碑。與此同時(shí),更為重磅的是,基于這一混合復(fù)雜物理場(chǎng)景的大規(guī)模數(shù)據(jù)沉淀,智行者同步官宣物理
    的頭像 發(fā)表于 06-02 17:40 ?1017次閱讀

    美泰多模態(tài)融合+姿態(tài)感知技術(shù),讓機(jī)器真正 “讀懂” 世界

    如果說傳統(tǒng)監(jiān)控是記錄世界的"眼睛",那么融合了多模態(tài)融合算法與姿態(tài)估計(jì)算法的美泰解決方案,則是一顆能理解物理世界的"大腦"。它不再局限于單一的視覺
    的頭像 發(fā)表于 04-29 14:59 ?425次閱讀
    <b class='flag-5'>視</b>美泰多模態(tài)融合+姿態(tài)感知技術(shù),讓機(jī)器真正 “讀懂” <b class='flag-5'>世界</b>

    小馬智行發(fā)布PonyWorld世界模型2.0

    4月10日,小馬智行正式發(fā)布其在物理AI領(lǐng)域的最新技術(shù)成果——PonyWorld世界模型2.0。
    的頭像 發(fā)表于 04-10 17:21 ?1264次閱讀

    世界知名科技史學(xué)家到訪??低?b class='flag-5'>視共探AI發(fā)展新路徑

    全球AI技術(shù)迭代加速,前沿思想不斷交融。近日,世界知名科技史學(xué)家、金融史學(xué)家、《哈薩比斯:谷歌AI之腦》作者塞巴斯蒂安·馬拉比到訪??低?b class='flag-5'>視,與海康威
    的頭像 發(fā)表于 03-17 14:15 ?532次閱讀

    大曉機(jī)器人開源實(shí)時(shí)生成世界模型Kairos 3.0-4B

    近日,大曉機(jī)器人重磅開源開悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作為業(yè)內(nèi)首個(gè)實(shí)現(xiàn) “多模態(tài)理解 — 生成 —
    的頭像 發(fā)表于 03-14 16:54 ?2146次閱讀
    大曉機(jī)器人開源實(shí)時(shí)生成<b class='flag-5'>世界</b><b class='flag-5'>模型</b>Kairos 3.0-4B

    NVIDIA Cosmos世界基礎(chǔ)模型如何塑造機(jī)器人未來

    在這一演進(jìn)過程中,世界模型逐漸成為連接高層智能與底層執(zhí)行的關(guān)鍵基礎(chǔ)設(shè)施。通過對(duì)環(huán)境狀態(tài)及其時(shí)間演化進(jìn)行建模,世界模型使機(jī)器人系統(tǒng)能夠在受控環(huán)境中進(jìn)行仿真、訓(xùn)練與決策推演,從而為機(jī)器人在
    的頭像 發(fā)表于 01-22 16:38 ?973次閱讀
    NVIDIA Cosmos<b class='flag-5'>世界</b>基礎(chǔ)<b class='flag-5'>模型</b>如何塑造機(jī)器人<b class='flag-5'>未來</b>

    物理AI之眼:當(dāng)3D視覺與激光雷達(dá)成為硅基智能世界的“智瞳”

    CES2026的聚光燈下,英偉達(dá)CEO黃仁勛并未展示任何實(shí)體芯片。他向世界宣告了AI從語言理解向物理世界改造的歷史性轉(zhuǎn)折,并提出“物理
    的頭像 發(fā)表于 01-09 16:03 ?2093次閱讀
    <b class='flag-5'>物理</b><b class='flag-5'>AI</b>之眼:當(dāng)3D<b class='flag-5'>視覺</b>與激光雷達(dá)成為硅基智能<b class='flag-5'>世界</b>的“智瞳”

    VLA與世界模型有什么不同?

    Language Action,VLA),另一些則致力于構(gòu)建并應(yīng)用世界模型(World Model)。這兩種路徑有什么不同? 什么是VLA,什么是世界模型 先說說VLA。VLA是英文
    的頭像 發(fā)表于 12-17 09:13 ?1017次閱讀
    VLA與<b class='flag-5'>世界</b><b class='flag-5'>模型</b>有什么不同?

    世界模型是讓自動(dòng)駕駛汽車?yán)斫?b class='flag-5'>世界還是預(yù)測(cè)未來

    ? [首發(fā)于智駕最前沿微信公眾號(hào)]世界模型在自動(dòng)駕駛技術(shù)中已有廣泛應(yīng)用。但當(dāng)談及它對(duì)自動(dòng)駕駛的作用時(shí),難免會(huì)出現(xiàn)分歧。它到底是讓自動(dòng)駕駛汽車得以理解世界,還是為其提供了預(yù)測(cè)未來的視角?
    的頭像 發(fā)表于 12-16 09:27 ?1145次閱讀
    <b class='flag-5'>世界</b><b class='flag-5'>模型</b>是讓自動(dòng)駕駛汽車?yán)斫?b class='flag-5'>世界</b>還是預(yù)測(cè)<b class='flag-5'>未來</b>?

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測(cè)試與驗(yàn)證數(shù)據(jù)生成。借助
    的頭像 發(fā)表于 12-01 09:25 ?1679次閱讀

    聲智科技聲學(xué)模型賦予AI感知物理世界

    在科技浪潮的尖端,一個(gè)新時(shí)代正悄然開啟。NVIDIA創(chuàng)始人黃仁勛曾預(yù)言,未來通用人工智能(AGI)將不再局限于虛擬世界,而是能夠與物理世界深度交互的“
    的頭像 發(fā)表于 09-02 17:46 ?1712次閱讀

    科技AI模型應(yīng)用:提效、與落地,重塑智能新生態(tài)

    在這場(chǎng)數(shù)字化轉(zhuǎn)型的浪潮中,騰科技AI模型憑借其強(qiáng)大的提效能力、的創(chuàng)新思維以及切實(shí)的落地實(shí)踐,已然成為重塑智能新生態(tài)的重要力量。從企業(yè)
    的頭像 發(fā)表于 08-18 14:06 ?1959次閱讀
    騰<b class='flag-5'>視</b>科技<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>應(yīng)用:提效、<b class='flag-5'>破</b><b class='flag-5'>局</b>與落地,重塑智能新生態(tài)
    靖西县| 临洮县| 抚州市| 新巴尔虎右旗| 资阳市| 靖远县| 保靖县| 长治县| 湘乡市| 安新县| 洛宁县| 万山特区| 邵东县| 金阳县| 上林县| 鄄城县| 阜阳市| 友谊县| 台东县| 乌拉特中旗| 长沙市| 松溪县| 金乡县| 南宫市| 通山县| 三河市| 明星| 永川市| 礼泉县| 呼和浩特市| 长春市| 沅陵县| 四川省| 昭通市| 城固县| 南部县| 正镶白旗| 西藏| 蒙城县| 库尔勒市| 宾川县|