日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

研發(fā)全新多模態(tài)感知AI框架 AI能同時(shí)模擬人眼和手預(yù)測(cè)物體運(yùn)動(dòng)

工程師鄧生 ? 來源:VentureBeat ? 作者:VentureBeat ? 2021-02-12 09:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

據(jù)外媒VentureBeat報(bào)道,來自三星、麥吉爾大學(xué)和約克大學(xué)的研究人員,近日研發(fā)出一個(gè)全新的生成式多模態(tài)感知AI框架,能夠根據(jù)物體初始狀態(tài)的視覺和觸覺數(shù)據(jù),來預(yù)測(cè)出物體的運(yùn)動(dòng)趨勢(shì)。

據(jù)悉,這是第一個(gè)利用視覺和觸覺感知來學(xué)習(xí)多模態(tài)動(dòng)力學(xué)模型的研究。

運(yùn)動(dòng)預(yù)測(cè)是自動(dòng)化領(lǐng)域的一大關(guān)鍵技術(shù),通過預(yù)判物體和環(huán)境的交互方式,自動(dòng)化系統(tǒng)得以作出更加智能的決策。該團(tuán)隊(duì)的這項(xiàng)研究,似乎又將這一技術(shù)的應(yīng)用向前推進(jìn)了一步。

這篇論文名為《基于多模態(tài)的生成模型指導(dǎo)的直觀物理研究(Learning Intuitive Physics with Multimodal Generative Models)》,已發(fā)表于arXiv平臺(tái)。

論文鏈接:

https://arxiv.org/pdf/2101.04454.pdf

一、運(yùn)動(dòng)預(yù)測(cè)有挑戰(zhàn):摩擦力、壓力難確定

假如你要接住一個(gè)掉落的物體,你會(huì)迅速判斷它的運(yùn)動(dòng)走向,然后準(zhǔn)確接住它。

但對(duì)于一個(gè)機(jī)器人來說,要準(zhǔn)確預(yù)測(cè)出物體還未發(fā)生的運(yùn)動(dòng)趨勢(shì),可不是一件容易的事。

近期,不少運(yùn)動(dòng)預(yù)測(cè)方面的AI研究,都指出了觸覺和視覺之間的協(xié)同作用。

其中,觸覺數(shù)據(jù)可以反映物體和環(huán)境間的作用力、由此產(chǎn)生的物體運(yùn)動(dòng)和環(huán)境接觸等關(guān)鍵信息,提供一種展現(xiàn)物體與環(huán)境交互過程的整體視角;視覺數(shù)據(jù)則可以直觀反映了立體形狀、位置等物體屬性。

在本文研究人員看來,視覺、觸覺信號(hào)的組合,或有助于推測(cè)出物體運(yùn)動(dòng)后的最終穩(wěn)定狀態(tài)。

研究人員在論文寫道:“先前的研究表明,由于摩擦力、幾何特性、壓力分布存在不確定性,預(yù)測(cè)運(yùn)動(dòng)對(duì)象的軌跡具有挑戰(zhàn)性。”

比如推一個(gè)瓶子,如何準(zhǔn)確預(yù)測(cè)這個(gè)動(dòng)作的結(jié)果,接下來這個(gè)瓶子是會(huì)向前移動(dòng),還是會(huì)翻倒?

▲《基于多模態(tài)的生成模型指導(dǎo)的直觀物理研究(Learning Intuitive Physics with Multimodal Generative Models)》論文插圖

為了減少這種不確定性,研究團(tuán)隊(duì)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)由軟硬件組成的高質(zhì)量AI感知系統(tǒng),經(jīng)訓(xùn)練后,該系統(tǒng)能捕獲到運(yùn)動(dòng)軌跡中最關(guān)鍵、最穩(wěn)定的元素,從而準(zhǔn)確測(cè)量和預(yù)測(cè)物體落在表面上的最終靜止?fàn)顟B(tài)。

二、開發(fā)新型視覺觸覺傳感器,打造多模態(tài)感知系統(tǒng)

動(dòng)態(tài)預(yù)測(cè)常被表述為一個(gè)高分辨率的時(shí)間問題,但在此項(xiàng)研究中,研究人員關(guān)注的是物體運(yùn)動(dòng)后的最終結(jié)果,而不是預(yù)測(cè)細(xì)粒度的物體運(yùn)動(dòng)軌跡。

研究人員認(rèn)為,關(guān)注未來關(guān)鍵時(shí)間的結(jié)果,有助于大大提高模型預(yù)測(cè)的準(zhǔn)確度和可靠性。

該研究團(tuán)隊(duì)開發(fā)了一款名為“透視肌膚(STS,See-Through-Your-Skin)”的新型視覺-觸覺多模態(tài)傳感器,可以同時(shí)捕捉物體的視覺和觸覺特征數(shù)據(jù),并重建在1640×1232的高分辨率圖像中。

由于光學(xué)觸覺傳感器通常使用不透明和反光的涂料涂層,研究人員開發(fā)了一種具有可控透明度的薄膜,使得傳感器能同時(shí)采集關(guān)于物理交互的觸覺信息和傳感器外部世界的視覺信息。

具體而言,研究人員通過改變STS傳感器的內(nèi)部照明條件,來控制傳感器的觸覺和視覺測(cè)量的占空比,從而設(shè)置了反光涂料層的透明度。

如上圖左上角所示,利用內(nèi)部照明可將傳感器表面變成透明,從而使得傳感器內(nèi)置攝像頭能直接采集傳感器外部世界的圖像;上圖的左下角顯示,傳感器也可以保持內(nèi)外一致的亮度,通過感知膜形變來采集物理交互觸覺信息。

借助STS傳感器和PyBullet模擬器,研究人員在動(dòng)態(tài)場(chǎng)景中快速生成大量物體交互的視覺觸覺數(shù)據(jù)集,用于驗(yàn)證其感知系統(tǒng)的性能。

受多模態(tài)變分自編碼器(MVAE)啟發(fā),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)生成式多模態(tài)感知系統(tǒng),在一個(gè)統(tǒng)一的MVAE框架內(nèi)集成了視覺、觸覺和3D Pose反饋。

MVAE可以解讀STS傳感器采集的視覺、觸覺數(shù)據(jù),將所有模態(tài)的物體關(guān)鍵信息映射到一個(gè)共享的嵌入空間,用于推斷物體在運(yùn)動(dòng)后最終的穩(wěn)定狀態(tài)。

實(shí)驗(yàn)結(jié)果表明,MVAE架構(gòu)可以被訓(xùn)練用于預(yù)測(cè)多模態(tài)運(yùn)動(dòng)軌跡中最穩(wěn)定和信息最豐富的元素。

三、不懼單一模態(tài)信息缺失,準(zhǔn)確預(yù)測(cè)物體未來狀態(tài)

該研究團(tuán)隊(duì)生成的視覺觸覺數(shù)據(jù)庫主要包含三種動(dòng)態(tài)模擬場(chǎng)景,分別是物體在平面上自由落體、物體在斜面上下滑、物體在靜止?fàn)顟B(tài)下收到外力擾動(dòng)。

下圖顯示了模擬三種動(dòng)態(tài)場(chǎng)景的示例集,頂部一行顯示3D Pose視圖,中間一行、底部一行分別顯示STS傳感器采集的視覺和觸覺結(jié)果。

bf4c4d28780e42c1bb1fa5e5e9bb9665.png

研究人員在三種模擬動(dòng)態(tài)場(chǎng)景和使用STS傳感器的真實(shí)實(shí)驗(yàn)場(chǎng)景中,分別驗(yàn)證了其動(dòng)力學(xué)模型的預(yù)測(cè)能力。

如下方圖表顯示,在三種模擬場(chǎng)景中的固定步和最終步預(yù)測(cè)中,相比僅依賴視覺(VAE-visual only)或僅依賴觸覺(VAE-tactile only)的單模態(tài)感知模型,多模態(tài)感知模型(MVAE)在驗(yàn)證集中的二進(jìn)制交叉熵誤差(BCE)均值更小,即預(yù)測(cè)結(jié)果的準(zhǔn)確性更高。

a8d1bf13e33c4f2d8ab42254125e4be3.png

研究人員還用基于高時(shí)間分辨率的模型進(jìn)行對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)這一模型在預(yù)測(cè)物體最終靜止?fàn)顟B(tài)時(shí),準(zhǔn)確性要高于動(dòng)態(tài)模型。這是由于不確定性和錯(cuò)誤會(huì)隨著時(shí)間前向傳播,導(dǎo)致模糊和不精確的預(yù)測(cè)。

結(jié)果表明,在對(duì)中間狀態(tài)不感興趣的動(dòng)態(tài)場(chǎng)景中,該AI框架能以更高的準(zhǔn)確度來預(yù)測(cè)最終結(jié)果,而無需明確推理中間步驟。

此外,由于該研究方法破譯了觸覺、視覺、物體姿態(tài)之間的映射關(guān)系,因此即便某一模態(tài)信息缺失,比如缺乏觸覺信息時(shí),該框架仍然可以從視覺信息推測(cè)出視覺信息,從而預(yù)測(cè)物體運(yùn)動(dòng)后的最終落點(diǎn)。

135dbc0e477d4786b31a1c0ce71f9121.png

結(jié)語:制造業(yè)自動(dòng)化將是運(yùn)動(dòng)預(yù)測(cè)的一大應(yīng)用場(chǎng)景

該研究團(tuán)隊(duì)的這項(xiàng)新成果能夠基于觸覺、視覺的雙模態(tài)數(shù)據(jù)對(duì)物體的運(yùn)動(dòng)軌跡進(jìn)行預(yù)判,并推測(cè)出物體的最終靜止?fàn)顟B(tài)。

相較于以往的運(yùn)動(dòng)預(yù)測(cè)技術(shù),該研究團(tuán)隊(duì)實(shí)現(xiàn)了觸覺和視覺數(shù)據(jù)的雙向推測(cè),為制造業(yè)的自動(dòng)化場(chǎng)景提供了更多的可能性。

比如,揀貨機(jī)器人能夠更準(zhǔn)確地判斷貨物的運(yùn)動(dòng)狀態(tài),從而提高拾取精度;貨架機(jī)器人能夠提前預(yù)判貨物的運(yùn)動(dòng)軌跡,從而防止貨物跌落破損,減少損失。

不過,這項(xiàng)成果能夠預(yù)測(cè)的運(yùn)動(dòng)狀態(tài)還相對(duì)有限,我們期待研究團(tuán)隊(duì)對(duì)復(fù)雜的運(yùn)動(dòng)模式、多樣的物體形態(tài)進(jìn)行更多的模擬和技術(shù)攻關(guān)。

責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41315

    瀏覽量

    302694
  • 自動(dòng)化
    +關(guān)注

    關(guān)注

    31

    文章

    5989

    瀏覽量

    90694
  • 智能感知
    +關(guān)注

    關(guān)注

    2

    文章

    121

    瀏覽量

    18400
  • 運(yùn)動(dòng)物體
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    6831
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模態(tài)大模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第一季》精品課程簡介

    優(yōu)化 模態(tài)模型參數(shù)量大,需采用混合精度訓(xùn)練(FP16+FP32)和梯度累積技術(shù)減少顯存占用。例如在訓(xùn)練視頻理解模型時(shí),可將batch size從16降至4,同時(shí)通過梯度累積模擬16的
    發(fā)表于 05-01 17:46

    視美泰模態(tài)融合+姿態(tài)感知技術(shù),讓機(jī)器真正 “讀懂” 世界

    通過多維感知與邏輯判斷,讓冰冷的機(jī)器擁有了近乎人類的場(chǎng)景洞察與行為解析能力。超越視覺,模態(tài)融合讓決策更"聰明"在復(fù)雜的實(shí)際場(chǎng)景中,僅靠圖像識(shí)別往往會(huì)產(chǎn)生誤報(bào)。視美泰在AI算法架構(gòu)中引
    的頭像 發(fā)表于 04-29 14:59 ?150次閱讀
    視美泰<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>融合+姿態(tài)<b class='flag-5'>感知</b>技術(shù),讓機(jī)器真正 “讀懂” 世界

    使用NORDIC AI的好處

    ,時(shí)延更低,系統(tǒng)在網(wǎng)絡(luò)不穩(wěn)定甚至離線時(shí)也繼續(xù)工作。[Edge AI 概述] 提升隱私與可靠性 原始傳感器數(shù)據(jù)(如運(yùn)動(dòng)、生理信號(hào)等)可以留在本地,只上傳推理結(jié)果,有利于隱私與數(shù)據(jù)安全。 本地決策
    發(fā)表于 01-31 23:16

    恩智浦推出全新eIQ Agentic AI框架

    恩智浦半導(dǎo)體宣布推出全新eIQ Agentic AI框架,進(jìn)一步鞏固其在安全實(shí)時(shí)邊緣AI領(lǐng)域的領(lǐng)導(dǎo)地位。該工具支持在邊緣設(shè)備上直接實(shí)現(xiàn)自主智能體功能,助力資深與新手設(shè)備開發(fā)人員簡化并加
    的頭像 發(fā)表于 01-13 11:15 ?1594次閱讀

    涂鴉Omni AI Foundation V2.6發(fā)布:低代碼+模態(tài),重塑AI硬件創(chuàng)新體驗(yàn)

    硬件產(chǎn)品的落地。今天,我們非常高興地宣布:面向模態(tài)AI硬件的基座平臺(tái)OmniAIFoundation正式發(fā)布V2.6版本。本次升級(jí)不僅顯著提升了端到端
    的頭像 發(fā)表于 12-24 18:58 ?697次閱讀
    涂鴉Omni <b class='flag-5'>AI</b> Foundation V2.6發(fā)布:低代碼+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>,重塑<b class='flag-5'>AI</b>硬件創(chuàng)新體驗(yàn)

    AI6G與衛(wèi)星通信:開啟智能天網(wǎng)新時(shí)代

    需求?傳統(tǒng)網(wǎng)絡(luò)會(huì)因流量激增而擁堵,而AI的6G網(wǎng)絡(luò)則能提前預(yù)測(cè)流量模式,動(dòng)態(tài)調(diào)整資源分配。 AI算法能夠?qū)崟r(shí)分析海量數(shù)據(jù),包括用戶位置、網(wǎng)絡(luò)負(fù)載、歷史流量模式等。在2025年上海世
    發(fā)表于 10-11 16:01

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    2)滲透式AI的優(yōu)勢(shì) 5、大型模態(tài)模型 模態(tài)模型(LMM)可以被理解成大模型的更高級(jí)版本,不僅可以處理文本,還可以處理和理解多種類型的
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+具身智能芯片

    控制器等。 具身智能常見的感知模塊往往被稱為智能傳感器,就是在原有的傳感器上加入一定的AI功能,從而可以模擬人類的5種基本感覺:視覺、聽覺、觸覺、嗅覺和味覺。 1、輸入端的數(shù)據(jù)壓縮 輸入端常用的數(shù)據(jù)壓縮
    發(fā)表于 09-18 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    和關(guān)聯(lián)性 AI驅(qū)動(dòng)科學(xué):研究和模擬人類思維和認(rèn)識(shí)過程。 本章節(jié)作者為我們講解了第五范式,介紹了科學(xué)發(fā)現(xiàn)的一般方法和流程等。一、科學(xué)發(fā)現(xiàn)的5個(gè)范式 第一范式:產(chǎn)生于公元1000年左右的阿拉伯世界和歐洲
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+可期之變:從AI硬件到AI濕件

    想到,除了研究大腦的抽象數(shù)學(xué)模型外,能否拋棄傳統(tǒng)的芯片實(shí)現(xiàn)方式,以化學(xué)物質(zhì)和生物組件、材料及相關(guān)現(xiàn)象來構(gòu)建人工神經(jīng)網(wǎng)絡(luò)或提取其功能來用于AI處理,甚至直接用生物體來實(shí)現(xiàn)AI功能,這就是從AI
    發(fā)表于 09-06 19:12

    【書籍評(píng)測(cè)活動(dòng)NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    基礎(chǔ)。 ▲基于磁子 / 自旋波的類腦芯片示意 具身智能芯片填補(bǔ)了AI與物理世界的感知鴻溝,書中提出,真正的智能需具備對(duì)物理環(huán)境的感知與執(zhí)行能力,這類芯片集成視覺、觸覺、聽覺等
    發(fā)表于 07-28 13:54

    “端云+模態(tài)”新范式:《移遠(yuǎn)通信AI大模型技術(shù)方案白皮書》正式發(fā)布

    大模型技術(shù)方案的核心優(yōu)勢(shì)、落地路徑及標(biāo)桿案例,為行業(yè)智能化升級(jí)提供了可借鑒的實(shí)踐框架。洞察技術(shù)演進(jìn):AI大模型邁入“端云協(xié)同+模態(tài)”新階段白皮書指出,
    的頭像 發(fā)表于 07-28 13:08 ?1451次閱讀
    “端云+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>”新范式:《移遠(yuǎn)通信<b class='flag-5'>AI</b>大模型技術(shù)方案白皮書》正式發(fā)布

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    模態(tài)的技術(shù)特性,DeepSeek正加速推動(dòng)AI在金融、政務(wù)、科研及網(wǎng)絡(luò)智能化等關(guān)鍵領(lǐng)域的深度應(yīng)用。 信而泰:AI推理引擎賦網(wǎng)絡(luò)智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發(fā)表于 07-16 15:29

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式
    的頭像 發(fā)表于 06-12 10:17 ?810次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>+空間智能:盾華以<b class='flag-5'>AI</b>+智慧路燈桿,點(diǎn)亮城市治理新方式

    XMOS為普及AI應(yīng)用推出基于軟件定義SoC的模態(tài)AI傳感器融合接口

    模態(tài)傳感信號(hào)AI處理為智算中心和邊緣智能開啟感知智能的新篇章
    的頭像 發(fā)表于 05-12 17:51 ?642次閱讀
    XMOS為普及<b class='flag-5'>AI</b>應(yīng)用推出基于軟件定義SoC的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>AI</b>傳感器融合接口
    黄梅县| 西宁市| 民权县| 奈曼旗| 普兰县| 龙州县| 新竹县| 新丰县| 云霄县| 方山县| 灵山县| 松阳县| 淮南市| 郧西县| 电白县| 长宁区| 永川市| 仪征市| 文登市| 长武县| 大兴区| 赤城县| 祥云县| 分宜县| 昌邑市| 巩义市| 长兴县| 新巴尔虎左旗| 那坡县| 凤翔县| 柳州市| 获嘉县| 永福县| 民丰县| 许昌市| 文山县| 华池县| 新竹县| 志丹县| 钦州市| 抚顺市|