這篇文章來(lái)源于DevicePlus.com英語(yǔ)網(wǎng)站的翻譯稿。

盡管語(yǔ)音交互正像觸摸屏那樣為數(shù)字接口帶來(lái)重大變革,但語(yǔ)言處理有其局限性。特別是,數(shù)字語(yǔ)言處理僅限于有限且特定的指令,尚未具備人類對(duì)話中的情境理解能力。
在相關(guān)領(lǐng)域的前沿研究中,麻省理工學(xué)院(MIT)計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究人員致力于構(gòu)建一個(gè)更好的處理單元,使機(jī)器人不需要循序漸進(jìn)的指令,而是可以從指令和語(yǔ)境中的上下文來(lái)對(duì)事物進(jìn)行推斷。
因此,“ComText”誕生了,這是一個(gè)處理系統(tǒng),代表“上下文中的指令”,使機(jī)器人可以理解聊天背景信息,如語(yǔ)言線索和周圍環(huán)境。
為什么上下文很重要?
在自然語(yǔ)言的使用中,經(jīng)常說(shuō)類似于“把它撿起來(lái)”這樣的話。雖然人類能夠根據(jù)情境來(lái)理解這里的“它”指的是什么,但如今的數(shù)字化助手或機(jī)器人需要更多的信息才能夠理解,因?yàn)橹噶钊狈μ囟ㄐ浴?/p>
MIT 解釋說(shuō):“撿起它意味著能夠看到并識(shí)別物體,理解指令,識(shí)別出問(wèn)題中的“它”指的是你放下的工具,回到你放下手中工具的記憶中,并將你放下的工具與其他類似形狀和尺寸的工具區(qū)分開(kāi)來(lái)。
目前,像Alexa和Siri這樣的數(shù)字化助手正在徹底改變我們與科技互動(dòng)的方式,但要讓機(jī)器人個(gè)人助理不斷發(fā)展,這種對(duì)于情境的理解能力是必不可少的。

ComText 的實(shí)際應(yīng)用:語(yǔ)言處理
ComText 的實(shí)際應(yīng)用:空間理解
挑戰(zhàn)
RAGE Frameworks的首席執(zhí)行官Venkat Srinivasan認(rèn)為這種交互的挑戰(zhàn)主要有三點(diǎn)。
首先,許多支持語(yǔ)音的人工智能工具,比如IBM Watson和Google AlphaGo,在處理人類語(yǔ)言方面存在困難,因?yàn)椤爱?dāng)前大多數(shù)應(yīng)用是將文本視為數(shù)據(jù),而不是語(yǔ)言”。
第二點(diǎn)是情境理解:“只有當(dāng)技術(shù)專注于語(yǔ)言結(jié)構(gòu),而不是像目前大多數(shù)技術(shù)所做的那樣僅僅注意文本中的單詞時(shí),才能進(jìn)行正確的情境理解?!?/p>
最后一個(gè)挑戰(zhàn)是邏輯:使用這個(gè)解決方法得出的結(jié)論,其推理之間的可追溯性。
“情境學(xué)習(xí)”的研究與發(fā)展
根據(jù)這篇研究論文,為了開(kāi)發(fā)ComText,一個(gè)研究團(tuán)隊(duì)使用了“強(qiáng)化自然語(yǔ)言的概率模型”。
“主要貢獻(xiàn)在于告訴了我們機(jī)器人應(yīng)該像人類那樣有多種類型的記憶,” 首席研究員Andrei Barbu表示,“我們有了解決這個(gè)問(wèn)題的第一個(gè)數(shù)學(xué)公式,現(xiàn)在正在探索這兩種類型的記憶是如何相互配合并發(fā)揮作用的。”
為了測(cè)試這個(gè)工具,研究者使用了一個(gè)名叫Baxter Research Robot(百特研究機(jī)器人)的雙臂人形機(jī)器人,在頻率~20Hz、分辨率1080×760的條件下,使用交叉校準(zhǔn)的Kinect 2版 RGB-D觀察工作區(qū)。配置有一個(gè)Amazon Echo Dot(亞馬遜回聲點(diǎn)),可以將語(yǔ)音指令轉(zhuǎn)換為文本。
為了研究該機(jī)器如何有效地對(duì)上下文線索進(jìn)行評(píng)估,要求獨(dú)立操作的人員直接指示機(jī)器人完成五項(xiàng)任務(wù),最后制作了96個(gè)用戶與機(jī)器人交互的短視頻。通過(guò)對(duì)視頻進(jìn)行分析,研究者發(fā)現(xiàn)在90.2%到94.7%的時(shí)間,推斷出的命令以“在目標(biāo)位置,對(duì)正確的物品執(zhí)行正確的操作”的方式被執(zhí)行。
發(fā)生失敗主要是由于感知錯(cuò)誤,或由于障礙物遮擋了視線,或因?yàn)槲矬w直接朝向或遠(yuǎn)離相機(jī)的移動(dòng)。
這個(gè)實(shí)驗(yàn)成功的證明了ComText從以往的語(yǔ)言陳述中搜集線索,并將它們與視覺(jué)觀察相結(jié)合,然后對(duì)移動(dòng)物體進(jìn)行追蹤的能力。隨著時(shí)間的推移,通過(guò)更多的交互和觀察,這些積累起來(lái)的經(jīng)驗(yàn)也會(huì)被逐漸細(xì)化。
個(gè)人助理機(jī)器人的潛在應(yīng)用
雖然關(guān)于AI倫理問(wèn)題的偏見(jiàn)仍然存在,但ComText在發(fā)展成為具有更接近“人類交互能力”的機(jī)器人方面依然取得了重大進(jìn)展。不過(guò),現(xiàn)實(shí)情況是,要實(shí)現(xiàn)一個(gè)能理解人類互動(dòng)細(xì)微差別全功能助手機(jī)器人,我們還有很長(zhǎng)的路要走。
首席研究員Rohan Paul 表示:“目前,我們還沒(méi)有生產(chǎn)產(chǎn)品?!?與之相對(duì)的是,他們?nèi)匀粓?jiān)持如何在機(jī)器搜集更大范圍的上下文信息并得出結(jié)論的能力方面得到提高,Paul說(shuō):“我們真正想做的是讓人類和機(jī)器人的能力相結(jié)合,一起來(lái)創(chuàng)造出更復(fù)雜的東西?!?/p>

DevicePlus 編輯團(tuán)隊(duì)
設(shè)備升級(jí)版適用于所有熱愛(ài)電子和機(jī)電一體化的人。
審核編輯黃宇
-
機(jī)器人
+關(guān)注
關(guān)注
214文章
31559瀏覽量
224104
發(fā)布評(píng)論請(qǐng)先 登錄
怎么將自動(dòng)駕駛場(chǎng)景理解能力從二維提升到三維?
智能機(jī)器人從0到1系統(tǒng)入門(mén)課程 帶源碼課件 百度網(wǎng)盤(pán)下載
Neway電機(jī)方案在機(jī)器人技術(shù)方面的優(yōu)勢(shì)
清華大學(xué)深圳國(guó)際研究生院:研發(fā)“鴿眼”傳感器,讓機(jī)器人感知逼近人類!
具備情境理解能力的個(gè)人助理機(jī)器人研究進(jìn)展
評(píng)論