亚洲性爱在线观看,5月激情四射网

測(cè)試結(jié)果并不一定意味著人工智能可以“理解”人。

心智理論是指可以理解他人心理狀態(tài)的能力，正是它驅(qū)使著人類社會(huì)運(yùn)轉(zhuǎn)。它幫助你決定在緊張的情況下該說(shuō)什么、猜測(cè)其他車輛的駕駛員將要做什么，以及與電影中的角色產(chǎn)生共鳴。一項(xiàng)最新的研究表明，ChatGPT等工具所使用的大語(yǔ)言模型在模仿這一典型人類特征方面表現(xiàn)得非常出色。

“在進(jìn)行這項(xiàng)研究之前，我們都相信大語(yǔ)言模型無(wú)法通過(guò)這些測(cè)試，特別是那些判斷不易察覺(jué)的心理狀態(tài)能力的測(cè)試?！痹撗芯康暮现呖死锼沟倌?貝奇奧（Cristina Becchio）說(shuō)，她是德國(guó)漢堡-埃彭多夫大學(xué)醫(yī)學(xué)中心的認(rèn)知神經(jīng)科學(xué)教授。這項(xiàng)她認(rèn)為“出乎意料和令人驚訝”的研究結(jié)果發(fā)表在2024年5月20日的《自然?人類行為》雜志中。

貝奇奧和她的同事并不是首先提出證據(jù)表明大語(yǔ)言模型的反應(yīng)能夠表現(xiàn)這種推理能力的人。在2023年發(fā)表的一篇預(yù)印本論文中，斯坦福大學(xué)心理學(xué)家邁克爾?科辛斯基（Michal Kosinski）報(bào)告了幾個(gè)模型在幾種常見(jiàn)心智理論測(cè)試中的測(cè)試情況。他發(fā)現(xiàn)，其中最好的是OpenAI的GPT-4，它正確完成了75%的任務(wù)，他說(shuō)，這相當(dāng)于過(guò)去研究中6歲兒童的表現(xiàn)。不過(guò)，這項(xiàng)研究中的方法遭到了其他研究人員的批評(píng)，他們進(jìn)行了后續(xù)實(shí)驗(yàn)，并得出結(jié)論，大語(yǔ)言模型之所以能得出正確答案，往往是基于“淺顯的啟發(fā)”和捷徑，而不是真正基于心智理論推理。

本研究的作者很清楚這種爭(zhēng)論?！霸谡撐闹?，我們的目標(biāo)是使用廣泛的心理測(cè)試，以更加系統(tǒng)的方式來(lái)應(yīng)對(duì)機(jī)器心智理論的評(píng)估挑戰(zhàn)。”該研究的合著者詹姆斯?斯特拉坎（James Strachan）說(shuō)，他是一名認(rèn)知心理學(xué)家，目前是漢堡-埃彭多夫大學(xué)醫(yī)學(xué)中心的訪問(wèn)科學(xué)家。他指出，進(jìn)行嚴(yán)謹(jǐn)?shù)难芯恳馕吨獪y(cè)試人類和大語(yǔ)言模型處理相同任務(wù)的能力，這項(xiàng)研究比較了1907個(gè)人與幾個(gè)流行的大語(yǔ)言模型的能力。

大語(yǔ)言模型和人類都完成了5種典型的心智理論測(cè)試，前3種是理解暗示、反語(yǔ)和失禮。此外，他們還回答了“錯(cuò)誤信念”問(wèn)題，這些問(wèn)題通常用于確定幼兒心智理論的發(fā)展程度。這些問(wèn)題是這樣的：如果愛(ài)麗絲在鮑勃不在房間的時(shí)候移動(dòng)了某樣?xùn)|西，那么鮑勃回來(lái)后應(yīng)該去哪里找這個(gè)東西？最后，他們回答了“奇怪故事”中一些相當(dāng)復(fù)雜的問(wèn)題，這些故事中的人物相互撒謊、操縱并產(chǎn)生了很多誤解。

總體而言，GPT-4占據(jù)了優(yōu)勢(shì)。它的得分在錯(cuò)誤信念測(cè)試中與人類相當(dāng)，在反語(yǔ)、暗示和奇怪故事方面的總分高于人類，只在失禮測(cè)試中表現(xiàn)不如人類。為了理解失禮測(cè)試結(jié)果有所不同的原因，研究人員對(duì)該模型進(jìn)行了一系列后續(xù)測(cè)試，探索了幾種假設(shè)。他們得出的結(jié)論是，GPT-4能夠?qū)τ嘘P(guān)失禮的問(wèn)題給出正確答案，但在固執(zhí)己見(jiàn)方面受到“極端保守”編程的限制。斯特拉坎指出，OpenAI在模型周圍設(shè)置了許多圍欄，“旨在保持模型真實(shí)、誠(chéng)實(shí)和正確”，他認(rèn)為，旨在防止GPT-4產(chǎn)生幻覺(jué)（即編造內(nèi)容）的策略可能會(huì)妨礙它對(duì)一些問(wèn)題輸出觀點(diǎn)，比如故事角色是否在高中同學(xué)聚會(huì)上無(wú)意間侮辱了老同學(xué)。

研究人員很謹(jǐn)慎。他們沒(méi)有說(shuō)自己的研究結(jié)果表明大語(yǔ)言模型實(shí)際上擁有心智理論能力，而是說(shuō)大語(yǔ)言模型“在心智理論任務(wù)中的表現(xiàn)與人類行為沒(méi)有區(qū)別”。這就引出了一個(gè)問(wèn)題：如果一個(gè)仿品和真品一樣好，那你怎么知道它不是真品？斯特拉坎說(shuō)，這是一個(gè)社會(huì)科學(xué)家以前從未嘗試回答的問(wèn)題，因?yàn)閷?duì)人類的測(cè)試會(huì)假設(shè)這種品質(zhì)在某種程度上是存在的?！拔覀兡壳斑€沒(méi)有一種方法甚至是一種理念來(lái)測(cè)試心智理論的存在，這是一種現(xiàn)象學(xué)品質(zhì)?！彼f(shuō)。

華盛頓大學(xué)計(jì)算語(yǔ)言學(xué)教授艾米麗?本德（Emily Bender）因堅(jiān)持揭露人工智能行業(yè)的膨脹炒作而成為了該領(lǐng)域的傳奇人物。她對(duì)這個(gè)激勵(lì)著研究人員的問(wèn)題提出了異議?！懊鎸?duì)相同問(wèn)題，文本處理系統(tǒng)能否產(chǎn)生與人類相似的答案為什么如此重要？”她問(wèn)道，“我們能夠了解大語(yǔ)言模型內(nèi)部是如何運(yùn)作的嗎？它們可能有什么用處，又可能帶來(lái)哪些危險(xiǎn)？”

本德對(duì)論文中的擬人化表示擔(dān)憂，論文研究人員說(shuō)大語(yǔ)言模型有認(rèn)知、推理和作出選擇的能力，還使用了“大語(yǔ)言模型和人類參與者之間的物種公平比較”這一措辭。本德說(shuō)，這“完全沒(méi)有將軟件囊括在內(nèi)”。

漢堡-埃彭多夫大學(xué)醫(yī)學(xué)中心團(tuán)隊(duì)的研究結(jié)果可能并不表明人工智能真的能理解我們，但值得思考的是，人工智能能夠做出令人信服的行為，這會(huì)帶來(lái)什么影響。雖然這種大語(yǔ)言模型在與人類用戶交互和預(yù)測(cè)用戶需求方面會(huì)做得更好，但它們也可能更多地用于欺騙和操縱。它們會(huì)引來(lái)更多的擬人化，讓人類用戶相信用戶界面的另一端是有思想的。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50376

瀏覽量
267082

原文標(biāo)題：人工智能在心智理論測(cè)試中戰(zhàn)勝人類

文章出處：【微信號(hào)：AI智勝未來(lái)，微信公眾號(hào)：AI智勝未來(lái)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

心智理論測(cè)試:人工智能擊敗人類

評(píng)論