日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

只有提高算力才能發(fā)展AI? 強化學習之父薩頓與牛津教授掀起隔空論戰(zhàn)

5RJg_mcuworld ? 來源:YXQ ? 2019-03-25 17:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

70年來, 人們在AI領域“一直連續(xù)犯著同樣的錯誤”。這是“強化學習之父”理查德·薩頓(Richard S. Sutton)為同行后輩們敲響的警鐘。

他在博客上發(fā)表最新文章《苦澀的教訓》(The Bitter Lesson),總結了AI發(fā)展史上的怪圈:

人類不斷試圖把自己的知識和思維方式植入到AI之中,比如用人類的思路教AI下棋、將讓AI按照人類總結的思路來識別圖像等等。這些做法能帶來暫時的性能提升,長期來看卻會阻礙研究的持續(xù)進步。真正的突破,總是來自完全相反的方向。摒棄人類在特定領域的知識、利用大規(guī)模算力的方法,總會獲得最終勝利??孔晕覍哪拠寮妓嚨腁lphaGo,基于統(tǒng)計方法、深度學習來識別語音、圖像的算法,一次次擊敗先前那些濃縮了人類知識的AI,甚至人類自己。搜索、學習,充分利用大規(guī)模算力才是王道。用人類在特定領域的知識來提升AI智能體的能力,都是在走彎路。

薩頓說:“將AI建立在我們對自身思維方式的認知上,是行不通的?!監(jiān)penAI首席科學家Ilya Sutskever精辟地總結了薩頓的核心觀點:算力常勝。

文章一發(fā)出,就引發(fā)了熱烈的討論,OpenAI CTO Greg Brockman、特斯拉AI總監(jiān)Andrej Karpathy等人都在轉發(fā)附議。

DeepMind機器學習團隊主管&牛津大學教授Nando de Freitas甚至稱之為“周末必讀”。

然而,也有反對的聲音。牛津大學計算機系教授希蒙·懷特森(Shimon Whiteson)連發(fā)13條Twitter反駁薩頓的觀點,表示“堅決不同意”,同樣獲得了大量支持。

懷特森認為,構建AI當然需要融入人類知識,問題只在于該何時、如何、融入哪些知識。AI的歷史進程是一場融入人類知識的勝利。科學家們廣泛嘗試,拋棄失敗的99%,留下有用的1%。而這1%,對現(xiàn)代人工智能算法成功的重要性不亞于薩頓推崇的大量計算資源。一場隔空論戰(zhàn),就這樣展開了。

我們先讀完“本周末必讀”的薩頓博文,看看正方的觀點。

苦澀的教訓

回溯70年的AI研究,從中得出的最大經驗是,利用計算力的通用方法最終總是最有效的,而且遙遙領先。出現(xiàn)這種情況的終極原因是摩爾定律,或者寬泛一點來說,是單位算力成本的持續(xù)指數(shù)級下降。大多數(shù)AI研究都以智能體可用算力恒定為前提進行,在這種情況下,利用人類知識可能是提升性能的唯一方法。但是,將目光投向比一個典型研究項目更長遠的時間段,就會發(fā)現(xiàn)必然有更多可用的算力出現(xiàn)。為了尋求短期可見的提升,研究人員會利用該領域的人類知識,但從長遠來看,利用算力才是唯一重要的事。

雖然但這兩者看似沒有必要相互對立,但實際上它們往往是對立的。

在一個方向上花費的時間,就必然不能花在另一個方向。對于某一種方法的投入也會帶來心理上的承諾。同時,用人類知識來提升AI會傾向于使方法復雜化,讓運用算力的通用計算方法變得不太適用。很多AI研究人員后知后覺地領悟了這種“苦澀的教訓”?;仡櫰渲凶钪匾囊恍╊H有啟發(fā)。

在國際象棋領域,1997年擊敗國際象棋冠軍卡斯帕羅夫的深藍,就是基于大規(guī)模深度搜索。當時,大多數(shù)計算機國際象棋研究者都以沮喪的眼光看待它,他們追求用人類對國際象棋特殊結構的理解制勝。當一種更簡單的、有特殊硬件和軟件加持的基于搜索的方法被證明更有效,這些基于人類知識下國際象棋的研究者輸?shù)靡稽c都“不體面”。他們說,這種“用蠻力”的搜索可能這次能贏,但這終究不是通用策略,無論如何這也不是人類下棋的方式。

他們希望基于人類輸入的方法獲勝,卻事與愿違,只剩失望。計算機圍棋領域,研究進展也遵循著同樣的模式,只是比國際象棋遲了20年。這一領域最初的眾多努力,都是利用人類知識或游戲的特殊特性避免搜索,然而,搜索一被大規(guī)模高效應用,這些努力都變得無關緊要,甚至更糟。利用自我對弈來學習一種價值函數(shù)同樣重要(在許多其他游戲、甚至在國際象棋中也一樣,雖然在1997年的深藍項目中沒有發(fā)揮很大作用)。通過自我對弈來學習,以及學習本身,其實都和搜索一樣,讓大規(guī)模計算有了用武之地。

搜索和學習是AI研究中應用大規(guī)模計算力的兩類最重要技術。

在計算機圍棋和國際象棋項目中,研究人員最初努力的方向是如何去利用人類的理解(這樣就不需要太多的搜索),很久以后,才通過擁抱搜索和學習取得了更大的成功。

語音識別領域,很早之前曾有一場競賽,1970年由DARPA主辦。在這場比賽中,一部分參賽者運用那些需要人類知識(單詞知識、音素知識、人類聲道知識等等)的特殊方法。也有一部分人基于隱馬爾可夫模型(HMMs)完成比賽。這種新方法本質上更具統(tǒng)計性質,也需要更大的計算量。

不出所料,最終統(tǒng)計方法戰(zhàn)勝了基于人類知識的方法。這場比賽為所有自然語言處理任務都帶來了巨大的改變,在過去的幾十年里,統(tǒng)計和算力逐漸占據(jù)主導地位。語音識別中興起沒多久的深度學習,也是朝著這一方向邁出的最新一步。深度學習方法對人類知識的依賴甚至更少,用到了更多的算力。通過在大型訓練集上的學習,能得到更好的語音識別系統(tǒng)。

就像在棋類游戲中一樣,研究人員總是試圖讓系統(tǒng)按照他們心目中的人類的思維方式工作,試圖把這些知識放進計算機的系統(tǒng)里。但最終,當摩爾定律帶來大規(guī)模算力,其他人也找到了一種充分利用它的方法時,會發(fā)現(xiàn)原來的做法適得其反,是對研究人員時間的巨大浪費。

計算機視覺領域,也有類似的模式。早期的方法,將視覺設想為搜索邊緣、廣義圓柱體,或者SIFT算法捕捉的特征。但現(xiàn)在,所有這些方法都被拋棄了?,F(xiàn)代的深度學習神經網(wǎng)絡,只使用卷積和某些不變性的概念,而效果要好得多。

這些教訓告訴我們,(AI)這個領域,我們仍然沒有完全了解,我們連續(xù)犯著同樣的錯誤。為了認清狀況,有效防止犯錯,我們必須理解這些錯誤有什么吸引力。我們必須從這”苦澀的教訓”中學習:長遠來看,將AI建立在我們對自身思維方式的認知上是行不通的。而突破性進展最終會來自完全相反的方法:基于搜索和學習進行規(guī)模計算。最終的成功總是帶來些許怨恨,通常也不被完全理解,因為它超越了當前受歡迎的、以人為中心的方法。

從歷史的教訓中,我們能學到兩點。

第一,通用型方法有強大的力量。即使可用的算力變得非常大,這些方法仍然可以繼續(xù)擴展,運用增加的算力。似乎可以按照這種方式任意擴展的方法有兩種:搜索和學習。

第二,思維的實際內容復雜到非??膳聼o可救藥。我們不該再試圖尋找簡單的方法來思考其內容,比如,用簡單的方式去思考空間、物體、多智能體或者對稱性。

所有這些,都是隨意、本質上非常復雜的外部世界的一部分。它們不應該內置在任何一個AI智能體中,因為它們復雜得沒有盡頭。相反,我們應該只構建能發(fā)現(xiàn)和捕獲這種任意復雜性的元方法,這種方法的本質是能夠很好地找到近似值。不過,尋找的工作應該交給我們的方法,而不是我們自己。我們需要的是能像我們一樣進行發(fā)現(xiàn)的AI智能體,而不是包含我們已經發(fā)現(xiàn)的東西在內的AI。

在我們發(fā)現(xiàn)的基礎上建立AI,只會讓它更難看到發(fā)現(xiàn)的過程是如何進行的。

原文鏈接:

http://www.incompleteideas.net/IncIdeas/BitterLesson.html

“甜蜜的一課”

堅決不同意薩頓觀點的懷特森老師認為,構建AI當然需要融入人類知識,問題只在于該何時、如何、融入哪些知識。AI歷史上有“甜蜜的一課”(The Sweet Lesson),我們在嘗試尋找正確先驗知識的過程中,推動了AI的進步。他將薩頓的觀點總結為:“AI的歷史告訴我們,利用算力最終總是戰(zhàn)勝利用人類知識。”

以下是懷特森Twitter內容的翻譯整理:

我認為這是對歷史的一種特殊解釋。的確,很多把人類知識融入AI的努力都已經被拋棄,隨著其他資源(不僅僅是計算力,還包括存儲、能源、數(shù)據(jù))的豐富,還會拋棄更多。但是,由此產生的方法的成功,不能僅僅歸功于這些豐富的資源,其中那些沒有被拋棄的人類知識也功不可沒。

要是想脫離卷積、LSTM、ReLU、批歸一化(batchnorm)等等做深度學習,祝你好運。要是拋開“圍棋是靜態(tài)、零和、完全可觀察的”這一先驗知識,就像搞定這個游戲,也祝你好運。所以,AI的歷史故事并非融入人類知識一直失敗。恰恰相反,這是融入人類知識的勝利,實現(xiàn)的路徑也正是一種完全符合慣例的研究策略:嘗試很多方法,拋棄失敗的99%。剩下的1%對現(xiàn)代人工智能的成功至關重要,就和AI所以來的大量計算資源一樣關鍵。

薩頓說,世界固有的復雜性表明,我們不該把先驗知識融入到系統(tǒng)中。但是我的觀點恰恰相反:正是這種復雜性,導致他推崇的搜索和學習方法極度復雜難解。只有借助正確的先驗知識,正確的歸納偏見(inductive biases),我們才能掌握這種復雜性。他說,“現(xiàn)代的深度學習神經網(wǎng)絡,只使用卷積和某些不變性的概念,而效果要好得多?!币粋€“只”字就凸顯了這種斷言的武斷性。如果沒有這些卷積和不變性,深度學習就不會成功,但它們卻被視作微小、通用到可以接受。

就是這樣,“苦澀的教訓”避開了主要問題,這根本不是要不要引入人類知識的問題(因為答案顯然是肯定的),而是該問這些知識是什么,該在何時、如何使用它。

薩頓說,“我們需要的是能像我們一樣進行發(fā)現(xiàn)的AI智能體,而不是包含我們已經發(fā)現(xiàn)的東西在內的AI?!碑斎弧5俏覀兩朴诎l(fā)現(xiàn)正是因為我們天生帶有正確的歸納偏見。

AI歷史上的“甜蜜一課”是這樣的:雖然找到正確的歸納偏見很難,但尋找的過程為原本難解的問題帶來了巨大的進展。

原文鏈接:

https://twitter.com/shimon8282/status/1106534185693532160

論戰(zhàn)雙方

這場隔空論戰(zhàn)的雙方,分別是“強化學習之父”薩頓,和牛津大學計算機系教授希蒙·懷特森。都是強化學習領域的科學家,觀點卻截然相反。

強化學習之父:薩頓

薩頓,被認為是現(xiàn)代計算強化學習的創(chuàng)始人之一,為強化學習做出了許多貢獻,比如“時序差分學習”(temporal difference learning)和“策略梯度方法”(policy gradient methods)等等。

1978年,薩頓在斯坦福大學獲得了心理學學士學位,之后才轉向計算機科學,在馬薩諸塞大學安姆斯特分校獲得博士學位。他與導師Andrew Barto合著的《強化學習導論》一書,已經成為強化學習研究領域的基礎讀物。目前,薩頓任教于阿爾伯塔大學,是計算機科學系的教授和 iCORE Chair,領導強化學習和人工智能實驗室。2017年6月,薩頓加入Deepmind,共同領導其位于加拿大埃德蒙頓的辦公室,同時保持他在阿爾伯塔大學的教授職位。2001年以來,薩頓一直都是AAAI Fellow,在2003年獲得國際神經網(wǎng)絡學會頒發(fā)的President’s Award,并于2013年獲得了馬薩諸塞大學阿默斯特分校頒發(fā)的杰出成就獎。

來自牛津大學的反對者:懷特森

希蒙·懷特森,是牛津大學計算機系的教授,專注于人工智能和機器學習領域。強化學習、讓智能體跟著演示學習都是他所研究的課題。他2007年獲得美國德克薩斯大學奧斯汀分校的計算機博士學位,隨后留校做了一段時間的博士后,然后任教于丹麥阿姆斯特丹大學。2015年,懷特森成為牛津大學副教授,2018年成為教授。

隔空論戰(zhàn),你支持誰?

除了懷特森之外,也有不少人對薩頓的觀點表示不能完全同意。比如Nando de Freitas認為薩頓博文的最后一段非常正確、發(fā)人深?。?/p>

我們需要的是能像我們一樣進行發(fā)現(xiàn)的AI智能體,而不是包含我們已經發(fā)現(xiàn)的東西在內的AI。在我們發(fā)現(xiàn)的基礎上建立AI,只會讓它更難看到發(fā)現(xiàn)的過程是如何進行的。

但他也就著懷特森的觀點,談了一些自己的想法:帝國理工學院教授、DeepMind高級研究員Murray Shanahan雖然支持不能人工手寫特定領域的先驗知識,但還是認為“應該尋找有利于讓AI學習這些常識類別的架構上的先驗”。

德克薩斯大學奧斯汀分校的助理教授Scott Niekum說,他大致同意薩頓的觀點,但也有值得商榷的地方,比如科學從來都不是一條直線,很多最重要的發(fā)現(xiàn),可能就來自借助內建特定領域知識來研究那些不夠通用的模型的過程。

這個問題,你怎么看?

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    41456

    瀏覽量

    302783
  • 強化學習
    +關注

    關注

    4

    文章

    274

    瀏覽量

    12004

原文標題:只有大規(guī)模算力才能救AI?強化學習之父 vs 牛津教授掀起隔空論戰(zhàn)

文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Momenta R7強化學習世界模型助力上汽大眾ID. ERA 9X正式上市

    2026年4月25日,上汽大眾全新旗艦SUV ID. ERA 9X于2026北京國際汽車展覽會期間正式上市,并將全球首發(fā)搭載Momenta R7強化學習世界模型。這意味著Momenta R7率先在全球強化學習+世界模型方向上取得量產突破——標志著物理
    的頭像 發(fā)表于 04-29 15:42 ?684次閱讀

    上汽奧迪E5 Sportback車型升級搭載全新Momenta強化學習大模型

    近日,上汽奧迪宣布旗下 E5 Sportback 車型升級搭載 全新Momenta 強化學習大模型。
    的頭像 發(fā)表于 04-09 09:33 ?262次閱讀

    邊緣AI臨界點:深度解析176TOPS香橙派AI Station的產業(yè)價值

    ,開發(fā)者利用AI Station的176TOPS,在機器人平臺上運行模仿學習策略,控制機械臂完成精細操作[](https://hwcomputing.csdn.net
    發(fā)表于 03-10 14:19

    自動駕駛中常提的離線強化學習是什么?

    [首發(fā)于智駕最前沿微信公眾號]在之前談及自動駕駛模型學習時,詳細聊過強化學習的作用,由于強化學習能讓大模型通過交互學到策略,不需要固定的規(guī)則,從而給自動駕駛的落地創(chuàng)造了更多可能。 強化學習
    的頭像 發(fā)表于 02-07 09:21 ?386次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學習</b>是什么?

    強化學習會讓自動駕駛模型學習更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓練時,有的技術方案會采用模仿學習,而有些會采用強化學習。同樣作為大模型的訓練方式,強化學習有何不同?又有什么特點呢? 什么是強化學習
    的頭像 發(fā)表于 01-31 09:34 ?866次閱讀
    <b class='flag-5'>強化學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    多智能體強化學習(MARL)核心概念與算法概覽

    訓練單個RL智能體的過程非常簡單,那么我們現(xiàn)在換一個場景,同時訓練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是多智能體強化學習
    的頭像 發(fā)表于 01-21 16:21 ?358次閱讀
    多智能體<b class='flag-5'>強化學習</b>(MARL)核心概念與算法概覽

    AI送上太空,是終極方案還是瘋狂幻想?評論區(qū)說出你的陣營!

    AI
    江蘇易安聯(lián)
    發(fā)布于 :2026年01月06日 09:43:34

    湘軍,讓變成生產?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    自動駕駛中常提的“強化學習”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學習(Reinforcement Learning,簡稱RL)”,強化學習是一類讓機器通過試錯來學會做決策的技術。簡單理解
    的頭像 發(fā)表于 10-23 09:00 ?940次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    什么是AI模組?

    未來,騰視科技將繼續(xù)深耕AI模組領域,全力推動AI邊緣計算行業(yè)的深度發(fā)展。隨著AI技術的不斷
    的頭像 發(fā)表于 09-19 15:26 ?2162次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    什么是AI模組?

    未來,騰視科技將繼續(xù)深耕AI模組領域,全力推動AI邊緣計算行業(yè)的深度發(fā)展。隨著AI技術的不斷
    的頭像 發(fā)表于 09-19 15:25 ?1083次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    、分布式群體智能 1)物聯(lián)網(wǎng)AGI系統(tǒng) 優(yōu)勢: 組成部分: 2)分布式AI訓練 7、發(fā)展重點:基于強化學習的后訓練與推理 8、超越大模型:神經符號計算 三、AGI芯片的實現(xiàn) 1、技術需求 AI
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升還是智力

    、浪費資源與破壞環(huán)境 二、用小模型代替大模型 1、強化學習 2、指令調整 3、合成數(shù)據(jù) 三、終身學習與遷移學習 1、終身學習 終身學習是一種
    發(fā)表于 09-14 14:04

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    計算、神經符號計算,終身學習與遷移學習。 此外,書中提出“小模型替代大模型”的思路,通過強化學習、指令調整、合成數(shù)據(jù)等技術,在降低消耗的
    發(fā)表于 07-28 13:54

    一文看懂AI集群

    最近這幾年,AI浪潮席卷全球,成為整個社會的關注焦點。大家在討論AI的時候,經常會提到AI集群。AI
    的頭像 發(fā)表于 07-23 12:18 ?1996次閱讀
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>集群
    峡江县| 喀喇沁旗| 玉屏| 衡山县| 咸宁市| 西丰县| 普格县| 新巴尔虎左旗| 三原县| 大丰市| 临清市| 汕头市| 顺义区| 恩施市| 张掖市| 昌吉市| 阿尔山市| 含山县| 襄汾县| 红原县| 和龙市| 原阳县| 遂宁市| 富裕县| 门头沟区| 政和县| 泌阳县| 蒙城县| 罗山县| 祁东县| 隆子县| 尚义县| 抚松县| 依安县| 正定县| 金川县| 偃师市| 旺苍县| 涿鹿县| 万源市| 新宾|