九九九视频网站,飘花秋霞久久,这里精品97视频

同隊炸彈人聯(lián)手，在對手的兩側(cè)放炸彈圍堵，將其困在中間地帶后摧毀對手

由谷歌大腦、Facebook、牛津大學(xué)和NYU等聯(lián)合舉辦的NeurIPS首屆多智能體競賽中，中國團隊取得Learning組冠軍?；趩⒃悄軟Q策平臺訓(xùn)練的獲勝智能體，訓(xùn)練過程沒有人工干預(yù)，體現(xiàn)了自動調(diào)參體系的有效性和魯棒性，以及強化學(xué)習(xí)技術(shù)的價值。

近日，國際人工智能頂級大會NeurIPS2018順利落幕。8000多位來自全世界的人工智能研究人員齊聚加拿大蒙特利爾，討論分享過去一年全世界在人工智能的各個領(lǐng)域的最新進展。

該會議舉辦了一系列競賽來鼓勵學(xué)術(shù)界和工業(yè)界一起解決最有挑戰(zhàn)性的人工智能難題。作為人工智能領(lǐng)域歷史最悠久的學(xué)術(shù)會議之一，會議成果被視作人工智能領(lǐng)域的研究“風(fēng)向標(biāo)”。

NeurIPS首屆多智能體競賽，中國團隊展現(xiàn)世界實力

其中，由谷歌大腦、Facebook、牛津大學(xué)及在游戲AI界久負(fù)盛名的紐約大學(xué)等機構(gòu)聯(lián)合舉辦多智能體競賽——炸彈人團隊賽（The NeurIPS 2018 Pommerman Competition）尤其引人矚目。

多智能體競賽－炸彈人團隊賽

來自中國啟元世界的彭鵬博士、中科院計算所助理研究員龐亮博士和北師大的袁鈺峰組成的賽隊，與美國、歐洲、日本、中國的24支一流隊伍進行了激烈角逐。

最終，基于啟元決策智能平臺訓(xùn)練的Navocado雙智能體能力穩(wěn)定提升，奪得了Learning組冠軍，展現(xiàn)了來自中國的決策智能團隊具備的世界級技術(shù)實力。

啟元世界是一家2017年成立的以認(rèn)知決策智能技術(shù)為核心的公司，由前阿里、Netflix、IBM的科學(xué)家和高管發(fā)起，并擁有伯克利、CMU等知名機構(gòu)的特聘顧問。團隊核心能力以深度學(xué)習(xí)、強化學(xué)習(xí)、超大規(guī)模并行計算為基礎(chǔ)，擁有互聯(lián)網(wǎng)、游戲等眾多領(lǐng)域的成功經(jīng)驗。

炸彈人游戲：考驗多智能體協(xié)作、非完全信息博弈、持續(xù)學(xué)習(xí)等關(guān)鍵技能

決策智能目前是一個世界級的技術(shù)難題，決策過程也是人腦中最復(fù)雜的一種功能。

由于在游戲、交通、電力等領(lǐng)域具備極大的應(yīng)用前景，決策智能近年也成為全球人工智能研究的熱點，DeepMind、Facebook、OpenAI、微軟、亞馬遜等科技巨頭都成立了實驗室進行相關(guān)研究。

相較于單智能體，多智能體博弈的難度更是指數(shù)級增加。此次NeurIPS多智能體競賽是NeurIPS會議上首次開設(shè)多智能體競賽，將多智能體協(xié)作、非完全信息博弈，以及持續(xù)學(xué)習(xí)等關(guān)鍵問題濃縮到《炸彈人》這款游戲中，鼓勵全世界優(yōu)秀的研發(fā)人員一起參加解決技術(shù)挑戰(zhàn)。

競賽采用激烈雙淘汰機制 (Double Elimination)，25支參賽隊分別提供2個智能體參加2v2對抗賽。參賽隊伍的每個智能體初始都被困在一個封閉的區(qū)間中，智能體只有炸開附近的木箱才能進去其他區(qū)域。在幾乎所有障礙物都被清理干凈后，智能體進入到對抗階段，所有智能體都可以自由地在全局活動，這個階段智能體的主要目標(biāo)就是炸掉對手。

炸彈人學(xué)會準(zhǔn)確炸箱子，并且通過最短路徑尋路吃增強藥

競賽過程中智能體需要完成的任務(wù)包括：

1）清除障礙物，

2）躲避自己的炸彈火焰（智能體處于封閉區(qū)域），

3）收集裝備，

4）躲避自己和其他人的炸彈火焰（智能體相互對抗階段），

5）放炸彈殺死對手，

6）避免放炸彈殺死隊友。

整個過程，對智能體有效甄別和提取有效信息，同時對未知信息進行推理和假設(shè)，以及多智能體協(xié)作都提出了很高的技術(shù)要求。

炸彈人主動將炸彈朝對手方向踢出，精確擊潰對手

每個賽隊線下有2個月的時間進行模型訓(xùn)練。最終，基于啟元決策智能平臺訓(xùn)練的Navocado戰(zhàn)勝了來自加拿大的Skynet，拿下Learning組冠軍。Skynet的團隊來自加拿大近百人規(guī)模的科技公司Borealis.ai。

獲勝關(guān)鍵：分階段自適應(yīng)調(diào)參與獎勵塑性

從對戰(zhàn)過程來看，啟元的Navocado智能體的主動進攻能力明顯強于對手。

從Skynet在官網(wǎng)公開的實現(xiàn)方案來看，Skynet模型在決策過程中加入了很多人工干預(yù)（比如限制炸彈人不能往火焰里走），這和Navocado模型在整個訓(xùn)練和決策過程中不加人工干預(yù)、自主學(xué)會各項技能的方式也有較大的差距。

NeurIPS多智能體競賽終局：第600步（視頻中最下欄顯示），Navocado控制的一個炸彈人（黑色臉譜）在最正確的時機使用踢炸彈的方式將Skynet的一個炸彈人（白色臉譜）炸死。來源：啟元世界

視頻中展示的是Navocado和Skynet爭奪學(xué)習(xí)組冠軍的最后一戰(zhàn)。其中，兩個黑色臉譜的炸彈人屬于Navocado，而兩個白色臉譜的炸彈人屬于Skynet。

從視頻中可以看到，Navocado能夠在不產(chǎn)生多余步數(shù)的情況下，準(zhǔn)確地炸開木箱和收集裝備，而Skynet在這兩方面就做不太好。這也是這局比賽后期Navocado能夠占據(jù)主導(dǎo)的原因。

在第600步（視頻中最下欄顯示），Navocado控制的一個炸彈人在最正確的時機使用踢炸彈，將Skynet的一個炸彈人炸死。在視頻最后，Navocado控制的另一個炸彈人，同樣通過踢炸彈的方式終結(jié)對手。

Navocado的內(nèi)核模型是A2C，但是其最大的亮點在分階段自適應(yīng)調(diào)參和獎勵塑型的過程。由于問題的復(fù)雜性，普通的訓(xùn)練方式很難滿足Navocado長期成長的需求。

Navocado團隊介紹，他們的設(shè)計主要基于元學(xué)習(xí)的思想，將超參搜索 (Hyperparameter Search) 的過程由人工調(diào)參轉(zhuǎn)變?yōu)樽詣诱{(diào)參。這一技術(shù)在AlphaGo的調(diào)優(yōu)過程和Google的AutoML系統(tǒng)中都明顯的體現(xiàn)。

傳統(tǒng)的超參搜索主要有兩種模式：并行搜索和序列化搜索。其中，并行化搜索對計算量要求高，而且效率并不出眾；而序列化搜索則更是需要大量的人工干預(yù)，優(yōu)化效果并不穩(wěn)定。

但是，在Navocado的訓(xùn)練過程中，團隊通過基于群體競技的方式找出最優(yōu)的超參，從提高算力使用效率和減少人工干預(yù)的角度。

Navocado智能體持續(xù)訓(xùn)練過程中的效果提升曲線

technical report的鏈接: https://arxiv.org/abs/1812.07297

啟元智能決策平臺，體現(xiàn)強化學(xué)習(xí)技術(shù)價值

強化學(xué)習(xí)作為決策智能的核心技術(shù)，也是極具挑戰(zhàn)的一種機器學(xué)習(xí)方法。由于強化學(xué)習(xí)涉及到的鏈路很長，而強化學(xué)習(xí)算法本身對超參十分敏感，學(xué)術(shù)界中各人不同的實現(xiàn)或配置，都很容易導(dǎo)致出現(xiàn)訓(xùn)練結(jié)果不可復(fù)現(xiàn)的現(xiàn)象。強化學(xué)習(xí)技術(shù)在可復(fù)現(xiàn)性、可復(fù)用性和魯棒性方面存在著挑戰(zhàn)。

啟元從2017年起打造的決策智能平臺，在這次賽事奪冠的智能體訓(xùn)練中起到了關(guān)鍵作用。啟元決策智能平臺搭建了支持多智能體博弈的基礎(chǔ)架構(gòu)，能夠通過競技的方式實現(xiàn)多智能體持續(xù)學(xué)習(xí)的能力。平臺還支持包括自動化資源調(diào)度和自動調(diào)參的元學(xué)習(xí)，使得模型訓(xùn)練更加高效。

啟元世界彭鵬博士介紹，“啟元團隊對強化學(xué)習(xí)這個領(lǐng)域都很有Passion。這次我們在NeurIPS多智能體競賽奪冠的智能體，在每個階段的訓(xùn)練過程沒有人工干預(yù)，學(xué)習(xí)曲線非常漂亮，進一步驗證了這套體系的有效性和魯棒性，驗證了強化學(xué)習(xí)技術(shù)的價值。”

在使用啟元決策智能平臺的過程中，賽隊可以快速地調(diào)度所需資源進行任務(wù)部署，配置對戰(zhàn)所需的智能體，并且在訓(xùn)練過程實時觀察不同模型的對戰(zhàn)情況和勝率曲線，從而做出最快的調(diào)整。

圖3：啟元決策智能平臺架構(gòu)

在此次NeurIPS多智能體競賽中，啟元決策智能平臺提供了三大助力：

第一，支持智能體持續(xù)學(xué)習(xí)的能力。

持續(xù)學(xué)習(xí)的能力是智能體訓(xùn)練中關(guān)鍵的一環(huán)。在訓(xùn)練階段，炸彈人競賽中的智能體需要在學(xué)習(xí)新技能的過程中保留過去學(xué)會的技能，才能達(dá)到很高的水平。啟元決策智能平臺通過智能體群體匹配競技的方式實現(xiàn)“自然選擇”，從而達(dá)到持續(xù)學(xué)習(xí)的效果。在競技過程中，強者留存，弱者被淘汰。在弱者被淘汰之后，空出來的位置被強者的克隆體代替，而強者的克隆體則根據(jù)新的超參設(shè)定持續(xù)進化。在固定計算資源預(yù)算的情況下，啟元決策智能平臺通過這套機制在探索新強者 (exploration) 和深挖舊強者 (exploitation) 之間平衡對計算資源的使用情況。

第二，支持復(fù)雜場景的多智能體聯(lián)合訓(xùn)練。

在多智能體博弈問題中，不同智能體之間的相互克制較為常見，其收斂可能性極為復(fù)雜。在炸彈人競賽中，不同隊伍的智能體風(fēng)格迥異，有的善攻，有的善守?；凇蚌T魚效應(yīng)”的思想（指透過引入強者，激發(fā)弱者變強的效應(yīng)），啟元決策智能平臺在訓(xùn)練初期引入基于規(guī)則的高階對手，激發(fā)初期較弱的智能體在與強者的對決中學(xué)會各種基本技能，迅速提升變強；隨著訓(xùn)練階段的深入，啟元決策智能平臺同時訓(xùn)練多個智能體，使其在激烈的相互對抗中完善自我。

第三，支持基于私有云集群的大規(guī)模、高并發(fā)的模擬和大規(guī)模訓(xùn)練。

啟元決策智能平臺將架構(gòu)圖中所示的多個模塊進行組件化，并封裝到了容器中。通過云端自動化的方式管理數(shù)百CPU以及GPU資源并實現(xiàn)容器編排，降低了調(diào)度數(shù)十個炸彈人訓(xùn)練任務(wù)的成本。大規(guī)模、高并發(fā)的模擬計算以及大規(guī)模的訓(xùn)練同時在私有云集群中進行。另外，啟元決策智能平臺提供分布式存儲方案，并配置成共享模型池，為炸彈人智能體模型群體的持久化和共享提供支持。

啟元決策智能平臺v0.8版本目前已用于游戲、網(wǎng)絡(luò)智能及仿真等場景中。基于為客戶提供的高附加值服務(wù)，啟元世界在2018年商業(yè)化上小試牛刀，即已取得不錯的營收。

2019年，啟元世界計劃發(fā)布第一版啟元決策智能平臺型產(chǎn)品，為更多行業(yè)客戶、終端用戶帶去高體驗的服務(wù)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50453

瀏覽量
267506
智能體

智能體

+關(guān)注

關(guān)注
1

文章
601

瀏覽量
11652
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5613

瀏覽量
124706

原文標(biāo)題：NeurIPS首屆多智能體競賽，中國團隊獲Learning組冠軍

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

NeurIPS首屆多智能體競賽，中國團隊展現(xiàn)世界實力

評論