日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

人類這次輸給的是怎樣的進(jìn)階版“AI 英雄”?

人工智能和機器人研究院 ? 來源:未知 ? 作者:李倩 ? 2018-08-08 19:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

去年,OpenAI 在 DOTA 的 1v1 比賽中戰(zhàn)勝了職業(yè)玩家 Dendi,而在距離進(jìn)階版 OpenAI Five 系統(tǒng)戰(zhàn)勝人類業(yè)余玩家不過一個月的時間,凌晨,它又以 2:1 的戰(zhàn)績再次完成對人類高級玩家的“屠殺”,GG(人類贏的最后一局純屬耍賴)。

相比之下,人類這次輸給的是怎樣的進(jìn)階版“AI 英雄”?

此次,OpenAI Five 對陣 5 個高級玩家(解說員+前職業(yè)玩家)——Blitz, Cap, Fogged, Merlini 和 Moonmeander,他們的平均天梯分 6000 以上。反觀 OpenAI Five,根據(jù)公開資料,它的實力相當(dāng)于人類玩了 180 年的游戲,而且每天都與自己進(jìn)行對抗學(xué)習(xí),學(xué)習(xí)過程非常復(fù)雜,需要在 256 個 GPU 和 128,000 個 CPU 上運行擴展版本的近端策略優(yōu)化(PPO)進(jìn)行訓(xùn)練。

它對每個英雄使用了單獨的 LSTM(長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)),并且沒有人類數(shù)據(jù),它會學(xué)習(xí)可識別的策略,這表明強化學(xué)習(xí)可以產(chǎn)生可實現(xiàn)規(guī)模的長期規(guī)劃。

此外,就應(yīng)用環(huán)境而言,不同于棋牌游戲的固定規(guī)則,像 DOTA2 這樣的復(fù)雜視頻游戲是 5v5 對決的戰(zhàn)略游戲,況且,DOTA 游戲已經(jīng)不斷開發(fā)了十幾年,游戲邏輯中有數(shù)十萬行代碼,且每兩周更新一次,游戲語義在不斷產(chǎn)生變化。

因此,AI 玩 DOTA 的難度可想而知,它首先需要解決以下四大問題:長時視野;局部觀察狀態(tài);高維、連續(xù)的動作空間;高維、連續(xù)的觀察空間。

模型架構(gòu)

OpenAI Five 的每個網(wǎng)絡(luò)都包含一個單層的、1024-unit 的 LSTM,它可以查看當(dāng)前的游戲狀態(tài)(從 Valve 的 Bot API 中抓?。?,并通過幾個可能的 action heads 發(fā)出動作。每個 head 都具有語義含義,例如延遲動作的刻度數(shù),選擇哪一個動作,該動作在單元周圍網(wǎng)格中的 X 或 Y 坐標(biāo)等。Action heads 是獨立計算的。

OpenAI Five 使用觀察空間(observation space)和動作空間(action space)進(jìn)行交互式演示。OpenAI Five 將世界視為 20000 個數(shù)字的列表,并通過發(fā)出一個包含 8 個枚舉值(enumeration values)的列表來執(zhí)行操作。通過選擇不同的行動和目標(biāo),我們可以了解 OpenAI Five 如何編碼每個動作,以及如何觀察世界。下圖是人類會看到的場景。

OpenAI Five 可以對與它所看到的相關(guān)的丟失狀態(tài)片段做出反應(yīng)。例如,直到最近,OpenAI Five 的觀察區(qū)域才包括狙擊手的技能范圍(子彈落在敵人身上的區(qū)域)。然而,我們觀察到 OpenAI Five 可以學(xué)習(xí)走出(雖然不能避免進(jìn)入)狙擊手的技能范圍,因為當(dāng)進(jìn)入這個區(qū)域時,它可以看到自己的血量是在減少的。

探索

就算有學(xué)習(xí)算法能夠處理較長的視野,我們?nèi)匀恍枰獙Νh(huán)境進(jìn)行探索。因為即使我們設(shè)定了各種限制,仍然有數(shù)百種道具、幾十種建筑、法術(shù)、單元類型、長尾游戲機制,以及因此產(chǎn)生的各種組合,想要有效地探索這個巨大的空間其實并不容易。

OpenAI Five 可以從隨機權(quán)重開始,從自我博弈中學(xué)習(xí)。 為了避免“策略崩潰”,智能體在訓(xùn)練的時候,80% 的游戲都是自我對抗, 另外 20% 則是與過去的自己進(jìn)行對抗。在自我對抗時,英雄首先會漫無目的繞著地圖游走。經(jīng)過幾個小時的訓(xùn)練后,智能體開始有了一些概念,例如建造、中路對線等。幾天之后,他們始終采用基本的人類策略:試圖從對手那里偷走 Bountyrunes等。 通過進(jìn)一步的訓(xùn)練,它們可以熟練掌握 5 個英雄集中推塔的高級策略。

OpenAI Five 使用了 1v1 機器人里的隨機化的方法 。它還使用了一個新的路線分配(lane assignment)策略。 在每個訓(xùn)練游戲開始時,他們隨機地將每個英雄“分配”到一些 lane 的子集,在到隨機選擇的時間之前,如果英雄偏離這些路線,就會受到懲罰。

當(dāng)然,也有獎勵來幫助智能體探索環(huán)境,主要包括凈值(net worth)、殺敵數(shù)(kills)、死亡數(shù)(deaths)、助攻(assists)、最后一擊(last hits) 等指標(biāo)。他們通過減少其他團(tuán)隊的平均獎勵,來對每個智能體的獎勵進(jìn)行后續(xù)處理,以防止智能體找到正和博弈(positive-sum)的情況。

他們也對道具和技能構(gòu)建進(jìn)行了硬編碼,同時,也通過腳本基線( scripted baseline)引入了信使管理(Courier management)。

Rapid

這個系統(tǒng)的實現(xiàn)使用了被稱為“Rapid”的通用 RL 訓(xùn)練系統(tǒng),它適用于任何多人模式環(huán)境。

訓(xùn)練系統(tǒng)分為 rolloutworkers,運行游戲副本,智能體(agent),用來收集經(jīng)驗,優(yōu)化器節(jié)點(optimizer nodes)執(zhí)行跨 GPU 組的同步梯度下降。每次訓(xùn)練還包括分別對訓(xùn)練機器人以及樣本機器人進(jìn)行評估的組件,以及監(jiān)視軟件,比如 TensorBoard,Sentry 以及 Grafana。

在同步梯度下降運算過程中,每一個 GPU 組件都會運算自己負(fù)責(zé)的批處理部分的梯度計算,隨后整體梯度再進(jìn)行平均計算。他們原本使用消息傳遞借口的規(guī)約算法進(jìn)行平均計算,現(xiàn)在則使用英偉達(dá)的多卡通型框架 NCCL2 的封裝函數(shù)來實行 GPU 并行計算以及網(wǎng)絡(luò)間數(shù)據(jù)傳輸。同步 58MB 大小數(shù)據(jù)(用于 OpenAI Five 的參數(shù))的延遲顯示在表格之中,延遲時間足夠低能滿足大部分?jǐn)?shù)據(jù)被進(jìn)行并行運算的 GPU 標(biāo)記。

與人類的不同

OpenAI Five 獲取的信息和人類完全一致,但是系統(tǒng)能馬上反應(yīng)到類似位置、生命值以及物品更新情況等等人類玩家需要定時觀察的信息。OpenAI Five 的平均 APM 在 150-170 之間(理論上最快可以達(dá)到 450 考慮到每四幀一動),平均反應(yīng)時間為 80 毫秒,比人類平均速度要快很多。

很多職業(yè)選手在去年 TI 結(jié)束后都使用 bot 進(jìn)行訓(xùn)練。根據(jù) Blitz 的說法 solo bot已經(jīng)改變了人們對 solo 賽節(jié)奏的看法,bot 偏向于快節(jié)奏風(fēng)格,現(xiàn)在大多數(shù)選手也已經(jīng)使用快節(jié)奏風(fēng)格來和 bot 抗衡。

AI 在 Dota2 中的節(jié)奏和執(zhí)行力非常強了,這是不是意味著它沒有優(yōu)化空間了?當(dāng)然不是,此次的 OpenAI Five 還是有諸多限制,比如系統(tǒng)在進(jìn)行最后一擊時較弱,其客觀優(yōu)先級與一個共同的專業(yè)策略相匹配,獲得戰(zhàn)略地圖控制等長期獎勵往往需要犧牲短期獎勵。

Open AI 方面稱,在今年后續(xù)的 TI 表演賽上,還會有職業(yè)玩家繼續(xù)挑戰(zhàn) AI,但結(jié)果想來也是實力“嘲諷”人類?;蛟S,更讓人期待的是,在 Dota2 這樣的復(fù)雜游戲中,是否會出現(xiàn)“AI vs AI”的神仙打架比賽?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11337

    瀏覽量

    226009
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108212
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41370

    瀏覽量

    302741

原文標(biāo)題:open AI 在DOTA 5v5 比賽中戰(zhàn)勝職業(yè)選手

文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機器人研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    [完結(jié)15章]Java轉(zhuǎn) AI高薪領(lǐng)域必備-從0到1打通生產(chǎn)級AI Agent開發(fā)

    拒絕原地踏步:Java工程師AI轉(zhuǎn)型的底層技術(shù)破局之道 在軟件工程范式被大語言模型(LLM)徹底顛覆的今天,傳統(tǒng)的“Java CRUD boy”正面臨著前所未有的生存危機。當(dāng)業(yè)務(wù)邏輯的生成可以被
    發(fā)表于 04-30 13:46

    論馬斯克的預(yù)言:AI使人類邊緣化

    當(dāng)?shù)貢r間3月11日,在“Abundance Summit”科技峰會上,馬斯克談及AI進(jìn)展時表示,AI已經(jīng)進(jìn)入自我改進(jìn)階段,在超高量級AI面前,人類
    發(fā)表于 03-14 05:27

    面對AI降維打擊,陳天橋的全新解法:人類必須“肉身進(jìn)化”

    “堅船利炮已經(jīng)出現(xiàn)在地平線上,而我們還堅持用大刀長矛守港口?!?這是陳天橋在最新文章中對當(dāng)前人類處境的驚人比喻。這里的“堅船利炮”,指的是正在爆發(fā)的人工智能。與主流觀點擔(dān)憂AI搶走工作不同,陳天橋
    的頭像 發(fā)表于 01-16 17:11 ?1097次閱讀

    ETAS INCA軟件的五個實用進(jìn)階功能

    在上一篇文章中我們介紹了INCA軟件如何賦能高效的ECU開發(fā)及新能源挑戰(zhàn),本篇內(nèi)容將繼續(xù)深入探討INCA的五個實用進(jìn)階功能。
    的頭像 發(fā)表于 12-08 16:42 ?2780次閱讀
    ETAS INCA軟件的五個實用<b class='flag-5'>進(jìn)階</b>功能

    當(dāng)樂鑫科技ESP32-S3遇到攝像頭,秒變AI相機

    跨越算法到硬件的鴻溝,啟明云端不斷憑借完整的AI硬件解決方案幫助各個企業(yè)實現(xiàn)了AI創(chuàng)意落地。這次AI夢想實現(xiàn)家”又抓住了誰的靈感讓它成真了?AI
    的頭像 發(fā)表于 10-21 18:05 ?724次閱讀
    當(dāng)樂鑫科技ESP32-S3遇到攝像頭,秒變<b class='flag-5'>AI</b>相機

    AI賦能6G與衛(wèi)星通信:開啟智能天網(wǎng)新時代

    人類專家能專注于更復(fù)雜的問題。 預(yù)測性維護(hù):讓衛(wèi)星\"長壽\"的秘密 衛(wèi)星在軌運行壽命通常為10-15年,但設(shè)備故障往往是突然發(fā)生的。AI通過分析衛(wèi)星運行數(shù)據(jù)(如溫度、功耗、信號
    發(fā)表于 10-11 16:01

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    AI大家都很了解了吧;AGI是什么呢? AGI:通用人工智能,可以再各個應(yīng)用領(lǐng)域都具備AI的處理能力。 AGI可以組成能夠24小時連續(xù)工作的優(yōu)秀員工隊伍,他們擁有比人類更強的能力和領(lǐng)導(dǎo)力,能夠
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學(xué)應(yīng)用

    AI被賦予了人的智能,科學(xué)家們希望在沒有人類的引導(dǎo)下,AI自主的提出科學(xué)假設(shè),諾貝爾獎級別的假設(shè)哦。 AI驅(qū)動科學(xué)被認(rèn)為是科學(xué)發(fā)現(xiàn)的第五個范式了,與實驗科學(xué)、理論科學(xué)、計算科學(xué)、數(shù)據(jù)驅(qū)
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升算力還是智力

    、浪費資源與破壞環(huán)境 二、用小模型代替大模型 1、強化學(xué)習(xí) 2、指令調(diào)整 3、合成數(shù)據(jù) 三、終身學(xué)習(xí)與遷移學(xué)習(xí) 1、終身學(xué)習(xí) 終身學(xué)習(xí)是一種模仿人類行為的AI算法,旨在構(gòu)建一種能不斷適應(yīng)新環(huán)境、在不斷接收
    發(fā)表于 09-14 14:04

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    ,又分為真菌計算和基于DNA的計算。 圖4 基本的真菌計算機結(jié)構(gòu) 在用化學(xué)和生物方法實現(xiàn)AI功能的過程中,要經(jīng)歷5個階段,見圖5所示。 圖5 以化學(xué)和生物方法實現(xiàn)AI功能各階段 期待從AI硬件到
    發(fā)表于 09-06 19:12

    AI輸出“偏見”,人類能否信任它的“三觀”?

    ,大語言模型(LLM)正悄無聲息地傳播全球各地的刻板印象。從性別歧視、文化偏見,到語言不平等,AI正在把人類的“偏見行李”打包、升級,并以看似權(quán)威的方式輸出到世界
    的頭像 發(fā)表于 08-04 13:43 ?1460次閱讀
    <b class='flag-5'>AI</b>輸出“偏見”,<b class='flag-5'>人類</b>能否信任它的“三觀”?

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    計算等類別AI芯片的及時、全面而富有遠(yuǎn)見的書?!?那么時至今日,這個世界發(fā)生了什么變化呢? 在這四年間,最重大的技術(shù)變革無疑就是大模型的橫空出世,人類的時間仿佛被裝上了加速器,從ChatGPT到
    發(fā)表于 07-28 13:54

    AI初創(chuàng)公司為野火提供早期預(yù)警

    AI 正在幫助人類更快、更有效地識別和治療疾病。接下來,AI 還將幫助人類預(yù)防像野火這樣的自然災(zāi)害。
    的頭像 發(fā)表于 05-29 14:18 ?1199次閱讀

    RK3568驅(qū)動指南|驅(qū)動基礎(chǔ)進(jìn)階篇-進(jìn)階7 向系統(tǒng)中添加一個系統(tǒng)調(diào)用

    RK3568驅(qū)動指南|驅(qū)動基礎(chǔ)進(jìn)階篇-進(jìn)階7 向系統(tǒng)中添加一個系統(tǒng)調(diào)用
    的頭像 發(fā)表于 05-21 14:15 ?850次閱讀
    RK3568驅(qū)動指南|驅(qū)動基礎(chǔ)<b class='flag-5'>進(jìn)階</b>篇-<b class='flag-5'>進(jìn)階</b>7 向系統(tǒng)中添加一個系統(tǒng)調(diào)用

    AI時代:不可替代的“人類+”職業(yè)技能

    不在于“搶工作”本身,而在于人類如何通過職業(yè)技能培訓(xùn)重新定義不可替代性。 一、替代與創(chuàng)造的辯證關(guān)系 AI對就業(yè)的影響從來不是單向的。歷史經(jīng)驗表明,每次技術(shù)革命在消滅某些崗位的同時,總會催生更多新職業(yè)。但這次的不同
    的頭像 發(fā)表于 05-20 16:13 ?890次閱讀
    丹凤县| 探索| 瑞安市| 宁陕县| 天祝| 张家口市| 遵义市| 湘阴县| 镇原县| 南江县| 托克逊县| 敦煌市| 彭泽县| 江都市| 姜堰市| 周至县| 高陵县| 蚌埠市| 天等县| 邵东县| 浦东新区| 呼和浩特市| 上杭县| 太谷县| 垦利县| 稻城县| 平定县| 武川县| 铁岭市| 深州市| 迁安市| 崇义县| 阳朔县| 于田县| 绥棱县| 全椒县| 宝坻区| 江门市| 定安县| 清苑县| 贵港市|