蜜臀久久99精品久久,欧洲精品啊啊超爽爽爽

2017年年初，Brain vs AI的德州撲克人機(jī)大戰(zhàn)在卡耐基梅隆大學(xué)(CMU)落幕，由4名人類職業(yè)玩家組成的人類大腦不敵人工智能程序Libratus。

獲勝后人類還遭到了Libratus的無(wú)情嘲諷。

但是那時(shí)候Libratus還只是個(gè)只能在1V1局里稱霸的超級(jí)玩家，要說(shuō)人類最喜歡的6人局這樣的“大場(chǎng)面”，當(dāng)時(shí)的Libratus還沒(méi)有拿到入場(chǎng)券。

而就在昨天，F(xiàn)acebook與CMU學(xué)Noam Brown、Tuomas Sandholm的最新研究成果——Pluribus，就在人類最常見(jiàn)的無(wú)限制德州撲克6人局里，戰(zhàn)勝了人類頂尖選手。

跟還是不跟？高手之間的對(duì)決

Darren Elias（1986年11月18日出生）是一名美國(guó)職業(yè)撲克玩家，曾獲得四項(xiàng)世界撲克巡回賽冠軍。

在他與Pluribus的對(duì)決過(guò)程中，Darren Elias從來(lái)沒(méi)有遇到過(guò)如此不害怕的對(duì)手。

一個(gè)有經(jīng)驗(yàn)的撲克玩家，當(dāng)有兩個(gè)J(一個(gè)面朝上，另一個(gè)藏起來(lái)，一手既不好也不壞)時(shí)，都會(huì)謹(jǐn)慎行事。但是Elias的對(duì)手看起來(lái)好像不知道該怎么做。即使當(dāng)Elias決定虛張聲勢(shì)（bluff），下注時(shí)看起來(lái)很有信心，而他的對(duì)手似乎在鼓勵(lì)他繼續(xù)！好像一點(diǎn)都沒(méi)有被嚇到。

最后，Elias的虛張聲勢(shì)沒(méi)有起作用，他輸了。

Elias

正如埃利亞斯先生意識(shí)到的，Pluribus知道什么時(shí)候該虛張聲勢(shì)，也知道別人在虛張聲勢(shì)，還知道什么時(shí)候該改變自己的行為，這樣其他玩家就無(wú)法確定自己的策略。32歲 Elias先生說(shuō): 它確實(shí)做了一些人類很難做到的事情。

贏的背后，只是8天的訓(xùn)練

之前AI和人玩游戲，要么是雙人游戲，如國(guó)際象棋、跳棋等，要么就是雙方之間的零和博弈（一方贏一方輸），AI可以在游戲中找到Nash equilibrium strategy（納什平衡）來(lái)保證自己不會(huì)輸。

關(guān)于Nash equilibrium strategy（納什平衡）屬于博弈論范疇（注：納什證明了，如果允許混合策略，那么任何一個(gè)博弈，只要參與者數(shù)量是有限的、參與者可以選擇的純策略也是有限的，那么這個(gè)博弈至少有一個(gè)納什均衡）。

以經(jīng)典的“石頭剪刀布”游戲?yàn)槔珹I可以在游戲中找到對(duì)方的弱點(diǎn)和常出的手勢(shì)進(jìn)行學(xué)習(xí)，以達(dá)到最終的勝利，而多人撲克意味著玩家數(shù)量的增多，在更復(fù)雜的游戲中，AI難以確定如何與納什均衡相抗衡;采用固定策略不能很快觀察到的對(duì)手的策略傾向，而且需要監(jiān)控到多個(gè)玩家在游戲中策略的轉(zhuǎn)變，這對(duì)于AI多人撲克博弈來(lái)說(shuō)，是一項(xiàng)挑戰(zhàn)。

鑒于多人游戲，如果學(xué)習(xí)多個(gè)玩家的出牌習(xí)慣等特征的訓(xùn)練數(shù)據(jù)集成本過(guò)大，這里Pluribus采用的策略是自己與自己博弈，不使用人類對(duì)手的數(shù)據(jù)作為模型訓(xùn)練的輸入。在開(kāi)始時(shí)，隨機(jī)的選擇玩法，通過(guò)不斷的訓(xùn)練來(lái)提升自己的性能，這里采用的博弈策略是改良版本的迭代的蒙特卡洛CFR（MCCFR），通過(guò)自我博弈，左右手互博，自己制定了一個(gè)blueprint strategy(藍(lán)圖策略），最后對(duì)每個(gè)可能的狀況進(jìn)行概率分布統(tǒng)計(jì)，通過(guò)搜索決策樹來(lái)決定下一步的行為，是叫牌還是出牌。

CFR是一種迭代的自我游戲算法，AI從完全隨機(jī)游戲開(kāi)始，然后通過(guò)學(xué)習(xí)擊敗早期版本的自己逐漸改進(jìn)。

在算法的每次迭代中，MCCFR指定一個(gè)玩家作為其當(dāng)前策略在迭代中更新的標(biāo)記。在迭代開(kāi)始時(shí)，MCCFR根據(jù)當(dāng)前所有玩家的策略(最初是完全隨機(jī)的)模擬一手撲克牌。一旦模擬完成，人工智能就會(huì)回顧每一個(gè)玩家做出的決定，然后通過(guò)選擇其他可用的行動(dòng)來(lái)預(yù)測(cè)這個(gè)決定的好壞程度。

Pluribus玩家博弈樹

在解決不完全信息博弈中搜索的問(wèn)題，Pluribus跟蹤每一手，根據(jù)其策略達(dá)到目前狀況的可能性。不管Pluribus實(shí)際上握著的牌，它首先會(huì)計(jì)算如何使用可能的每一手，謹(jǐn)慎地平衡所有的策略，以保持對(duì)于對(duì)手的不可預(yù)測(cè)性。

Pluribus 中的實(shí)時(shí)搜索

撲克以外的事

之前在1V1局中大勝人類的Libratus后來(lái)去五角大樓上班去了，國(guó)防部認(rèn)為這種策略型人工智能或許可以幫助他們進(jìn)行戰(zhàn)略的制定。

負(fù)責(zé) Pluribus 項(xiàng)目的研究員Noam Brown說(shuō)：“Pluribus的技術(shù)可以用于華爾街交易、拍賣、政治談判和網(wǎng)絡(luò)安全這些活動(dòng)中，這些活動(dòng)就像撲克一樣，涉及隱藏信息，因?yàn)槟悴⒉豢偸侵勒鎸?shí)世界的狀態(tài)。”

盡管像谷歌這樣的公司，有著“Don't be evil”的信條，但是，不可避免的是這樣能夠理解人類策略的人工智能，還是會(huì)引發(fā)大眾對(duì)于人工智能的某種恐懼，或者說(shuō)，如果這樣的人工智能被運(yùn)用到軍事決策中，將會(huì)帶來(lái)多嚴(yán)重的后果？

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
41492

瀏覽量
302806
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
67

文章
8567

瀏覽量
137292

原文標(biāo)題：AI賭神升級(jí)！無(wú)懼bluff，6人局德?lián)渫陝偈澜绻谲?，?xùn)練只用了8天

文章出處：【微信號(hào)：AItists，微信公眾號(hào)：人工智能學(xué)家】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

AI賭神贏的背后,只是8天的訓(xùn)練

評(píng)論