原標(biāo)題: deepmind ai在《星際爭(zhēng)霸2》中虐待99.8%的人,頂級(jí)宗師段位源:騰訊情報(bào)
新智元報(bào)道
資料來源: pc gamers等
:嘯林
在rts游戲中,電腦ai=人工智能障礙?
對(duì)很多游戲玩家來說,游戲中內(nèi)置的計(jì)算機(jī)ai就像個(gè)笑話,應(yīng)該被稱為“人工智能障礙”。
與玩家匹敵的電腦ai往往被分配了超過玩家的資源。 例如,在“紅警”中打10個(gè)冷酷的敵人,在“魔獸世界”中打瘋狂的電腦。 計(jì)算機(jī)ai的特征來自遠(yuǎn)超玩家的資源和造兵速度,以及對(duì)ai停止戰(zhàn)爭(zhēng)等各種作弊。
這時(shí),人類玩家常見的獲勝方法要么在自己精心打磨的游戲水平上變硬,要么利用電腦夾克的缺陷“從后門”。 無論如何,這表明ai預(yù)編程的戰(zhàn)略不能適應(yīng)靈活狡猾的人類玩家。
比如這張圖,電腦終于學(xué)會(huì)了藏匿基地這個(gè)人類的基本操作,玩家露出了喜悅的阿姨的笑聲。
計(jì)算機(jī)ai戰(zhàn)略的第一個(gè)問題是,如果不作弊(不免除戰(zhàn)爭(zhēng)霧),可以心理推測(cè)玩家的單位在哪里,玩家遵循什么樣的趨勢(shì),比較能應(yīng)對(duì)他們的第一次攻擊。
無論是游戲ai的無腦缺陷,還是人類玩家竊笑,這在訓(xùn)練中引入深度學(xué)習(xí)( dl )時(shí)突然停止了。
為什么集中在星際旅行2上? 極多,雜亂,高度真實(shí)
星際爭(zhēng)霸是暴雪制的經(jīng)典實(shí)時(shí)戰(zhàn)術(shù)( rts )游戲,以對(duì)戰(zhàn)術(shù)思維的強(qiáng)烈考驗(yàn)、精妙的種族平衡和極強(qiáng)的玩耍性而聞名,玩家也需要在經(jīng)濟(jì)宏觀管理和微觀個(gè)人控制之間保持謹(jǐn)慎的平衡。
從星際旅行1到星際旅行2,這個(gè)rts神作被列為世界電子競(jìng)技的核心項(xiàng)目之一。
年暴雪狂歡節(jié),人山人海的星際爭(zhēng)霸2場(chǎng)比賽
ai中下棋、圍棋、“危險(xiǎn)邊緣”(英語: jeopardy! 梅夫·格里芬1964年創(chuàng)立的美國電視猜謎節(jié)目)之后,大家都認(rèn)識(shí)到《星際爭(zhēng)霸2》是ai的下一個(gè)重大挑戰(zhàn)。 ai巨頭們紛紛搓手,試圖跳到科普羅星區(qū)的蟲海、坦克群和高級(jí)圣堂武士們。
他們之所以對(duì)星際旅行感興趣,是因?yàn)樗銐蚨?,雜亂無章,可以模擬現(xiàn)實(shí)生活。
ai做星際旅行的風(fēng)云人物、紐芬蘭紀(jì)念大學(xué)的計(jì)算機(jī)科學(xué)教授david churchill說:“星際旅行太多太復(fù)雜了。 也可以適用于星際旅行的機(jī)器人,也可以應(yīng)對(duì)現(xiàn)實(shí)生活中的其他問題。 ”。
星際旅行不存在最佳戰(zhàn)略,ai需要不斷探索、展開和更新自己的戰(zhàn)術(shù)知識(shí)。
操作空之間巨大,需要操作數(shù)百個(gè)不同的單位,因此可能的組合空之間非常大。
游戲的過程很長,需要長時(shí)間的計(jì)劃。 正如多個(gè)現(xiàn)實(shí)世界的問題一樣,因果關(guān)系不是瞬間產(chǎn)生的。 游戲初期采取的行動(dòng)可能長時(shí)間沒有回報(bào),所以要鍛煉ai的長線思考能力。
“星際旅行對(duì)人類來說是最難的游戲。 就像下棋一樣,我也踢足球。 你需要高度集中的觀察力,超人般的手指和胳膊,以及超過普通人的戰(zhàn)術(shù)頭腦。 ”。
alphastar和人類玩家mana互相殘殺
另外,與國際象棋游戲不同,在《星際爭(zhēng)霸》中,大量的“棋子”對(duì)ai提出了巨大的挑戰(zhàn)。
alphago下棋,可能的手一共是10的170次方,這個(gè)數(shù)字比整個(gè)宇宙原子數(shù)10的80次方多。 這對(duì)星際旅行來說是兒科。
星際旅行每一瞬間有10的26次方的可能操作。 我?guī)缀鯚o法計(jì)算。 盡管如此,ai被限制在以人類的速度操作,不得不通過制定戰(zhàn)術(shù)而不是通過一系列超人類的無敵操作轟炸人類的對(duì)手。
alphastar的平均apm為277,玩家可以達(dá)到559。
根據(jù)deepmind團(tuán)隊(duì)在nature上發(fā)表的論文,星際旅行成為了人工智能研究的重要挑戰(zhàn)。 這是因?yàn)椤疤焐亩鄻有院投啻砣说奶魬?zhàn),在最困難的專業(yè)電子競(jìng)賽中達(dá)到了持續(xù)的地位,同時(shí)與現(xiàn)實(shí)世界有著很強(qiáng)的關(guān)聯(lián)性”。
為什么ai玩星際爭(zhēng)霸2這么多復(fù)雜的游戲? 因?yàn)楹芏鄰?fù)雜的游戲是對(duì)現(xiàn)實(shí)的優(yōu)秀模擬。
如果ai能像人一樣在這么多復(fù)雜的環(huán)境中實(shí)時(shí)地感知、分解、理解、推理、決定、行動(dòng),ai就會(huì)發(fā)生變化,在很多復(fù)雜的實(shí)際環(huán)境中發(fā)揮更大的作用。
deepmind的alphastar用血虐待人類,占宗師的段位
來自谷歌的deepmind團(tuán)隊(duì)訓(xùn)練了最強(qiáng)的星際旅行ai alphastar,在星際旅行2的一系列掃盲游戲(也就是說,人類笨蛋們不知道和他們對(duì)戰(zhàn)的是ai )中打敗了弱者。
在排行榜上達(dá)到了宗師水平,在歐洲的服務(wù)器上表現(xiàn)出了99.8%以上的人。
看看deepmind團(tuán)隊(duì)是如何談?wù)撔伦趲焌lphastar的誕生的
為什么deepmind隊(duì)選擇了主攻電腦游戲? 這可能不令人吃驚。 因?yàn)槭紫瘓?zhí)行官是demis hassabis。
谷歌首席執(zhí)行官sundar Pichai
一個(gè)老玩家可能知道他做的游戲。 在為bullfrog的游戲syndicate(bullfrog1993年發(fā)售的即時(shí)戰(zhàn)術(shù)游戲)提供了一點(diǎn)水平設(shè)計(jì)后,當(dāng)時(shí)17歲的hassabis與1994年游戲《主題公園》的共同設(shè)計(jì)師成為了首席。 這個(gè)游戲賣了一百萬部。
基于硬件: 10億次浮點(diǎn)運(yùn)算的液冷tpu
alphastar在google自己的張量解決單元( tpu )上運(yùn)行,是為神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)開發(fā)的asic。
這個(gè)芯片構(gòu)成了多個(gè)服務(wù)的后端。 例如,一個(gè)芯片可以用google photos每天解決一億張以上的照片,google street view不到五天就可以提取數(shù)據(jù)庫中的所有副本。
說到“張量”,當(dāng)然要與在nvidia的rtx gpu上啟用dlss的張量核進(jìn)行比較。 tpu比gpu精度低,缺乏用于紋理化和光柵化的硬件,但巨大的計(jì)算有驚人的速度。
谷歌在高達(dá)1024芯片的存儲(chǔ)吉魯上部署了第三代tpu。
谷歌母公司alphabet首席執(zhí)行官sundar pichai在位于加利福尼亞山景城的企業(yè)年度i / o會(huì)議上說:“每個(gè)艙的運(yùn)算速度現(xiàn)在超過了10億次浮點(diǎn)運(yùn)算?!?/p>
“這使我們可以開發(fā)更好、更大、更準(zhǔn)確的ml模型來處理更大的問題。 這些芯片非常強(qiáng)大,必須在數(shù)據(jù)中部署第一個(gè)液體冷卻中心。 ”。
44天相當(dāng)于玩了200年,拓寬了新的玩法界限。
alphastar通過觀看暴雪發(fā)表的匿名人類游戲開始訓(xùn)練。 開始模仿這些策略,很快就能在95%的比賽中打敗游戲內(nèi)置電腦的精英水平。
在游戲的三個(gè)種族中,alphastar喜歡神族protoss,但研究者最終認(rèn)為蟲族zerg和人族terran也是并列的。
然后采用“alpha league”循環(huán)比賽的做法,首先對(duì)從人類數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),然后依次重復(fù),不同的ai實(shí)例開始相互對(duì)戰(zhàn),使用成功實(shí)例的分支,新的PHA
最后選擇alpha league中最難利用的代理,稱為“the nash of league”挑戰(zhàn)人類。
用血洗頂級(jí)職業(yè)選手
alphastar的訓(xùn)練只花了44天,deepmind估計(jì)相當(dāng)于每個(gè)ai代理做了200年的星際旅行2。 然后打敗了99.8%的人類。
年12月10日,alphastar以5:0的戰(zhàn)績擊敗team liquid職業(yè)星際2選手tlo,經(jīng)過更多訓(xùn)練,于12月19日再次以5:0的完勝戰(zhàn)績血洗職業(yè)選手mana,但在下一場(chǎng)表現(xiàn)比賽中輸給了mana。
alphastarvs mana,血液清洗
alphastarvs serral,當(dāng)時(shí)星際爭(zhēng)霸2是最強(qiáng)的“統(tǒng)治者”,這張盤輸了,但后來以3:1打敗了他
tlo在deepmind的博客中回顧說:“我很驚訝ai這么強(qiáng)?!?/p>
他還說:“ai也顯示了我從來沒有想過的戰(zhàn)略。 這意味著我們可能還有沒有充分探索的新玩法”。 和尋求孤獨(dú)失敗的圍棋宗師alpha zero一樣,對(duì)游戲的理解聽起來超過了人類。
接下來拿到星際爭(zhēng)霸2世界冠軍獎(jiǎng)杯的,可能真的不是人類玩家,而是alphastar。
參考鏈接:
ai研究者如何應(yīng)對(duì)所有“星際爭(zhēng)霸2”的初學(xué)者
pcgame r/how-a-team-of-ai-researchers-took-on-all-comers-at-starcraft-2 /
1:10! 《星際爭(zhēng)霸2》淪陷的人類被ai用血清洗了
news.mydrivers/1/612/612721
全天候滾動(dòng)播放最新的財(cái)經(jīng)信息和視頻,越來越多的粉絲福利掃描二維碼備受關(guān)注( finance )。
標(biāo)題:【熱門】Deepmind AI在《星際爭(zhēng)霸2》血虐99.8%人類,登頂宗師段位
地址:http://m.swled.com.cn/gphq/2805.html