在德州撲克人機大戰(zhàn)中,四位職業(yè)牌手與 CMU 開發(fā)的人工智能系統(tǒng) Libratus 進行了激烈對抗。
Libratus是卡耐基梅隆大學(xué)的托馬斯·桑德霍爾姆和諾姆·布朗(Noam Brown)開發(fā)的。他們以前開發(fā)的機器人 Claudico 在 2015 年的德州撲克比賽中沒能擊敗職業(yè)牌手。
“一對一無限注德州撲克”就是兩個人玩的賭博游戲,因為事先會給每位玩家分發(fā) 2 張底牌,所以對方“底牌信息”你是不知道的,對于計算機來說,就是在處理一種“非完整信息博弈”。我們知道 AlphaGo 玩圍棋,對弈雙方的信息是完整的、對稱的,并沒有隱藏的信息。所以在德州撲克上AI取得了進步,是具有重要意義的。
比賽期間,前三輪比賽失利后,四位職業(yè)牌手在第四天和第六天的比賽中獲得勝利。Libratus 原本領(lǐng)先193000 美元,在第六輪比賽后 Libratus 僅領(lǐng)先 51000美 元。
在人類選手反擊迅猛之時,牌手之一詹森·萊斯便在一封電子郵件中寫道:
我們花了一段時間學(xué)習(xí),以理解正在發(fā)生的事情。
然而,隨后 Libratus 的表現(xiàn)讓所有非常人吃驚:再次獲得關(guān)鍵性勝利。第 10 天結(jié)束時,Libratus 已經(jīng)領(lǐng)先 677000 美元,而且局勢也似乎不可逆轉(zhuǎn)。
跟 AlphaGo 相似,Libratus 也可通過增強學(xué)習(xí)進行自我博弈和學(xué)習(xí)。
Libratus 的開發(fā)者之一托馬斯·桑德霍爾姆也說道:
我們不能詳細談?wù)?Libratus 的技術(shù),直到比賽結(jié)束為止。但是,我可以告訴大家,Libratus 的算法一直在超級計算機上運行,所以超級計算機每天都在輸出改進的策略。
今年 1 月底,Libratus 可能會在下一場比賽中再次擊敗人類。到目前為止,機器人還沒有在無限制德州撲克團體賽中擊敗過人類,但這一天也許不會太遠了。
人工智能撲克機器人的研發(fā)具有重大意義。首先,它是一種教導(dǎo)人工智能系統(tǒng)處理不完整信息的方式。諾姆·布朗指出“在現(xiàn)實世界中,所有的相關(guān)信息通常不像棋盤上的棋子那樣明顯。有些重要的信息會丟失或隱藏,人工智能需要能夠處理這樣的信息。”