AI赌神超进化

大发888扑克

PingWest昨天玩我想分享

Depp Six-Player击败了世界冠军,虚张声势,每小时赢得1000刀,训练费150美元。

image.php?url=0MbdLGOknW

转载免责声明:本文经许可转载“量子比赛”搜索“QbitAI”跟随蜀作者:栗子干出鱼羊

人工智能赌博上帝完成了超级进化!

两年前,Libratus在20天内击败了四名顶级德州扑克选手,但只有1v1。现在全新的赌博之神Pluribus终于取得了突破并统治了多人游戏局:

击败六人无限制游戏中的顶级玩家。

在扑克结束时,AI只能是一对一的,Pluribus已成为多人复杂游戏的里程碑。与Go相比,它比1v1 Dep困难得多。

Pluribus不仅获胜,而且获胜和刷新,每手只花20秒,是人类专业人士的两倍。它对计算能力的要求远低于AlphaGo of Go,只需两个CPU即可运行。

共有15名顶级人类大师被新的AI赌博之神击败。有关官员表示,如果每块芯片价值1美元,Pluribus每手可赢5美元并赢得每小时1,000美元。

其中包括扑克世界的传奇,世界扑克冠军赛(WSOP)冠军克里斯弗格森。

image.php?url=0MbdLGntQN

他的“获奖演讲”如下:

Pluribus是一个非常困难的对手,任何一只手都很难吃掉它。

他也非常擅长在最后一手牌上进行小赌注(Thin Bet,感觉他的牌比对手更强,然后投注挤压对手),非常擅长拿出好牌来提取价值。

另一位职业球员杰森莱斯说:

像怪物一样,它的虚张声势技巧比任何人类虚张声势都要高效。

.

两位AI Gambler的父亲仍然是Libratus的父亲,来自Facebook和CMU。凭借这一辉煌的新成就,他们登上了科学。

所以,让我们首先欣赏游戏的场景,人类如何被揉在地上:

在游戏中,Pluribus在开始时获得了相同的花块5和6。在第一轮投注结束后,在发行三张公共牌(黑桃4号,2号和10号)后,还有3名其他玩家。在场,两次检查,一次加注。

虽然此时Pluribus的名称并不大,但它直接全押,是的,它直接全押。

结果,其他几位大师已经折叠并消失了。可以说诈唬非常好。

多年来,扑克一直是人工智能领域难以解决的重大挑战。

因为扑克有隐藏的信息,你不知道你的对手的牌。赢得游戏需要虚张声势,并且需要很多技能,这些技能在象棋和游戏等游戏中都没有涉及。

这是AI扑克牌的巨大障碍,另一个障碍是多人游戏。

前AI所玩的游戏要么是两个人,要么是两队之间的零和游戏(一胜一负):跳棋,国际象棋,去,星际2或DOTA 2.

image.php?url=0MbdLGHZnF

▲DeepMind AlphaStar在2分钟内击败人类。

在这些游戏中,AI非常成功,因为它可以制定纳什均衡策略:你可以选择一系列动作,无论你的对手做什么,你至少都不会失败。对手也是如此。

但是,并不总能找到纳什余额:

首先,如果你观察对手的弱点以获得纳什的平衡,例如,对手经常有剪刀,AI总能制造石头,但对手也可以根据AI的选择调整他的策略。此方法需要大量数据。

其次,如果是多人游戏,即使每个玩家都找到了自己的纳什余额,加在一起也不一定是纳什余额,因为游戏不是零和游戏:

一个例子是Lemonade Stand游戏。每个玩家都应该尽量远离其他玩家。纳什余额等于所有球员。但是,每个玩家都会找到一个平衡点来计算,而且每个人计算的联合策略都不太可能是纳什余额。

image.php?url=0MbdLGAQLW

因此,Pluribus没有采用博弈论来找到一个不失败的均衡策略。它旨在打败人类。

要做到这一点,众所周知的前任Libratus的反事实遗憾最小化(CFR)算法不能。

Libratus在游戏中对抗隐藏信息的策略是让人工智能相互对抗,对抗自己,采取随机策略,并在每场比赛后看看每场比赛的手牌,看看什么样的牌是令人遗憾的,然后尝试不同的决策策略。点击简历。

在双人战斗中,这种战略效应正在展开。

然而,在不完全信息的游戏中,游戏的复杂性将以每个额外的玩家呈指数级增长,并且现有技术无法应对。

Pluribus使用迭代蒙特卡罗CFR(MCCFR)。核心思想也是自我学习,相互斗争,没有来自人类或前任AI的任何游戏数据作为输入。

但它的特别之处在于它有蓝图策略。在与对手对抗的过程中,Pluribus还将实时搜索更好的策略,以根据实际情况改进蓝图策略。

换句话说,它的行动可以分为两个阶段。

第1阶段:蓝图战略

无限德州扑克中有太多决策点用于个人推理。为了降低游戏的复杂性,我们必须首先抽象,即消除一些有争议的行为。

image.php?url=0MbdLGBN6x

Pluribus使用两个抽象:动作抽象和信息抽象。

动作抽象减少了AI需要考虑的不同动作的数量。无限注德州扑克通常允许在100美元到10,000美元之间进行全价投注,投注200美元和投注201美元之间几乎没有区别。

因此,Pluribus只需要在任何给定的决策点考虑几种不同的下注大小。根据实际情况,它所考虑的投注数量从1到14不等。

如果对手下注150美元并且Pluribus训练只下注100美元或200美元怎么办?

此时,Pluribus将依赖于下面提到的搜索算法。

信息抽象将具有战略意义的类似手放在一起,并对它们进行相同的处理。这可以大大降低游戏的复杂性,但也可以消除一些在超人表现中很重要的微妙差异。

因此,在与人类的实际竞争中,Pluribus仅使用信息抽象来推断未来的下注轮次,并且不使用它来实际下注。同时,信息抽象也适用于自我游戏。

蓝图策略的重点是迭代蒙特卡罗反事实后悔最小化算法(MCCFR)。在算法的每次迭代中,MCCFR将玩家指定为“遍历”,其当前策略在迭代时更新。

在迭代开始时,MCCFR根据所有玩家的当前策略随机模拟一只手。完成此手后,算法将开始审查遍历所做的每个决策,并通过选择其他可能的操作来评估手的好坏。接下来,AI评估在玩另一只手之后可以做出的每个假设决定的优点。

选择手之后的遍历增益与迭代中的遍历的预期增益之间的差异被添加到动作的“悔改点”(反事实遗憾)。

在迭代结束时,遍历的策略被更新,此后它更有可能选择更高的反事实后悔行为。

阶段2:深度限制搜索

由于无限德州扑克的规模和复杂性,整个游戏的蓝图策略所给出的决定将是模糊的。

实际上,Pluribus只根据第一轮投注中准备好的蓝图来玩游戏。在甚至第一轮之后的第一轮中,如果对手选择的投注大小与蓝图动作抽象的大小完全不同,则 Pluribus会进行实时搜索并开发更精细的策略。

蒙特卡罗树搜索,双层搜索,alpha-beta修剪搜索.这些在完美信息游戏中表现良好的实时搜索将在德州扑克前面,因为他们不考虑他们的对手转移战略。

Pluribus使用的方法是明确假设所有玩家可以选择除儿童游戏叶节点之外的不同策略。

该算法假设每个玩家在到达叶节点时可以选择四种不同的策略来执行以下游戏,包括预先计算的蓝图策略,该策略偏向于丢弃蓝图策略并被修改以支持该呼叫。蓝图战略,以及被修改为有利于加薪的蓝图战略。

image.php?url=0MbdLG9gDV

这种搜索方法可以找到更平衡的策略,从而产生更强的整体性能。

另一个重大挑战是,在像德州扑克这样的游戏中,玩家的策略有时取决于对手如何看待她/他的游戏玩法。

为了解决这个问题,Pluribus根据其策略跟踪每只手将达到当前状态的概率。无论Pluribus实际持有哪只手,它都会优先考虑每只手的动作。一旦计算了所有平衡策略,它将对其实际持有的手执行动作。

image.php?url=0MbdLGrssd

令人惊讶的是,Pluribus的培训成本非常低。研究人员仅在64核服务器上运行了8天,并成功培训了Pluribus蓝图策略,需要不到512GB的内存而且没有GPU。

换句话说,Pluribus的培训费用不到150美元!

在玩游戏时,Pluribus也运行在2个CPU上,使用的内存不到128GB。

相比之下,2016年AlphaGo与李世石对战,使用1920个CPU和280个GPU进行实时搜索。

在六手游戏中,Pluribus每回合仅需20秒,是顶级人类的两倍。

这种策略的结果是什么,如此小的成本和速度?

为了评估Pluribus的实力,研究人员在世界范围内找到了一批顶级球员,包括2000年世界扑克锦标赛中的Chris“Jesus”Ferguson,2012年世界锦标赛中的Greg Merson以及Darren Elias in四届世界扑克巡回赛冠军赛。还有很多。

这些顶级球员,每人在德州扑克专业锦标赛中赢得超过100万美元,大多数赢得超过1000万美元。

在具体测试中,研究人员共设计了两只手。一个是5个人和一个AI,一个是5个AI,一个是人。在每手牌开始时,筹码为10,000,小盲注50和大盲注100。

image.php?url=0MbdLGhNdA

在许多人机战中,通常情况下AI在开始时表现良好,但随着人类玩家发现其弱点,它变得非常智力迟钝。

为了充分评估Pluribus的能力,测试持续了十天,并且玩了数万手。目标是让人类主人有足够的时间适应AI的策略并寻找AI的弱点。

此外,虽然德国人是一个非常熟练的比赛,但运气也是一个非常重要的影响。对于顶级职业球员来说,由于运气不好,在10,000手牌中赔钱是很常见的。

研究人员表示,为了减少运气对游戏的影响,他们在一个版本中采用了“AIVAT”算法,使用每个案例的基线估计来减少方差,同时保持样本不偏不倚。

例如,如果AI获得非常强大的手牌,AIVAT将从其赢得的总金额中减去基线估计值以抵消运气成分。

这场比赛打了12天,打了10,000手牌。

每天将从高中选出五人。根据他们的表现,他们将获得50,000美元奖金,以激励他们发挥最佳水平。

在应用AIVAT之后,Pluribus的获胜率估计为每100手(5 bb/100)大约5个大盲注,这在顶级人类大师的比赛中是非常好的结果(p值为0.021)。

image.php?url=0MbdLGbscA

如果你每片有1美元,Pluribus每手可以赚5美元,每小时可以赚1000美元。这一纪录超过了专业球员和业余球员混合比赛中职业球员的胜率。

“Pluribus是一个强硬的对手,”Ferguson在实验后说道。 “不管用什么方法,都很难吃掉他。他也非常擅长在河牌圈下注(最后一张牌)。他非常擅长用自己好手来获得更多价值。”

参加这场比赛是前三名中的顶级球员。

他们是2000年世界扑克锦标赛的Chris“Jesus”Ferguson,四次世界扑克巡回锦标赛的Darren Elias和Linus Loeliger的。他被公认为世界排名第六的无人区。

他们每个人用5个Pluribus玩了5,000手牌。 Pluribus没有根据对手调整策略,因此没有AI勾结。

总体情况是100名手中的每个人都失去了2.3个大盲注(2.3 bb/100)。

Elias每100手牌有4个大盲注(4.0 bb/100,标准误差为2.2 bb/100),Ferguson每100手牌有2.5个大盲注(2.5bb/100,标准误差2.0 bb/100)Loeliger每个盲注0.5个大盲注100手(0.5bb/100,标准误差为1.0 bb/100)。

下图显示了10,000手实验中职业扑克玩家的Pluribus平均赢率。直线表示实际结果,虚线表示标准偏差。

image.php?url=0MbdLGiJzJ

“它的主要优点是能够使用混合策略,”Elias说。 “这与人类试图做的事情是一样的。对于人类来说,这是一个实现问题.是以完全随机的方式完成的,并且它是一致的。大多数人都很难做到。”

由于Pluribus策略完全由自我游戏决定而没有任何人类数据,因此它还提供了一个外部视角,可以为多玩家无限制马刺找到最佳游戏玩法。

Pluribus证实了传统的人类智能,即跟进(大盲注之后,不折叠或提升)对于任何玩家来说都是次优的。

唯一的例外是小盲注球员,他们已经拥有一半大盲注,所以只投入其他球员的一半钱。

尽管Pluribus在首次通过自我游戏时尝试了后续策略,但随着自我游戏的继续,它逐渐放弃了这一策略。

但是Pluribus对人类认可的策略提出了不同的看法:没有投注(在一轮投注结束时打电话,开始一轮下注)是一个错误;与顶级人类大师相比,Pluribus就是这样做的。频率更高。

“在扑克机器人的游戏中,看到它选择的一些策略是令人难以置信和迷人的,”加利亚诺说。 “人们根本无法想到几种策略,特别是与赌注的大小有关。” “

下图显示了Pluribus和职业球员在比赛中所玩的筹码数量。实线表示实际结果,虚线表示标准偏差。

image.php?url=0MbdLGzb3Y

值得注意的是,Pluribus是研究人工智能的工具。研究人员表示,选择扑克只是为了在不完全信息的场景中评估人工智能与人类之间在多智能体交互中的差距。

换句话说,他们的旅程不仅限于德国人,也包括星星和大海。

毕竟,现实世界是非常复杂的,并不是只有双方战斗,也不是赢或输。去多功能人工智能,学习多人复杂游戏是非常重要的一步。

当然,为回应“Libratus接管军令”事件,Facebook表示该研究不会用于军事目的。

*本文由作者授权发布,不代表PingWest产品发挥作用,如需转载,请与原作者联系。

以前的文章推荐image.php?url=0MbdLGBzGa

image.php?url=0MbdLGcxI7

收集报告投诉