Safe and Nested Subgame Solving学习笔记

Safe and Nested Subgame Solving for Imperfect Information Games 论文总结

摘要

和完美信息博弈不同，在不完美信息博弈中，子博弈的最优策略往往取决于其他未到达的子博弈。因此一个子博弈无法被单独求解，必须考虑将整个博弈的策略看作一个整体。然而，我们可以先估计出整个博弈的一个策略，然后再通过解决单个子博弈的方式提升这个策略。这被称作是子博弈求解。我们在这篇论文中介绍了一种在理论和实践中都超过了先前方法的子博弈求解方法。我们还阐述了如何将这种方法（以及先前的子博弈求解方法）应用到如何响应对手“不在动作抽象”中的动作，这种方法显著的超过了现有的“动作翻译”的方法。最后，我们证明了子博弈求解可以随着博弈树的深入被重复使用，可以得到更低的可利用度。这些技术是Libratus的关键组成部分，Libratus是第一个在德州单挑无限注中打败顶尖人类的AI。

抛硬币游戏

想象有这么一个抛硬币的游戏：玩家 $P_{1}$ 抛一枚硬币，只有 $P_{1}$ 能看到硬币的结果，在看到结果之后， $P_{1}$ 有两种选择：卖掉硬币或者让 $P_{2}$ 猜硬币落在了哪面，如果 $P_{1}$ 在硬币落在正面时选择卖掉硬币，他会得到+0.5的期望收益（中间双方是如何博弈的并不重要），如果 $P_{1}$ 在硬币落在反面时选择卖掉硬币，他会得到-0.5的期望收益，如果 $P_{1}$ 选择让 $P_{2}$ 猜硬币的结果，当 $P_{2}$ 猜对时， $P_{1}$ 会获得-1的收益，当 $P_{2}$ 猜错时， $P_{1}$ 的收益为+1， $P_{2}$ 也可以选择弃权（虽然弃权是不应该被选择的），这时 $P_{1}$ 的收益为+1， $P_{2}$ 的收益永远与 $P_{1}$ 的相反（零和博弈）

P2视角下的博弈树，其中S里的两个状态对P2来说是无法区分的

我们期望计算出在 $P_{1}$ 选择play之后 $P_{2}$ 的最优策略

显而易见的， $P_{2}$ 的最优策略应该为：以25%的概率猜正面，75%的概率猜反面，这会让 $P_{1}$ 在硬币落在正面时无论选择sell还是play的期望收益都是+0.5，而在硬币落在反面时的期望收益都是-0.5，从而 $P_{1}$ 的总期望收益为0，即达到纳什均衡。

但是，如果我们改变 $P_{1}$ 和 $P_{2}$ 在选择sell之后的博弈策略，使得 $P_{1}$ 在硬币落在正面时选择sell的期望收益为-0.5，落在反面时选择sell的期望收益为+0.5，这时 $P_{2}$ 在 $P_{1}$ 选择play之后的最优策略就会变为以75%的概率猜正面，25%的概率猜反面。这说明了玩家在一个子博弈中的最优策略往往会取决于在其他没有到达的子博弈中的收益，因此，我们不能只关心当前子博弈的状态。这是非完全信息博弈和完全信息博弈区别最大的地方。

先前求解子博弈的方法

对于一些大型博弈，解决思路是对其进行一系列的抽象（简化）然后求解，求解得出的策略称为“蓝图策略”，子博弈求解的目的就是在蓝图策略的基础上改进子博弈中的策略。虽然蓝图策略在很多时候就是整个博弈的纳什均衡解，但我们不这么认为，事实上蓝图策略可以是任意一种策略

一种蓝图策略

现在假设我们已经求出了一个蓝图策略：当硬币为正面时， $P_{1}$ 以25%的概率选择sell，75%的概率选择play，当硬币为反面时， $P_{1}$ 以50%的概率选择sell，50%的概率选择play； $P_{2}$ 以50%的概率猜正面，25%的概率猜反面，25%的概率弃权。我们会试图提升 $P_{2}$ 在 $P_{1}$ 选择play之后的策略。

不安全的子博弈求解

不安全子博弈求解

不安全子博弈求解的思路极为求解上图所示的博弈树，其中从根节点 $c$ 到两个 $P_{2}$ 节点的概率为蓝图策略中到达两个 $P_{2}$ 节点的概率归一化。求解出的结果是 $P_{2}$ 以100%的概率选择heads，但这种策略的可利用度太高（因为 $P_{1}$ 可以在硬币落到heads的时候选择sell，在硬币落到tails的时候选择play）

安全的子博弈求解

安全子博弈求解

在安全子博弈求解的博弈树中，我们给 $P_{1}$ 添加了一个“选择退出”的选项，该选项为 $P_{1}$ 带来的收益为 $P_{1}$ 在对上 $P_{2}$ 的蓝图策略时所能获得的最高收益

显然， $P_{1}$ 不会比总是选择 $a_{T}’$ 做的更差，但是 $P_{1}$ 也不会比总是选择 $a_{T}’$ 做的更好，因为 $P_{2}$ 可以在 $S$ 中使用蓝图策略，这会导致 $a_{S}’$ 和 $a_{T}’$ 的收益相同（如果 $P_{1}$ 在 $S$ 中使用最优策略的话）。在这种情况下， $P_{2}$ 在 $S$ 中的策略就被限制为不比蓝图策略差。例如，如果 $P_{2}$ 总是选择heads，那么 $P_{1}$ 则会在硬币为heads的时候选择 $a_{T}’$ ，在硬币为tails时选择 $a_{S}’$

$P_{1}$ 不会比总是选择 $a_{T}’$ 做的更差的意思是：哪怕 $P_{2}$ 在新策略中能使 $P_{1}$ 的期望收益变小（也就是 $a_{S}’$ 变小）， $P_{1}$ 依然可以选择 $a_{T}’$ 来无视这种情况，因此对于 $P_{1}$ 来说最坏的情况就是 $P_{2}$ 的新策略无论是在硬币为heads还是tails的时候都会使 $P_{1}$ 的期望收益降低，此时 $P_{1}$ 依然可以选择 $a_{T}’$ 来逃避这一情况，可以说， $a_{T}’$ 是 $P_{1}$ 的一个保底选项。

$P_{1}$ 不会比总是选择 $a_{T}’$ 做的更好的意思是：如果我们想让 $P_{2}$ 在 $S$ 中的新策略比蓝图策略更好的话，我们只需要保证 $a_{S}’ \leq a_{T}’$ 成立就可以了

这种求解方式保证了 $P_{2}$ 的新策略的可利用度不会大于 $P_{2}$ 蓝图策略的可利用度，但是这种求解方式可能会错过更新的机会。使用这种求解方式的目的是把原策略的期望收益保存在根节点上。

Maxmargin子博弈求解

略

安全子博弈求解

图1：蓝图策略的博弈树

图2：安全子博弈求解的博弈树

安全子博弈求解的博弈树中的 $a_{T} ’$ 实际上就是蓝图策略中 $P_{1}$ 选择play之后的期望收益。由图1可以发现，当硬币落在正面时，比起选择play（收益为0）， $P_{1}$ 有更好的选择sell（收益为+0.5）。因此，作为玩家 $P_{2}$ ，当在计算 $S$ 中的新策略时，我们可以允许让硬币落在heads时 $P_{1}$ 的收益提高到至多+0.5，与此同时，降低硬币落在tails时 $P_{1}$ 的收益。也就是说，修改图2所示的子博弈树，将硬币为heads时的 $a_{T} ’$ 由0改到+0.5，重新计算该子博弈树的策略。

图3：一个更进一步的例子

考虑上图所示的一个更进一步的例子，其玩法和抛硬币游戏类似，在 $P_{1}$ 选择play之后，会有一个额外的 $chance$ 节点，其结果可以被 $P_{1}$ 和 $P_{2}$ 观测到， $P_{2}$ 需要确定在 $S_{1}$ 中的策略和在 $S_{2}$ 中的策略。如果我们固定 $P_{2}$ 在 $S_{2}$ 中的策略不变，则 $P_{2}$ 可以允许当硬币为heads时 $P_{1}$ 在 $S_{1}$ 中的期望收益提高到至多+1。然而，如果我们要同时改变 $P_{2}$ 在 $S_{1}$ 和 $S_{2}$ 中的策略，我们就必须保证两个期望收益之和不超过+1，也保证了当硬币为heads时 $P_{1}$ 选择play的总期望收益不超过+0.5。

嵌套子博弈求解

如果 $P_{1}$ 在进行决策时选择了一个不在动作抽象中的动作（如上文抛硬币游戏中 $P_{1}$ 没有选择sell或者play而选择了其他的动作），则我们在构建子博弈树的时候应当让 $a_{T} ’$ 等于 $P_{1}$ 所有抽象动作中所能获得的最高期望收益。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,451评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,172评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,782评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,709评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,733评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,578评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,320评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,241评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,686评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,878评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,992评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,715评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,336评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,912评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,040评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,173评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,947评论 2赞 355

Safe and Nested Subgame Solving学习笔记

Safe and Nested Subgame Solving for Imperfect Information Games 论文总结

摘要

抛硬币游戏

先前求解子博弈的方法

不安全的子博弈求解

安全的子博弈求解

Maxmargin子博弈求解

安全子博弈求解

嵌套子博弈求解

推荐阅读更多精彩内容