Safe and Nested Subgame Solving学习笔记

Safe and Nested Subgame Solving for Imperfect Information Games 论文总结

摘要

和完美信息博弈不同,在不完美信息博弈中,子博弈的最优策略往往取决于其他未到达的子博弈。因此一个子博弈无法被单独求解,必须考虑将整个博弈的策略看作一个整体。然而,我们可以先估计出整个博弈的一个策略,然后再通过解决单个子博弈的方式提升这个策略。这被称作是子博弈求解。我们在这篇论文中介绍了一种在理论和实践中都超过了先前方法的子博弈求解方法。我们还阐述了如何将这种方法(以及先前的子博弈求解方法)应用到如何响应对手“不在动作抽象”中的动作,这种方法显著的超过了现有的“动作翻译”的方法。最后,我们证明了子博弈求解可以随着博弈树的深入被重复使用,可以得到更低的可利用度。这些技术是Libratus的关键组成部分,Libratus是第一个在德州单挑无限注中打败顶尖人类的AI。

抛硬币游戏

想象有这么一个抛硬币的游戏:玩家P_{1} 抛一枚硬币,只有P_{1} 能看到硬币的结果,在看到结果之后,P_{1} 有两种选择:卖掉硬币或者让P_{2} 猜硬币落在了哪面,如果P_{1} 在硬币落在正面时选择卖掉硬币,他会得到+0.5的期望收益(中间双方是如何博弈的并不重要),如果P_{1} 在硬币落在反面时选择卖掉硬币,他会得到-0.5的期望收益,如果P_{1} 选择让P_{2} 猜硬币的结果,当P_{2} 猜对时,P_{1} 会获得-1的收益,当P_{2} 猜错时,P_{1} 的收益为+1,P_{2} 也可以选择弃权(虽然弃权是不应该被选择的),这时P_{1} 的收益为+1,P_{2} 的收益永远与P_{1} 的相反(零和博弈)

P2视角下的博弈树,其中S里的两个状态对P2来说是无法区分的

我们期望计算出在P_{1} 选择play之后P_{2} 的最优策略

显而易见的,P_{2} 的最优策略应该为:以25%的概率猜正面,75%的概率猜反面,这会让P_{1} 在硬币落在正面时无论选择sell还是play的期望收益都是+0.5,而在硬币落在反面时的期望收益都是-0.5,从而P_{1} 的总期望收益为0,即达到纳什均衡。

但是,如果我们改变P_{1} P_{2} 在选择sell之后的博弈策略,使得P_{1} 在硬币落在正面时选择sell的期望收益为-0.5,落在反面时选择sell的期望收益为+0.5,这时P_{2} P_{1} 选择play之后的最优策略就会变为以75%的概率猜正面,25%的概率猜反面。这说明了玩家在一个子博弈中的最优策略往往会取决于在其他没有到达的子博弈中的收益,因此,我们不能只关心当前子博弈的状态。这是非完全信息博弈和完全信息博弈区别最大的地方。

先前求解子博弈的方法

对于一些大型博弈,解决思路是对其进行一系列的抽象(简化)然后求解,求解得出的策略称为“蓝图策略”,子博弈求解的目的就是在蓝图策略的基础上改进子博弈中的策略。虽然蓝图策略在很多时候就是整个博弈的纳什均衡解,但我们不这么认为,事实上蓝图策略可以是任意一种策略

一种蓝图策略

现在假设我们已经求出了一个蓝图策略:当硬币为正面时,P_{1} 以25%的概率选择sell,75%的概率选择play,当硬币为反面时,P_{1} 以50%的概率选择sell,50%的概率选择play;P_{2} 以50%的概率猜正面,25%的概率猜反面,25%的概率弃权。我们会试图提升P_{2} P_{1} 选择play之后的策略。

不安全的子博弈求解

不安全子博弈求解

不安全子博弈求解的思路极为求解上图所示的博弈树,其中从根节点c到两个P_{2} 节点的概率为蓝图策略中到达两个P_{2} 节点的概率归一化。求解出的结果是P_{2} 以100%的概率选择heads,但这种策略的可利用度太高(因为P_{1} 可以在硬币落到heads的时候选择sell,在硬币落到tails的时候选择play)

安全的子博弈求解

安全子博弈求解

在安全子博弈求解的博弈树中,我们给P_{1} 添加了一个“选择退出”的选项,该选项为P_{1} 带来的收益为P_{1} 在对上P_{2} 的蓝图策略时所能获得的最高收益

显然,P_{1} 不会比总是选择a_{T}’  做的更差,但是P_{1} 也不会比总是选择a_{T}’  做的更好,因为P_{2} 可以在S中使用蓝图策略,这会导致a_{S}’  a_{T}’  的收益相同(如果P_{1} S中使用最优策略的话)。在这种情况下,P_{2} S中的策略就被限制为不比蓝图策略差。例如,如果P_{2} 总是选择heads,那么P_{1} 则会在硬币为heads的时候选择a_{T}’  ,在硬币为tails时选择a_{S}’

P_{1} 不会比总是选择a_{T}’  做的更差的意思是:哪怕P_{2} 在新策略中能使P_{1} 的期望收益变小(也就是a_{S}’ 变小),P_{1} 依然可以选择a_{T}’  来无视这种情况,因此对于P_{1} 来说最坏的情况就是P_{2} 的新策略无论是在硬币为heads还是tails的时候都会使P_{1} 的期望收益降低,此时P_{1} 依然可以选择a_{T}’  来逃避这一情况,可以说,a_{T}’  P_{1} 的一个保底选项。

P_{1}不会比总是选择a_{T}’  做的更好的意思是:如果我们想让P_{2} S中的新策略比蓝图策略更好的话,我们只需要保证a_{S}’  \leq a_{T}’  成立就可以了

这种求解方式保证了P_{2} 的新策略的可利用度不会大于P_{2} 蓝图策略的可利用度,但是这种求解方式可能会错过更新的机会。使用这种求解方式的目的是把原策略的期望收益保存在根节点上。

Maxmargin子博弈求解

安全子博弈求解

图1:蓝图策略的博弈树
图2:安全子博弈求解的博弈树

安全子博弈求解的博弈树中的a_{T} ’实际上就是蓝图策略中P_{1} 选择play之后的期望收益。由图1可以发现,当硬币落在正面时,比起选择play(收益为0),P_{1} 有更好的选择sell(收益为+0.5)。因此,作为玩家P_{2} ,当在计算S中的新策略时,我们可以允许让硬币落在heads时P_{1} 的收益提高到至多+0.5,与此同时,降低硬币落在tails时P_{1} 的收益。也就是说,修改图2所示的子博弈树,将硬币为heads时的a_{T} ’由0改到+0.5,重新计算该子博弈树的策略。

图3:一个更进一步的例子

考虑上图所示的一个更进一步的例子,其玩法和抛硬币游戏类似,在P_{1} 选择play之后,会有一个额外的chance节点,其结果可以被P_{1} P_{2} 观测到,P_{2} 需要确定在S_{1} 中的策略和在S_{2} 中的策略。如果我们固定P_{2} S_{2} 中的策略不变,则P_{2} 可以允许当硬币为heads时P_{1} S_{1} 中的期望收益提高到至多+1。然而,如果我们要同时改变P_{2} S_{1} S_{2} 中的策略,我们就必须保证两个期望收益之和不超过+1,也保证了当硬币为heads时P_{1} 选择play的总期望收益不超过+0.5。

嵌套子博弈求解

如果P_{1} 在进行决策时选择了一个不在动作抽象中的动作(如上文抛硬币游戏中P_{1} 没有选择sell或者play而选择了其他的动作),则我们在构建子博弈树的时候应当让a_{T} ’等于P_{1} 所有抽象动作中所能获得的最高期望收益。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,451评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,172评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,782评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,709评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,733评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,578评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,320评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,241评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,686评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,878评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,992评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,715评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,336评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,912评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,040评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,173评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,947评论 2 355

推荐阅读更多精彩内容