人工智能应用案例学习7

接上文继续学习建模算法优化改良。

2015年2月,Aja Huang在Deepmind的同事在顶级学术期刊nature上发表的文章 Human-level control through deep reinforcement learning 用神经网络打游戏。这篇文章给AlphaGo提供新的方向:强化学习。

强化学习(Reinforcement learning)是机器学习的一个分支,特别善於控制一只能够在某个环境下自主行动的个体 (autonomous agent),透过和环境之间的互动。(备注:强化学习定义可查阅《人工智能应用案例学习3》)

借用吃豆人游戏进一步说明强化学习建模过程:自主行动的个体就是控制的吃豆人,环境就是迷宫,奖励就是吃到的豆子,行为就是上下左右的操作,强化学习的输入是:

状态 (States) = 环境,例如迷宫的每一格是一个 state。

动作 (Actions) = 在每个状态下,有什么行动是容许的。

奖励 (Rewards) = 进入每个状态时,能带来正面或负面的价值。

输出是:方案 (Policy) = 在每个状态下,你会选择哪个行动?也是一个函数。

所以,需要根据S,A,R,来确定什么样的P是比较好的,通过不断的进行游戏,获得大量的交互数据,可以确定在每一个状态下,进行什么动作能获得最好的分数,而强化学习也就是利用神经网络来拟合这个过程。

参考这种思路,Aja Huang给围棋也设计了一个评价函数v(s) 。此函数的功能是:量化评估围棋局面。使用v(s)可以让我们在MCTS的过程中不用走完全局(走完全盘耗时耗力,效率不高)就发现经必败。

在利用P(s) 走了开局的20步后,如果有一个v(si) (i为当前状态)可以直接判断是否能赢,得到最后的结果r,不需要搜索到底,可以从效率(树剪枝,优化算法时间复杂度)上进一步增加MCTS的威力。

很可惜的,现有的人类棋谱不足以得出这个评价函数(此处并不明白原理,先记录下来待后面深入分析)。所以Aja Huang决定用机器和机器对弈的方法来创造新的对局,也就是AlphaGo的左右互搏。


神经网络的训练过程和结构

先用P(s)和P(s)对弈,比如1万盘,得到1万个新棋谱,加入到训练集中,训练出 P1(s)。

使用P1(s)和P1(s)对弈,得到另1万个新棋谱,加入训练集,训练出P2(s)。

同理,进行多次的类似训练,训练出Pn(s),给最后的新策略命名为Pplus(s)。

使用Pplus(s)和P(s)进行对弈,发现Pplus(s)胜率高,自对弈的方法就被证明是有效的。(之所以自对弈有效,是因为过程中没有放弃过随机,如此一来,大量的计算,就更可能覆盖到更多的可能性,对提高棋力可以产生有效的作用,同时因为概率的问题,不断的自我对弈造成下棋的路数集中)

事实并没有那么美好,Aja Huang发现,使用Pplus(s)来代替P(s)进行MCTS反而棋力会下降。

Aja Huang认为是Pplus(s)走棋的路数太集中(此处记下后续验证尝试),而MCTS需要更加发散的选择才能有更好的效果。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容

  • 此文也是接续前文继续学习Go Further在githup提供的学习资料,需要不断完善理解建模思想。 围棋建模方案...
    ericblue阅读 257评论 1 1
  • 这篇文章以比较通俗的语言简单介绍了AlphaGo的工作原理,可以先看看了解大概,会发现AlphaGo也没有那么神秘...
    Founting阅读 13,139评论 0 7
  • 围棋建模方案分析: 通过上篇文章定义可以知道,在看到s之后如何决定a是需要行动指导方法的,对于人类来说就是通过不断...
    ericblue阅读 407评论 1 0
  • 本文系《文工团》约稿,禁止一切形式的未授权转载,谢谢合作。这篇是约稿的第二版,第一版可以点这里。 围棋,是一项中国...
    LostAbaddon阅读 2,579评论 7 10
  • 蓝月和天侑分手的时候,天侑给了蓝月的除了悲伤外,还有用一年时间养在蓝月身上的肉。 “高天侑你个乌龟王八蛋,你不要老...
    一棵树0801阅读 165评论 0 0