蒙特卡罗方法(Monte Carlo Methods)

概述

蒙特卡罗方法(Monte Carlo Methods)是强化学习中基于无模型的训练方法。与动态规划(Dynamic Programming)不同，该方法并没有明确的模型(即transition-state probability)，也就是说我们并不知道各个状态之间转换的概率，可以把它看作是环境(environment)模型。

那么，没有了环境模型，蒙特卡罗方法是如何进行学习的呢？其答案很容易想到，就是通过采样来逼近真实的环境模型。下面，我们就来讲述基于蒙特卡罗方法的state value和action value的预测和判断。

蒙特卡罗预测(Monte Carlo Prediction)

蒙特卡罗预测的目的是来预测状态值(state value)。因为蒙特卡罗方法是通过采样来进行学习的，因此，基础的approximate环境模型的方法有两种，分别为The fist-visit MC method和The every-visit MC method。

The fist-visit MC method和The every-visit MC method

该两种方法本质上的区别其实就在于first和every的区别。在训练强化学习过程中，我们通过强化学习可以很多数据，这些数据就是一个个的试验(experience)，如下图所示：

试验数据

红色的实心点表示他们的状态都相同，但reward值不同。The first-visit method就是只计算每次试验中，第一次出现该状态对应的reward值，将其求和之后求平均值，即为该state的return。而The every-visit method则是将每个试验中出现的红色实心点的reward都相加起来求平均。例如fist-visit return和every-visit return计算公式如下：

计算公式1

因为，蒙特卡罗方法是将所有试验采样求平均值，因此是没有偏差的，其方差为根号试验visit数量分之1。

蒙特卡罗估计动作值(Monte Carlo Estimation of Action Values)

在有模型的强化学习中，因为我们知道各个状态之间转换的概率，因此，我们只需要计算state value值即可选出最优的策略。但是，在无模型的强化学习中，即使我们得到了最优的state value值，也就是说我们知道了在该状态下应该转换到哪个状态最好。可是，我们却无法确认应该采取哪个动作最好。因此，在无模型的强化学习中，我们需要通过计算action value的值来得到最优策略，而不是通过state value。

Maintaining Exploration

试验数量是一点一点创造出来的，而在试验中每次采取的行动也是基于相应action value的值。为了保证每一个状态(state)在试验中出现过，同时也为了保持探索性，因此每次采取动作时可以通过下列公式来进行决定：

Maintaining Exploration

蒙特卡罗控制(Monte Carlo Control)

控制，其实就是为了选取到最优策略，如动态规划中的策略迭代。蒙特卡罗控制伪代码如下所示：

蒙特卡罗无探索伪代码

On-policy MC control & Off-policy MC control

下面来讲一讲on-policy和off-policy的区别。其根本区别就是，on-policy是通过一个policy来评估和改善策略(即进行policy evaluation和policy improvement)，而off-policy则是有两个policy，分别负责产生episode和改善策略，这两个policy的名称分别为动作策略(behavior policy)和目标策略(target policy)。On-policy MC control伪代码如下所示：

蒙特卡罗有探索伪代码

Off-policy MC control

该方法中有两个policy，分别为动作策略和目标策略。动作策略主要负责产生试验，通过一定的探索和action value值。而目标策略主要是为了得到最优策略。几乎所有的Off-policy方法都基于了重要性采样(importance sampling)这个概念。重要性采样用来在给定一个概率分布(如采样的样本概率)来去接近另外一个概率分布(如真实数据概率分布)，从而预测真实值。将其应用在Off-policy方法中时，我们首先需要一个重要性采样率(importance-sampling ratio)，公式如下：

重要性采样率公式1

重要性采样率公式2

公式一表示的是在Sk状态下，采取动作Ak之后状态转换到Sk+1的概率。公式2即为我们要计算的重要性采样率，分子为通过目的策略计算的概率分布，分母为动作策略计算的概率分布。因为我们要得到最优的策略，因此是要动作策略的概率分布尽可能的逼近目的策略的概率分布，而重要性采样率我们可以把它理解为动作策略在目的策略的重要程度。而重要性采样有两个计算公式，分别为普通重要性采样(ordinary importance sampling)和加权重要性采样(weighted importance sampling)，公式如下：

普通重要性采样

加权重要性采样

这两种重要性采样的区别在于普通重要性采样是无偏差的，而加权重要性采样是有偏差的，普通重要性的方差是无边界的，而加权重要性采样是有边界的且边界为1。通常，我们往往使用加权重要性采样。

Incremental Implementation

因为要计算action value，我们之前知道的action value的计算公式如下：

action value formula1

从公式可以看出，我们需要额外的内存来存储每一个reward值。同时，也增加了额外的计算量。为此，我们对其进行了进一步的推导，使其减小了内存和计算量，其推导过程如下所示：

action value formula2

将其公式应用于off-policy预测action value中，可得如下伪代码，相应根据蒙特卡罗方法得到最优策略代码如下：

action value estimation

off-policy control

Reference

1. Reinforcement Learning An Introduction

2.强化学习入门第三讲蒙特卡罗方法 https://zhuanlan.zhihu.com/p/25743759

3.重要性采样简述 https://blog.csdn.net/philthinker/article/details/80608502

4.蒙特卡洛方法（Monte Carlo Method) https://blog.csdn.net/coffee_cream/article/details/66972281

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,012评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,628评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,653评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,485评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,574评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,590评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,596评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,340评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,794评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,102评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,276评论 1赞 344
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,940评论 5赞 339
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,583评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,201评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,441评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,173评论 2赞 366
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,136评论 2赞 352

蒙特卡罗方法(Monte Carlo Methods)

概述

蒙特卡罗预测(Monte Carlo Prediction)

The fist-visit MC method和The every-visit MC method

蒙特卡罗估计动作值(Monte Carlo Estimation of Action Values)

Maintaining Exploration

蒙特卡罗控制(Monte Carlo Control)

On-policy MC control & Off-policy MC control

Off-policy MC control

Incremental Implementation

Reference

推荐阅读更多精彩内容