Reinforcement Learning1

coursera by University of Alberta

Fundamentals of Reinforcement Learning

Week 1

1、action value


image.png
image.png

2、Sample-Average Method
由于 q*(a) 是如何分布的,事先并不知道,因此需要进行估计
Sample-Average Method 样本平均法是一种估计方法

image.png

其中,对每一种行动 a 有一个估计
当每次都选择最大估计值的行动的时候就为贪婪算法,即开发 exploit


image.png

non-greedy action : explore
greedy action : exploit
agent 不能同时选择 explore & exploit

3、Incremental update rule
在每次 Sample-Average Method 的时候,都需要对所有的奖励进行相加求和除以行动的次数,随着 agent 的行动越来越多,需要储存的奖励也越来越多,为了将算法的空间复杂度控制在常数范围内,提出了增量更新规则,进行迭代计算,不需要存储每次行动的奖励


image.png

改进:
当奖励的分布随着时间变化的时候 ( distribution of rewards changes with time ) ,就不能直接用 Incremental update rule 的公式,原因是在公式

image.png

中,奖励 Rn 会随着 n 的增大而减小其对 Q 值的贡献,换句话说,初始值对 Q 影响最大,越往后对 Q 值影响越小。若 Q 值在后面的时间当中,随着时间的增大而改变,那么 Rn 对 Q 值的影响也越大才符合实际,为了解决这个问题,提出了公式

image.png

其中, αn 是一个常数,不随时间的改变而改变,那么最近的奖励贡献最大,最初的奖励贡献最小

4、 Epsilon-Greedy action selection
exploration : improve knowledge for long-term benefit 探索哪种行动回报最多
exploitation : improve knowledge for short-term benefit 采取当前回报最多的行动

Epsilon-Greedy action selection
为了平衡探索和开发,采取在选择行动的时候以一定的概率来进行探索,其余的时候进行开发


image.png

5、 Optimistic Initial Values 乐观初始值
Optimistic Initial Values 指的是将估计值 q 初始值设置为比所有 reward 都要高,这样在 agent 初始阶段就会自动进行探索,随着不断地探索,估计值 q 也会不断地下降,下降到一定程度地时候 agent 就会停止探索,因此,它不适用于 q 值变化的情况

image.png

6、 Upper-Confidence Bound (UCB) Action Selection
在 Epsilon-Greedy action selection 中,对每种行动奖励的探索是均匀分布的,有时候并不符合实际,为了达到更好的探索的效果,提出了 UCB 方法

image.png

Qt(a) : exploitation 开发,指当前奖励最多的行动
c : 常数
t : agent 总步数
Nt(a) : 行动 a 所采取的总步数
在 UCB 方法中如果某一种行动执行比例远小于其他行动,那么将会执行该行动

Week 2
Markov Decision Processes

1、


image.png
image.png

马尔可夫性质:未来的状态和奖励只与当前的状态和行动有关,与之前的状态无关

2、智能体的目标


image.png

智能体 agent 的目标是最大化未来奖励的均值

image.png

3、Continuing Tasks 持续性任务


image.png

引入 discount rate 来解决持续性任务无限求和的问题

image.png

阶段性任务和持续性任务区别

image.png

持续性任务的目标函数
γ→0:只关心下一个时间戳的奖励
γ→1:关心以后时间戳的奖励

image.png

公式的递归形式

week 3
Value Functions & Bellman Equations

1、deterministic policy & stochastic policy
deterministic policy : 确定性政策,指的是每个状态 state 对应一个行为 action , 一个 action 可以对应多个 state

image.png

stochastic policy:随机政策,指的是对于一个状态 state 对应行为 action 的分布函数 Π(a|s)

image.png

valid & invalid policies
在 MDP 当中,所选的政策 policy 只由之前的状态 state 决定,而不由其他因素决定,若 policy 受之前 action 的影响,则应将之前的 action 添加到 state 当中

2、state-value function & action-value function


image.png

Π:policy
S:state
R:reward

image.png
image.png

3、Bellman Equation


4.png
5.png

4、Bellman Equation 应用举例


image.png

规则:来到 state B 获得 5 分,其他情况 0 分,碰壁后 state 不变

策略 policy 是在四个方向上随机移动

image.png

从第一个公式到第二个公式能省略 p(s',r|s,a) 是因为在确定的 state 当中,每个 action 只能通向下一个确定的 state 以及 reward ,不存在某个 action 会通向不同的 state 的情况 ; 从第二个公式到第三个公式是指,在当前 state A ,使用各个 action 的情况

image.png

将各个 state 的 Bellman Equation 列出,构成线性方程组,即可解除各个 state 的 value function

image.png

这种直接解方程的方法在方程组较小的时候适用,在方程很大的时候不适用

5、optimal policy

image.png

optimal policy Π* :指的是在任何一个 state ,Π* 的值都大于等于其他 Π 的值;在所有 policy 当中,必定存在至少一个 optimal deterministic policy ,但也可能不只一个

每个 optimal policy 对应同一个 optimal value funciton

image.png

当 policy 比较少的时候,可以使用蛮力搜索计算每个 policy 的 value ,但是当 policy 很多的时候,蛮力搜索方法不适用

image.png

当采取 optimal policy Π* 的时候,在每个 state 选择值最高的 action ,即将值最高 action 概率赋值为 1 ,其他 action 概率赋值为 0 ,从第一个公式到第二个公式

image.png

当采取 optimal policy Π* 的时候,得到 optimal action-value function

image.png

不能使用线性代数来直接解出 optimal value function 因为 max 是非线性的

6、Using Optimal Value Functions to Get Optimal Policies

从 optimal value function 到 optimal policy 是相对容易的,因此一般认为解 optimal value funciton 与 解 optimal policy 等价

image.png

v(s):指的是对于确定的 state s ,计算每个 action a 的 value ,将最大值 value 作为 optimal value ,对应 action a 作为 Π(s) optimal action

image.png

如果有 optimal state value function ,则可以直接根据 optimal state action paire 得到 optimal action

week 4

Dynamic Programming

1、Policy Evaluation vs. Control


image.png

policy evaluation:根据当前 Π 计算出最优 VΠ
policy control:更新当前 Π 到在 当前 V 的情况下最优

image.png

2、Iterative Policy Evaluation
目的是更新 V ,将 V 在当前 Π 情况下更新为最优

image.png

方法是迭代更新,当更新到对于每个 state , v(s) 都没有发生变化的时候,即 Vk(s)=Vk+1(s) ,则更新完成

image.png

可以使用两个 array 来存储每个 state 的值,得到新值 V' 后更新旧值 V;也可以使用一个 array 来实现,用刚刚更新的值来计算下一个要更新的值,一般这种方法更快一点
sweep:指的是对所有 state 的值都更新一遍

image.png

3、Policy Improvement

目的是根据 VΠ 来更新 Π

image.png

当在 VΠ 的情况下,使用贪婪算法获得新的 Π ,若新的 Π 与旧的 Π 一致,则 Π 已经是最优解,若新的 Π 与旧的 Π 不一致,则新的 Π > 旧的 Π

image.png

策略提升理论:更新的 Π ≥ 旧的 Π

4、Policy Iteration


image.png

evaluation 和 improvement 交替进行,使 Π 和 V 朝着最优解的方向前进

image.png
image.png

5、Generalized Policy Iteration

image.png
image.png

将 evaluation 和 improvement 合并

6、synchronous & asynchronous 同步和异步
synchronous:指的是对 state-value function 更新的时候,对每个 state 按顺序遍历更新,即 sweep
asynchronous:当 state 数量很大的时候,对所有 state 遍历更新并不实际,因此,对随机 state 进行更新,也可以对重点 state 进行更新

7、Efficiency of Dynamic Programming

Monte Carlo method :将每个 state 进行独立地估计,对同一个 state 收集大量的在同一个 Π 情况下的 reward ,取其平均值,使其收敛于 state value ,但是,这种方法计算量大

image.png

Dynamic Programming:不将每个 state 当成独立的问题,可以利用下一步 state 的值来估计当前 state 的值,称为 Bootstrapping

image.png

Brute-Force Search :指的是使用蛮力法,穷举所有的 policy ,对每个 policy 计算其 value ,取出值最大的 policy ,但是,其复杂度呈指数级增长,计算量大

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352

推荐阅读更多精彩内容