论文解读:Successor Features for Transfer in Reinforcement Learning

论文题目:Successor Features for Transfer in Reinforcement Learning

论文链接http://papers.nips.cc/paper/6994-successor-features-for-transfer-in-reinforcement-learning.pdf

论文出处:NeurIPS 2017

摘要:这里的transfer in reinforcement learning指的是RL算法不是仅在某个具体任务中学习最优策略(传统强化学习),而是在不同任务之间通过transfer来学习的更一般的算法。本文提出的迁移学习框架,主要针对reward函数不同,但是环境的动力学模型保持不变的情况。所提出的方法基于两个key ideas:1)successor features (SFs):一种将环境的模型从reward中分离出来的值函数表征;2)generalized policy improvement (GPI):一种考虑一组策略,而不是单个策略的GPI(传统GPI的扩展)。将这两种想法放在一起,可以实现任务之间自由的信息交换(任务迁移)。

论文主要思路

本文所期望的迁移方法需要具备两个性质:1)任务之间的信息流不应由反映任务本身之间的关系(例如层次或时间依赖性)的刚性图来规定。 相反,只要有用,就应该跨任务交换信息。 2)迁移应该尽可能地整合到RL框架中,而不是以单独的问题摆出,最好采用对智能体几乎透明的方式。

本文的创新基于两点:第一,将successor representation方法扩展,提出successor features来描述值函数;第二,将传统针对单个策略的GPI扩展成多个策略的GPI。

Successor Features (SFs)的定义及其学习

传统的强化学习,通过一个特定的reward函数来指定一个具体的任务,即r(s, a, s^\prime)。这里,作者假设reward函数可以表示成

r(s, a, s^\prime)=\phi(s, a, s^\prime)^T\boldsymbol{w},                    (1)

其中,\phi(s, a, s^\prime)\in \mathbb{R}^d是关于(s, a, s^\prime)的特征,t时刻下该值记为\phi(s_t, a_t, s_{t+1})=\phi_t\boldsymbol{w}是权重。

有了式(1),策略\pi的Q函数可以表示为

Q^{\pi}(s,a)=\mathbb{E}^{\pi}\left[ \sum_{i=t}^{\infty}{\gamma^{i-t}\phi_{i+1}|S_t=s, A_t=a} \right]^T \boldsymbol{w}=\psi^{\pi}(s,a)^T \boldsymbol{w}.          (2)

(2)式中的\psi^{\pi}(s,a)就是策略\pi下状态-动作二元组(s,a)的successor features(如下图所示)。因此,Q函数的学习,包含了对\psi^\pi\boldsymbol{w}的学习。

\boldsymbol{w}的学习,和reward有关。根据(1)式,如果有了\phi,那么\boldsymbol{w}的学习就是普通的监督式学习,r(s,a,s^\prime) \approx\phi(s,a,s^\prime)^T\tilde{\boldsymbol{w}}。当然,\phi也可以通过监督学习的方式学习。

关于\psi^{\pi}的学习,需要利用(2)式的贝尔曼方程形式,即

\psi^{\pi}(s,a) = \phi_{t+1} + \gamma \mathbb{E}^{\pi} \left[ \psi^{\pi}(S_{t+1}, \pi(S_{t+1})) | S_t=s, A_t=a \right].        (3)


Successor Features示意图

通过SFs实现迁移学习:

作者假设在环境的动力学模型不变的情况下,\phi \in \mathbb{R}^d是不变的。因此,根据(1)式,不同的\boldsymbol{w}就描述了不同的任务,或者不同的MDP。作者将\phi表示下的所有任务定义为一个MDP集合:

\mathcal{M}^{\phi} \equiv\left\{ M(\mathcal{S}, \mathcal{A}, p, r, \gamma) | r(s,a,s^\prime)=\phi(s,a,s^\prime)^T \boldsymbol{w} \right\}.      (4)

这种情况下,假设source domain包括n个任务,即\mathcal{M} \equiv\left\{ M_1, M_2, \cdots, M_n \right\},分别对应n个不同的\boldsymbol{w},即\left\{ \boldsymbol{w}_1, \boldsymbol{w}_2, \cdots, \boldsymbol{w}_n \right\},和n个最优策略\left\{ \pi^*_1, \pi^*_2, \cdots, \pi^*_n \right\}。一旦\boldsymbol{w}_{n+1}给定,或者学出来了,则新任务M_{n+1}的学习只需要研究\boldsymbol{w}_{n+1}\left\{ \boldsymbol{w}_1, \boldsymbol{w}_2, \cdots, \boldsymbol{w}_n \right\}之间的关系就行了。

为此,作者提出了两个定理:

------------------------------------------------------------------------------------------------------------

定理1.(GPI)假设\pi_1, \pi_2, \cdots, \pi_nn个不同的策略,并且\tilde{Q}^{\pi_1}, \tilde{Q}^{\pi_2}, \cdots, \tilde{Q}^{\pi_n}是它们动作值函数的近似,满足

|Q^{\pi_i}(s, a)-\tilde{Q}^{\pi_1}(s, a)| \le \epsilon, \forall s\in \mathcal{S}, a \in \mathcal{A}, \text{and} i \in \left\{1, 2, \cdots, n \right\}.       (5)

定义新的策略为

\pi(s) \in \arg\max_a \max_i{\tilde{Q}^{\pi_i}(s, a)}.          (6)

则   Q^{\pi}(s,a) \ge \max_i{Q^{\pi_i}(s,a)-\frac{2}{1-\gamma}\epsilon}, \forall s\in \mathcal{S} \text{and} a \in \mathcal{A}.         (7)

------------------------------------------------------------------------------------------------------------

这里的GPI是传统强化学习GPI的一种推广,它针对多个任务的策略\pi,对当前任务的策略进行提升。定理1表明,策略(6)不会表现得比\pi_1, \pi_2, \cdots, \pi_n中的任何一个策略差。如果\arg\max_a \max_i{\tilde{Q}^{\pi_i}(s, a)} \bigcap \arg\max_a \max_i{\tilde{Q}^{\pi_i}(s^\prime, a)}=\emptyset, \text{for some} s, s^\prime \in \mathcal{S},策略(6)将会严格比其它n个策略表现得更好。

------------------------------------------------------------------------------------------------------------

定理2. 令M_i \in \mathcal{M}^{\phi},并且Q^{\pi^*_j}_i为策略\pi^*_jM_i中执行时的动作值函数,其中\pi^*_jM_j \in \mathcal{M}^{\phi}下的最优策略。给定一组近似动作值函数的集合\left\{ \tilde{Q}^{\pi^*_1}_i, \tilde{Q}^{\pi^*_2}_i, \cdots, \tilde{Q}^{\pi^*_n}_i  \right\},使其满足

|Q_i^{\pi^*_j}(s, a)-\tilde{Q}_i^{\pi^*_j}(s, a)| \le \epsilon, \forall s\in \mathcal{S}, a \in \mathcal{A}, \text{and} j \in \left\{1, 2, \cdots, n \right\}.            (8)

令  \pi(s) \in \arg\max_a \max_j{\tilde{Q}_i^{\pi^*_j}(s, a)},并且\phi_{max}=\max_{s, a}||\phi(s, a)||,其中||\cdot||是由内积诱导的范数。则

Q_i^{\pi^*_i}(s, a) - Q_i^{\pi}(s, a) \le  \frac{2}{1-\gamma}\left( \phi_{max}\min_j||\boldsymbol{w}_i-\boldsymbol{w}_j|| + \epsilon \right).            (9)

------------------------------------------------------------------------------------------------------------

定理2给出了从现有模型中进行迁移学习的误差上界。如果智能体之前学习过类似的任务,即\boldsymbol{w}_i\boldsymbol{w}_j比较接近,则任务迁移就会比较成功。如果之前没有学习过,那就看前面学过的n个任务里,哪个距离\boldsymbol{w}_i比较近了。

以上就是本文算法的核心部分了。在我看来,该算法最值得借鉴的地方就是将reward函数分解成两部分,一部分是状态转移数据的特征,是通用的;一部分是描述任务的权重,和任务有关。这样做,就把一族任务用特征函数\phi(s, a, s^\prime)来表示了,而任务族内部各任务,则由权重向量\boldsymbol{w}来表示。

但是这里的\phi如何设计,如何学习,哪些任务不在\mathcal{M}^{\phi}以内,作者似乎并没有讲清楚。此外,作者考虑的是离散动作,有限状态的迁移强化学习。该算法在设计上,需要对所有的动作遍历。

关于SFs的迁移强化学习算法今天先介绍到这里,后续针对该算法还会有更详细的补充。

已将所有内容移至知乎个人主页:https://www.zhihu.com/people/wenzhang-liu,以后有新的内容也都在知乎上发布,欢迎关注!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,204评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,091评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,548评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,657评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,689评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,554评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,302评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,216评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,661评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,851评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,977评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,697评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,306评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,898评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,019评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,138评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,927评论 2 355