论文解读：Successor Features for Transfer in Reinforcement Learning

论文题目：Successor Features for Transfer in Reinforcement Learning

论文链接：http://papers.nips.cc/paper/6994-successor-features-for-transfer-in-reinforcement-learning.pdf

论文出处：NeurIPS 2017

摘要：这里的transfer in reinforcement learning指的是RL算法不是仅在某个具体任务中学习最优策略（传统强化学习），而是在不同任务之间通过transfer来学习的更一般的算法。本文提出的迁移学习框架，主要针对reward函数不同，但是环境的动力学模型保持不变的情况。所提出的方法基于两个key ideas：1）successor features （SFs）：一种将环境的模型从reward中分离出来的值函数表征；2）generalized policy improvement （GPI）：一种考虑一组策略，而不是单个策略的GPI（传统GPI的扩展）。将这两种想法放在一起，可以实现任务之间自由的信息交换（任务迁移）。

论文主要思路：

本文所期望的迁移方法需要具备两个性质：1）任务之间的信息流不应由反映任务本身之间的关系（例如层次或时间依赖性）的刚性图来规定。相反，只要有用，就应该跨任务交换信息。 2）迁移应该尽可能地整合到RL框架中，而不是以单独的问题摆出，最好采用对智能体几乎透明的方式。

本文的创新基于两点：第一，将successor representation方法扩展，提出successor features来描述值函数；第二，将传统针对单个策略的GPI扩展成多个策略的GPI。

Successor Features (SFs)的定义及其学习：

传统的强化学习，通过一个特定的reward函数来指定一个具体的任务，即 $r(s, a, s^\prime)$ 。这里，作者假设reward函数可以表示成

$r(s, a, s^\prime)=\phi(s, a, s^\prime)^T\boldsymbol{w}$ , (1)

其中， $\phi(s, a, s^\prime)\in \mathbb{R}^d$ 是关于 $(s, a, s^\prime)$ 的特征， $t$ 时刻下该值记为 $\phi(s_t, a_t, s_{t+1})=\phi_t$ ， $\boldsymbol{w}$ 是权重。

有了式（1），策略 $\pi$ 的Q函数可以表示为

$Q^{\pi}(s,a)=\mathbb{E}^{\pi}\left[ \sum_{i=t}^{\infty}{\gamma^{i-t}\phi_{i+1}|S_t=s, A_t=a} \right]^T \boldsymbol{w}=\psi^{\pi}(s,a)^T \boldsymbol{w}$ . (2)

（2）式中的 $\psi^{\pi}(s,a)$ 就是策略 $\pi$ 下状态-动作二元组 $(s,a)$ 的successor features（如下图所示）。因此，Q函数的学习，包含了对 $\psi^\pi$ 和 $\boldsymbol{w}$ 的学习。

$\boldsymbol{w}$ 的学习，和reward有关。根据（1）式，如果有了 $\phi$ ，那么 $\boldsymbol{w}$ 的学习就是普通的监督式学习， $r(s,a,s^\prime) \approx\phi(s,a,s^\prime)^T\tilde{\boldsymbol{w}}$ 。当然， $\phi$ 也可以通过监督学习的方式学习。

关于 $\psi^{\pi}$ 的学习，需要利用（2）式的贝尔曼方程形式，即

$\psi^{\pi}(s,a) = \phi_{t+1} + \gamma \mathbb{E}^{\pi} \left[ \psi^{\pi}(S_{t+1}, \pi(S_{t+1})) | S_t=s, A_t=a \right]$ . (3)

Successor Features示意图

通过SFs实现迁移学习：

作者假设在环境的动力学模型不变的情况下， $\phi \in \mathbb{R}^d$ 是不变的。因此，根据（1）式，不同的 $\boldsymbol{w}$ 就描述了不同的任务，或者不同的MDP。作者将 $\phi$ 表示下的所有任务定义为一个MDP集合：

$\mathcal{M}^{\phi} \equiv\left\{ M(\mathcal{S}, \mathcal{A}, p, r, \gamma) | r(s,a,s^\prime)=\phi(s,a,s^\prime)^T \boldsymbol{w} \right\}$ . (4)

这种情况下，假设source domain包括 $n$ 个任务，即 $\mathcal{M} \equiv\left\{ M_1, M_2, \cdots, M_n \right\}$ ，分别对应 $n$ 个不同的 $\boldsymbol{w}$ ，即 $\left\{ \boldsymbol{w}_1, \boldsymbol{w}_2, \cdots, \boldsymbol{w}_n \right\}$ ，和 $n$ 个最优策略 $\left\{ \pi^*_1, \pi^*_2, \cdots, \pi^*_n \right\}$ 。一旦 $\boldsymbol{w}_{n+1}$ 给定，或者学出来了，则新任务 $M_{n+1}$ 的学习只需要研究 $\boldsymbol{w}_{n+1}$ 和 $\left\{ \boldsymbol{w}_1, \boldsymbol{w}_2, \cdots, \boldsymbol{w}_n \right\}$ 之间的关系就行了。

为此，作者提出了两个定理：

------------------------------------------------------------------------------------------------------------

定理1.（GPI）假设 $\pi_1, \pi_2, \cdots, \pi_n$ 为 $n$ 个不同的策略，并且 $\tilde{Q}^{\pi_1}, \tilde{Q}^{\pi_2}, \cdots, \tilde{Q}^{\pi_n}$ 是它们动作值函数的近似，满足

$|Q^{\pi_i}(s, a)-\tilde{Q}^{\pi_1}(s, a)| \le \epsilon, \forall s\in \mathcal{S}, a \in \mathcal{A}, \text{and} i \in \left\{1, 2, \cdots, n \right\}.$ (5)

定义新的策略为

$\pi(s) \in \arg\max_a \max_i{\tilde{Q}^{\pi_i}(s, a)}.$ (6)

则 $Q^{\pi}(s,a) \ge \max_i{Q^{\pi_i}(s,a)-\frac{2}{1-\gamma}\epsilon}, \forall s\in \mathcal{S} \text{and} a \in \mathcal{A}.$ (7)

------------------------------------------------------------------------------------------------------------

这里的GPI是传统强化学习GPI的一种推广，它针对多个任务的策略 $\pi$ ，对当前任务的策略进行提升。定理1表明，策略（6）不会表现得比 $\pi_1, \pi_2, \cdots, \pi_n$ 中的任何一个策略差。如果 $\arg\max_a \max_i{\tilde{Q}^{\pi_i}(s, a)} \bigcap \arg\max_a \max_i{\tilde{Q}^{\pi_i}(s^\prime, a)}=\emptyset, \text{for some} s, s^\prime \in \mathcal{S}$ ，策略（6）将会严格比其它 $n$ 个策略表现得更好。

------------------------------------------------------------------------------------------------------------

定理2. 令 $M_i \in \mathcal{M}^{\phi}$ ，并且 $Q^{\pi^*_j}_i$ 为策略 $\pi^*_j$ 在 $M_i$ 中执行时的动作值函数，其中 $\pi^*_j$ 为 $M_j \in \mathcal{M}^{\phi}$ 下的最优策略。给定一组近似动作值函数的集合 $\left\{ \tilde{Q}^{\pi^*_1}_i, \tilde{Q}^{\pi^*_2}_i, \cdots, \tilde{Q}^{\pi^*_n}_i \right\}$ ，使其满足

$|Q_i^{\pi^*_j}(s, a)-\tilde{Q}_i^{\pi^*_j}(s, a)| \le \epsilon, \forall s\in \mathcal{S}, a \in \mathcal{A}, \text{and} j \in \left\{1, 2, \cdots, n \right\}.$ (8)

令 $\pi(s) \in \arg\max_a \max_j{\tilde{Q}_i^{\pi^*_j}(s, a)}$ ，并且 $\phi_{max}=\max_{s, a}||\phi(s, a)||$ ，其中 $||\cdot||$ 是由内积诱导的范数。则

$Q_i^{\pi^*_i}(s, a) - Q_i^{\pi}(s, a) \le \frac{2}{1-\gamma}\left( \phi_{max}\min_j||\boldsymbol{w}_i-\boldsymbol{w}_j|| + \epsilon \right)$ . (9)

------------------------------------------------------------------------------------------------------------

定理2给出了从现有模型中进行迁移学习的误差上界。如果智能体之前学习过类似的任务，即 $\boldsymbol{w}_i$ 和 $\boldsymbol{w}_j$ 比较接近，则任务迁移就会比较成功。如果之前没有学习过，那就看前面学过的 $n$ 个任务里，哪个距离 $\boldsymbol{w}_i$ 比较近了。

以上就是本文算法的核心部分了。在我看来，该算法最值得借鉴的地方就是将reward函数分解成两部分，一部分是状态转移数据的特征，是通用的；一部分是描述任务的权重，和任务有关。这样做，就把一族任务用特征函数 $\phi(s, a, s^\prime)$ 来表示了，而任务族内部各任务，则由权重向量 $\boldsymbol{w}$ 来表示。

但是这里的 $\phi$ 如何设计，如何学习，哪些任务不在 $\mathcal{M}^{\phi}$ 以内，作者似乎并没有讲清楚。此外，作者考虑的是离散动作，有限状态的迁移强化学习。该算法在设计上，需要对所有的动作遍历。

关于SFs的迁移强化学习算法今天先介绍到这里，后续针对该算法还会有更详细的补充。

已将所有内容移至知乎个人主页：https://www.zhihu.com/people/wenzhang-liu，以后有新的内容也都在知乎上发布，欢迎关注！