Scalable agent alignment via reward modeling: a research direction
https://arxiv.org/pdf/1811.07871.pdf

OpenAI 现任Alignment团队的负责人 Jan Leike于2018年在DeepMind工作时发布的一篇论文，对Reward model分析的非常透彻，当时是用于强化学习落地的指导，现在看来，早就已经埋下了对于RLHF优化的种子。

核心关注问题

如何让AI依照人类的意图行事？这是将AI应用于现实世界复杂问题的最大障碍之一。

这不就是Agent Alignment的问题。

主要贡献

建立奖励模型，实现Agent Alignment
概述了解决agent alignment问题的研究方向。所提出的方法依赖于奖励建模的递归应用，以符合用户意图的方式解决复杂的现实世界问题。

研究方向的要点是基于奖励建模（reward modeling）：
（1）训练一个奖励模型，其中包含来自用户的反馈，从而捕捉他们的意图。
（2）通过强化学习训练一个策略，使奖励模型的奖励最大化。
换句话说，文章把学习做什么 (奖励模型) 和学习怎么做 (策略) 区分开来。

奖励建模，user为RM提供反馈，RM为RL提供奖励信号

扩大奖励模型的规模：用于人类无法直接评估的复杂领域

这一点愿景比较厉害，希望从最开始由人类调教，到一步步迭代后能比人类更厉害
（1）用RM来训练Agent
（2）让Agent帮助User评估
这里基于一个很有意思的直觉：评估比行为更容易，作者在介绍的时候举了个例子，相比较成为一个足球运动员，大部分人都更容易成为一个大声吼叫着对足球比赛评头论足的人。
基于上述两点，就可以从简单任务过度到普遍任务，再过度到更复杂的任务：一个迭代扩增（iterated amplification）的过程

使用递归奖励建模训练的 agent(右边的小圆圈) 帮助用户评估当前正在训练的 agent(大圆圈) 产生的结果

研究挑战

主要有5类挑战，提出了10个解决方案。（这放到2024年来看活生生的就是RLHF过程中会遇到的reward的问题和优化方案）

挑战(左)和有前景的解决方案(右)

Challenge->C
Resolution->R

C1 Amount of feedback 反馈的数量

在给定预算下，已有的标注的数据集的量，是否能使得RM获得足够的精度。
本质：RM在状态分布上泛化效果如何，泛化越好，越能从现有的固定数据中挤出更多的东西

C2 Feedback distribution 反馈分布

机器学习模型可以在训练集同分布上的数据预测的很好，但在policy之外，模型从未见过的状态，我们也希望是正确的
关键：鼓励Agent探索它没有访问过正价值轨迹；阻止Agent探索不希望看到的负价值轨迹。

C3 Reward Hacking 奖励黑客

在确定奖励的过程中，利用reward model的漏洞获得比预期更多奖励的一种效应。
也就是训练的时候reward一直升高，但是评估的时候发现其实优化方向走歪了
比如：reward gaming 奖励博弈就是当reward错误的给一些不希望的行为提供了高奖励；reward 篡改就是Agent可以干扰奖励计算的过程

C4 Unacceptable Outcomes 不可接受的结果

目前的RL都是在一些很安全的仿真器里进行的，不存在不可接受的结果，最差也就重启仿真器再来一次。但现实世界的任务会有很多代价过于昂贵，比如无人机炸机，错误的发了邮件，煮饭机器人烧厨房
两个困难点：（1）复杂的任务，环境总有未知的部分，Agent需要安全的探索。（2）智能体需要对可能导致其无意间产生不可接受结果的扰动做出强有力的反应。比如写个规则。

C5 Reward-Result gap 奖励-结果的差距

即便我们给Agent提供了一个正确对齐的奖励函数，得到的结果也可能是不对齐的。
原因有很多：奖励可能太过稀疏，形状不佳，或者数量级错误；由于超参数设置不当，训练可能会过早停止；智能体可能在学习过程中探索不足或产生非预期行为；智能体可能会面临各种稳健性问题，如外部引起的状态空间分布变化或面临对抗输入。

R1 Online Feedback 在线反馈

在线向智能体提供奖励反馈，我们就会在用户反馈和智能体行为之间形成一个更紧密的反馈循环。这使得奖励模型能够适应智能体正在访问的状态分布，从而减轻了一些分布转移问题。

R2 Off-policy feedback 离策略反馈

为了防止不可接受的结果和奖励黑客行为，我们需要能够在某些结果发生之前就告知它们是不可取的。这就要求奖励模型在策略外，即在智能体从未访问过的状态上是准确的。

R3 Leveraging existing data 利用现有数据

大量人工制作的视频数据和散文已经唾手可得。这些数据中的大多数目前没有高质量的文本注释，因此不能直接用作奖励标签。然而，它包含了很多关于人类意图的有用信息。至少有两种方法可以利用现有的数据：使用无监督学习(如无监督的预训练或第三人称模仿学习)或手动注释。

R4 Hierarchical feedback 层次反馈

支持分层RL的相同论点也鼓励对奖励模型进行分层分解。这将允许用户提供低级和高级的反馈。分层RL和分层奖励模型结合起来应该很自然：如果智能体和奖励模型之间的时间层次对齐，那么在层次结构的每个层次上，奖励模型可以训练智能体的相应层次。这可能有助于绕过一些非常困难的长期信用分配问题。
例如：幻想小说作者任务。低级反馈包括拼写、流畅性和语言语调，而高级反馈可以针对段落级别无法提供的情节和角色发展。

R5 Natural language 自然语言

自然语言是人类反馈的一种自然形式。如果我们能学会将自然语言的表达转化为训练奖励模型所依据的数据集所需的严格格式，这将使用户能够更有效地提供反馈。
自然语言可能会带来更好的可解释性。特别是对于抽象的高级概念，自然语言可能比可视化的可解释技术更适合。

R6 Model-based RL 基于模型的RL

基于模型的RL智能体会学习环境的显式模型，这种模型可以使用规划算法，如蒙特卡洛树搜索。如果我们正在训练一个基于模型的智能体，那么奖励模型可以作为规划搜索过程的一部分。这允许智能体使用策略外奖励评估，评估它从未实际采取的行动。

R7 Side-constraints 边界约束

除了学习奖励函数，我们还可以学习低级或高级行为的边界约束，以防止不可接受的结果。阻止行为比用大量的负面奖励来削弱它们更有效，因为负面奖励可以在以后用更大的奖励来补偿(比如在奖励黑客的情况下)。这个问题可能会被智能体的世界模型中的错误放大。

R8 Adversarial training 对抗训练

可以训练智能体去明确地发现奖励模型中的弱点和奖励黑客攻击的机会，以及导致不可接受的结果的最小扰动。这与Red Team类似，目标是发现对手可能使用的攻击策略(例如安全漏洞)。
用户可以查看发现的失败案例，并将其添加到反馈数据集中。这可能意味着更高的数据需求；因此，即使对抗性训练解决了这个问题，它也可能使数据需求超出可承受范围。

R9 Uncertainty estimates 不确定性估计

奖励模型的另一个理想特征是对其输出不确定性的适当表达。
两个好处:
（1）在训练过程中，它可以使用主动学习，来帮助自动化收集关于信息性最大状态的反馈的过程。
（2）当不确定性很大时，例如对于不像训练分布的输入，智能体可以服从于人或退回到规避风险的决策。

R10 Inductive bias 归纳偏差

奖励模型的一个关键方面是奖励模型的归纳偏差。由于我们无法对奖励模型和智能体在所有可能结果上进行训练，我们需要对给定的数据进行适当的归纳。深度学习的成功归因于归纳偏差，如分布式表征和复合性，这可能也是击败“维度诅咒”的必要条件。进一步的归纳偏差对于解决许多任务是必要的；例如卷积神经网络由于空间不变性，在计算机视觉应用中大大优于多层感知器。

未来研究方向

追求 agent alignment 还有其他一些研究方向：

模仿学习
短视强化学习（Myopic reinforcement learning）
逆强化学习（Inverse reinforcement learning）
合作逆强化学习
迭代扩增
Debate
Agent foundations

参考

中文翻译： https://www.cnblogs.com/devilmaycry812839668/p/10448320.html

Recursive RM