Reward 定义了强化学习问题中的目标。在每个时间步,环境向agent发送一个称为reward的单个数字。Agent的唯一目标是最大化其长期收到的total reward。因此,reward定义了对于agent什么是好的什么是坏的。Reward 是改变policy的主要依据;如果policy选择的action之后得到的是低奖励,则可以更改policy以在将来选择该情况下的某些其他action。Reward 通常是环境状态(states)和所采取的动作(action)的随机函数。
如果说reward表明的是在短时间内什么是好的,那么value function则指出从长远来看什么是好的。粗略地说,一个状态的value是一个agent从该状态开始,可以期望在未来积累的奖励总额。例如,一个状态可能总是会产生较低的即时奖励,但仍然具有较高的value,因为其他状态经常会产生高reward。为了进行类比,奖励有点像快乐(如果高)和痛苦(如果低),而value则对应于我们对环境处于特定状态的高兴或不满的更精确和有远见的判断。
Reward在某种意义上是主要的,而作为reward预测的value是次要的。没有reward就没有value,估计value的唯一目的就是获得更多reward。
然而,在制定和评估policy时,我们最关心的是value。Action的选择基于value的判断。我们寻求的action会带来最高value而非最高reward的状态,因为从长远来看,这些action会为我们带来最大的reward。
不幸的是,确定value要比确定reward要困难得多。reward基本上由环境直接给出,但value必须根据agent在其整个生命周期中所做的观察序列来估计和重新估计。实际上,我们考虑的几乎所有强化学习算法中最重要的部分是有效估计value的方法。
value估计的核心作用可以说是过去六十年中强化学习领域最重要的事情。