有模型vs.免模型 有模型:知道环境的状态转移概率和奖励函数,智能体没有与环境进行交互 免模型:采集大量的轨迹数据,智能体从轨迹中获取信息来改进策略,从而获得更多的奖励。用价值函数来表示状态是好的还是坏的,用来判断在什么状态下采取什么动作能够取得最大奖励 图1. 有模型强化学习方法 图2. 免模型强化学习方法