强化学习所学习的,是当我们处在某个环境下,我们应该做的最好的决策是什么? 假设我们所处的状态(State)是有限的,例如在开车的时候,前面红灯还是绿灯,前后左右有没有车,这些...
IP属地:吉林
强化学习所学习的,是当我们处在某个环境下,我们应该做的最好的决策是什么? 假设我们所处的状态(State)是有限的,例如在开车的时候,前面红灯还是绿灯,前后左右有没有车,这些...
强化学习入门基础 文章目录 强化学习入门基础 1. 强化学习基础知识 1.1 强化学习发展历程 1.2 强化学习特点 1.3 强化学习应用 1.4 强化学习基本概念 1.5 ...
前言 2021年2月15日更新: 考虑到这篇文章写作时间较早,这里统一更新算法选择方面的建议:对于连续控制任务,推荐SAC、TD3和PPO,三种算法都值得试一试并从中择优;对...