RL 的研究

强化学习已经是一种比较火的神经网络训练模型了，各个领域都有所应用并取得了不错的效果

其中阿里这个PDF电子书中已经将阿里巴巴在强化学习上的研究过程描述的比较清晰了

强化学习在阿里的技术演进与业务创新

但是本人对这方面确实了解尚浅，感觉强化学习和深度强化学习好像还是有区别的，我搜索 A3C 以后得到的结果

搜索 A3C 结果

其中这篇对于 A3C 的介绍包含原理和应用，是比较清楚的（https://www.cnblogs.com/wangxiaocvpr/p/8110120.html）

参考博客 1

还有一篇，包含了原论文推导分析及代码实现（https://blog.csdn.net/gsww404/article/details/80820994）

参考博客 2

Google 原始论文：https://arxiv.org/pdf/1602.01783.pdf

另外有一个概念是 Model-free 和 Model-based，这里有两个资料可以参考：

（1）【强化学习】区分Model-free和Model-based的方法（https://blog.csdn.net/ppp8300885/article/details/78524235）

（2）知乎上也有一个问答：解释model-based和model-free，on-policy和off-policy区别？（https://www.zhihu.com/question/64369408）