连续空间的递归最小二乘行动者—评论家算法

2 RLSAC 算法


Policy Gradient Methods for Reinforcement Learning with Function SMSM-NIPS99.pdf

此文是前面看的几篇的基础
** 2 Policy Gradient with Approximation**


Theorem 2 (Policy Gradient with Function Approximation).





3 Application to Deriving Algorithms and Advantages
7p
the advantage function
在综述中描述不清,这里解释比较通顺。The choice of v does not affect any of our theorems, but can substantially affect the variance of the gradient estimators. baseline的问题

4 Convergence of Policy Iteration with Function Approximation

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 夜深之际,柔软的白色轻纱匆匆滑入窗内。而在它附近的另一扇窗中,却警觉地闪过了一个高大的影子,仔细观察了那窗一番后,...
    Vesper_Xiao阅读 296评论 0 2
  • 文/Eva77 古代先贤讲:“修身、齐家、治国、平天下”,即是说要天下太平,应当先把各国治理好;要治理好各国,应该...
    Eva77阅读 897评论 0 3
  • [大螺丝]得到打卡DAY61/90 关于钱,必须要记得的四点:
    江尺澜依阅读 181评论 0 0