Trajectory :
为一串游戏的状态和动作序列。
这里的为一类序列,
为
的发生的概率。
那这里是不是我们直接能用来获得最大值呢?
我们这里设之列有种
那么就有
这里的问题就在于X有多少种无法确定,所以无法直接求得
。
因为有
所以
这里的与之前的
不一样,
代表采样中的单独一次采样,
代表一类相同的采样。所以我们想要求的loss函数如下:
当然这里求的是loss得最大值。
Trajectory :
为一串游戏的状态和动作序列。
这里的为一类序列,
为
的发生的概率。
那这里是不是我们直接能用来获得最大值呢?
我们这里设之列有种
那么就有
这里的问题就在于X有多少种无法确定,所以无法直接求得
。
因为有
所以
这里的与之前的
不一样,
代表采样中的单独一次采样,
代表一类相同的采样。所以我们想要求的loss函数如下:
当然这里求的是loss得最大值。