Trajectory :
为一串游戏的状态和动作序列。
这里的为一类序列,为的发生的概率。
那这里是不是我们直接能用来获得最大值呢?
我们这里设之列有种那么就有这里的问题就在于X有多少种无法确定,所以无法直接求得。
因为有
所以
这里的与之前的不一样,代表采样中的单独一次采样,代表一类相同的采样。所以我们想要求的loss函数如下:
当然这里求的是loss得最大值。
Trajectory :
为一串游戏的状态和动作序列。
这里的为一类序列,为的发生的概率。
那这里是不是我们直接能用来获得最大值呢?
我们这里设之列有种那么就有这里的问题就在于X有多少种无法确定,所以无法直接求得。
因为有
所以
这里的与之前的不一样,代表采样中的单独一次采样,代表一类相同的采样。所以我们想要求的loss函数如下:
当然这里求的是loss得最大值。