3
0
写了 104315 字,被 360 人关注,获得了 340 个喜欢
935ca16aa5da 编,14 篇文章,543 人关注
写了 0 字,被 594 人关注,获得了 629 个喜欢
首先我们回顾一下“策略梯度方法(PG)”和“信赖域策略优化(TRPO)”。1.策略梯度方法(PG)策略梯度方法通过计算策略梯度的估计并利用随机梯度上升算法来工作。 最常用的梯...
写了 4824 字,被 8 人关注,获得了 17 个喜欢