在正式讨论深度强化学习算之前, 我们先确定以下它的学习目标以及其评价方法。
我们先介绍一个新的术语 Trajectory :
的意思是在状态 时,选择了; 然后得到 .... 直到最后 。
在 中, 是环境给出来的反应, 我们无法控制。 我们可以控制的是Action , 而Action 是由Policy生成的, 而Policy 则是由其参数 决定的。 因此,某个 出现的概率, 其实由 决定。
注意, 这里引出了强化学习的一个假设 “环境不变 Environment Stationary Assumption”, 该假设的意思是:对于同样的状态, 同样的Action , 环境给出 的概率永远不变。在使用 RL解决现实问题时, 一定要注意这个假设能否满足,或者近似满足。
在介绍了上面的假设以后, 出现的概率可以写成
在等式右边, 是我们的Policy,关于 Policy 有基于 Observation 的和 State(Full Observation ) 之分,具体请查看 深度强化学习(2) 强化学习常用术语。
等式右边 是环境对我们在 时做了 的反馈(新状态 的分布)。
学习目标
有了这个表达式,我们就可以引出强化学习的目标:寻找Policy 最优的, 使得 Policy 获得Reward的期望最大。
衡量标准
我们使用该Policy Reward 的期望来衡量 Policy 的好坏。 注意, 这里的目标是使得Reward 的期望最大,也就是希望获得更大的 。 而在监督学习时 往往代表 loss, 我们希望越小越好。