强烈推荐结合《Reinforcement Learning:An Introduction》Second edition阅读!!!
Finite Markov Decision Process
3.1 The Agent-Environment InterFace
马尔可夫决策过程是指将来的决策仅取决于当前的状态与选择。
3.2 Goal and Rewards
Rewards是影响决策的重要因素,但不是决定因素。
3.3 Return and Episodes
这几节都是基础介绍,但3.3节开始有的概念容易混淆,这里简单阐述一下。
Return和之前说的Value还是有点不一样的。具体来说Return可以理解为一系列具体动作得到奖励Reward的加权和。
当然,上式实在有限(infinite)马尔可夫过程中,要是无限过程中,这个Return不得无穷大了。所以对于无限过程中,通过等比递减数列加权即可,公式如下:
(注:“无限”过程这个词可能不太妥,主要是为了和“有限”对应。严谨的说是连续过程(continuing task),因为连续过程不是step by step的episode,所以他的返回值个数趋向于无穷多个)
3.4 Unified Notation for Episodic and Continuing Tasks
上面说了有限过程与连续过程,有两个公式,为了方便,统一成了一个,如下:
3.5 Policies and Value Functions
决策的衡量指标是通过value来评价,value是指在当前的状态下未来获得奖励的期望和,也就是以后平均可以得到多少奖励。
(注:字较丑,但内容还是不错的。)
可以看到求v(s)必须先求v(s'),也就是说要求现在的价值必须先计算以后的价值,然后倒着计算回来,所以文章称之为backup operations以及backup diagrams。
注意推导过程图片最后一行,明确v(s)与q(s,a)的关系。
3.6 Optimal Policies and Optimal Value Functions & 3.7 Optimality and Approximation & Summary
决策的原则就是最大化value,理论上通过Bellman Equation就可以计算得到value,但在实际应用不大。