增强学习的方法就是用来解决马尔科夫决策过程。马尔科夫决策过程描述的是agent和environment的交互过程。
在时间序列0,1,..t,的时候,agent获得环境的状态St,然后选择动作At,然后会做出反应,环境返回一个reward,R(t+1)。而agent依据一个规则选择action,这个规则就叫做policy,记做pi(a|s). agent的目标是最大化一个长期的total reward。定义为Gt:
在马尔科夫决策过程中,时间序列会在某个状态中断,比如说赢了游戏,走出迷宫。这个序列定义为episode. 有些没有自然断开的序列,叫做continuing tasks。在实际的应用中,返回的收益是随着时间衰减的,叫做discounted return:
而agent在做出action的时候,往往优化的是discount return。
马尔科夫特性
马尔科夫过程中,state表示过去的所有的相关的信息。A state signal that succeeds in retaining all relevant
information is said to be Markov, or to have the Markov property。
马尔科夫决策过程定义:
A reinforcement learning task that satisfies the Markov property is called a Markov
decision process, or MDP. If the state and action spaces are finite, then it is called a
finite Markov decision process (finite MDP)
value function
all reinforcement learning algorithms involve estimating value functions---functions of states (or of state-action pairs) that estimate how good it is for the agent to be in a given state.
表示的是在policy pi下,在state s的value值
同理可知,在state s,policy pi,采取action a的情况下的value值:
动态规划可知value function的迭代公式:
图标看起来更清晰:
最优value function
在所有的策略中,有一个策略在所有的状态中,value值都大于等于其他策略,这个策略成为最优策略。或者一组最优策略,最优策略都遵循相同的value function