定义
包含以下四5部分的系统称为马尔科夫决策过程:
- 状态
- 模型(也就是Transition model/function, 必须满足两个属性 1. 静态,也就是指model-based?2. 马尔科夫性)
- 动作
- 奖励
- 策略,策略就是1-4步形成的问题的解!
注意模型需要满足2中的两个特性。
Q:如何理解策略?
A:策略就是一个函数映射Pi,Pi(s)->a,该映射将给定状态s映射为一个动作a
Q:强化学习和监督学习的区别?
Q:什么是Plan,和Policy的区别是?
A:Plan是状态到序列的映射,而Policy是状态到动作的映射。具体说,Plan将给定的一个状态s,映射为一个动作序列。在MDP中,我们求解的对象时Policy而不是Plan,只要有了Policy,肯定就万事大吉了。