策略(搜索/优化)都是在学习控制律control law
,即系统状态到控制输入的映射(本质上也是个回归问题)。强化学习的优势在于当系统的随机动态未知的情况下,理论上可以学习到任意的非线性最优控制规律u = f(x)
而不单单只是线性控制率u = Kx
,而对于控制理论来说这种非线性复杂控制系统的分析与设计是十分复杂棘手的。
强化学习提供了一种方法论,可以通过采样的方式获取经验(policy
与environment
的自主交互),policy learning from scratch,然后按一个指标(该指标一般都是high-level的)评价这个策略的好坏policy evaluation
,再根据这个评价结果指导策略的改进policy improvement
。迭代上述过程 policy
(即control law
会逼近最优控制率)会越来越好。