1. 介绍
Policy gradient算法在增强学习中有非常多的应用,尤其是动作空间连续的情况。通常我们使用一个函数来表示策略。通常policy gradient会从随机策略中采样,然后优化策略来得到更高的reward。
这篇论文中,作者考虑的是deterministic policies。作者证明,deterministic policy是随机policy的极限,当policy variance趋于0的时候。
为了能够探索足够多的state和动作空间,随机policy是必须的。因此,为了使得deterministic policy gradient有令人满意的探索的效果,作者使用了off-policy learning 算法。简单地说,根据随机behavior policy来选择动作,但是学习deterministic target policy。作者使用deterministic policy gradient来学习一个actor-critic算法,用于估计action-value。
2. 算法背景
policy gradient算法的思路就是朝着performance gradient 调整policy的参数。如下:
2.3 随机Actor-Critic 算法
Actor-critic算法包含一个actor,它根据上面的公式调整参数。但是它不知道。因此,增加一个critic还学习,作为真实的一个估计,它通常会使用一个policy evalution算法,例如TD learning。
通常情况下,使用critic会导致偏差(因为估计的值和真实值之间有误差),但是如果 1), 2)最小化MSE:
2.4 Off-Policy Actor-critic
有时候我们需要计算的策略梯度并不对应采集的样本的策略 ,这就是off-policy。在这种问题中,performance object也就是通常需要修改
对上式求导得到off-policy policy-gradient
3. Gradients of Deterministic Policies
3.1 Action-Value Gradients
大多数的model-free 增强学习算法基于policy iteration:交替地进行policy evaluation 和 policy improvement。Policy evaluation用于估计action-value函数: 或者 。Policy improvement用于根据当前的action-value来更新策略,例如贪婪策略。
在动作空间连续的时候,就很难进行贪婪策略,因为得不到全局最大值。因此,一个简单,计算要求不高的代替是将策略向的梯度移动。对于每一个状态,policy parameters 使用梯度进行更新。取平均得到下面公式:
使用chain rule,分解为下面公式:
3.2 Deterministic Policy Gradient Theorem
考虑一个deterministic policy ,我们可以定义performance objective ,probability distribution ,discounted state distribution ,将performance objective写为:
Theorem 1(Deterministic Policy Gradient Theorem)
3.3 Limit of the Stochastic Policy Gradient
在这一部分作者证明来deterministic policy gradient 是stochastic policy gradient的极限情况。
4. Deterministic Actor-Critic Algorithms
有了deterministic policy gradient theorem,接下来推导on-policy off-policy actor-critic algorithms。
4.1 On-Policy Deterministic Actor-Critic
4.2 Off-Policy Deterministic Actor-Critic
Performance objective of target policy, averaged over the state distribution of the behavior policy
求导