深度强化学习（8）Actor-Critic 算法（2）

本文继续深度强化学习（7）Actor-Critic 算法（1），正式开始讨论 Actor-Critic 。

基于 Monte Carol 方法的 Batch Actor-Critic 算法

Batch Actor-Critic

利用现有 Policy 获取 $(s_{i}, a_{i})$
利用 Monte Carlo 来计算 $V$ (这个方法不需要计算 V 的神经网络，只是利用 Monte Carlo 模拟)。
计算 A Value
利用 A Value 计算梯度
更新 Policy 神经网络中的参数 $\theta$

画红线部分，就是用 $V^{\pi}$ 来 fit $V$ value。

image.png

注意，这里的 $\theta$ 指的是 Policy 网络中的参数，这里Policy 是 $\pi_{\theta}(a|s)$ 。此外， $V^{\pi}$ 也是一个神经网络。

训练 V Function 网络

无限回合的处理

这里有个问题， V Value 的定义是，未来所有的 Reward 的和，可是如何游戏是无限的，就造成了无法求 Reward 的情况。为了解决这个问题，我们引入衰减参数 $\gamma \in [0, 1]$ 。

image.png

一般来说，我们用 $\gamma=0.99$ 。

在计算 Policy Gradient 的时候，我们用

Policy Gradient

基于 Bootstrap 方法的 Online Actor-Critic 算法

Batch Actor-Critic 算法中，只有1个神经网络，就是 Policy ，我们记为 $\pi_{\theta}$ 。而我们这部分介绍的基于Online Actor-Critic 还有另外一个神经网络: $V^{\pi}_{\phi}$ , 它的任务是计算 $V$ Value。

Online Actor-Critic 有两个神经网络

Online Actor-Critic 算法：

Online Actor-Critic

这里的第二步，就是在更新 $V^{\pi}_{\phi}$ 。

计算 y 和 Loss Value

不过，在实际操作上，也有使用一个神经网络，做 $\pi_{\theta}$ , $V^{\pi}_{\phi}$ , 有人认为这可以让他们共享 Featrue，从而达到更好的效果。

Batch 与并行计算

image.png

在实际操作中，我们可以每次多生成几个 Sample ，然后交给不同的Worker，并行计算，这样可以加速训练过程。每次更新 $\theta$ 的过程，也是使用几个Sample 计算的 $\nabla_{\theta} J(\theta)$ 的均值，这样可以减少variance。

在并行的时候，可以使用 synchronize 和 asynchronize 两种模式:

synchronize & asynchronize

Off Policy 的 Actor-Critic 算法

如果你注意到了，在上面的 Actor-Critic 算法中，我们使用的符号都有 $\pi$ 比如 $V^{\pi}_{\phi}$ 和 $A^{\pi}$ , 这其实意味着，这两个值都和Policy 相关。在计算他们的时候，都需要利用当前 Agent 中的Policy。这种系统中有一个唯一 Policy 的算法，在 Reinforcement Learning 中， 称为 On Policy；如果系统中 Policy 不唯一，那就称为 Off Policy。这里我们介绍 Actor-Critic 的Off Policy 版本。

Replay Buffer

我们先介绍一下 Replay Buffer 的概念。在上面算法中，利用 Policy 得到 Action 以后，我们要经过一系列结算，才能得到 $\nabla_{\theta} J(\theta)$ 。现在有个想法，能不能做到类似于有监督学习中，直接利用training dataset 进行训练？如果可以的话，那么就会大大加快训练过程。 Replay Buffer 在某种程度上满足了这个想法，当然，算法也需要做相应的变化。

Replay Buffer

Replay Buffer 中存放的是利用最近的 Policy 计算出来的许多 Transition $(a, s, s^{\prime}, r)$ ，我们的想法是利用这些 Transitions，直接训练 Policy。

Q Function

Replay Buffer 有个缺陷，就是他存放的 $(a, s, s^{\prime}, r)$ 并不都是利用最新的 action 计算出来的，而计算 $V$ 时，是需要全部使用最新的 Action。为了解决这个问题，我们引入 Q Fucntion 来更新 $\nabla_{\theta} J(\theta)$ 的计算方法。

Q Function 计算 Policy 梯度

上面公式不太明白从那里来的话，可以参考 Actor-Critic 算法（1）。

这里有几点要注意：

$a^{\pi}_{i}$ : 这是利用 Policy 计算出来的 Action
$s_{i}$ : 这是从 Replay Buffer 取到的 Sample

类似 $V^{\pi}_{\phi}$ ，我们也需要有一个神经网络，来生成Q值，这里 $Q^{\pi}_{\phi}$ ，它在算法中的训练方法和 $V^{\pi}_{\phi}$ 类似，也可以采用 Bootstrap 的方法。

算法

Off policy AC

利用现有 Policy 生成 Transitions，放入Replay Buffer $R$
从 $R$ 中抽样出一批 Sample
利用sample，计算 $y_{i}$ ，然后更新 $Q^{\pi}_{\phi}$ 参数。具体做法可以参考 $V^{\pi}_{\phi}$ 的Bootstrap 方法。
计算 $\nabla_{\theta} J(\theta)$ 。注意， $a^{\pi}_{i}$ ，是利用 Policy 计算出来的，不是 Transition 中的。
更新Polity 参数 $\theta$

使用 Ctritic 当Baseline

目前，我们两个版本的 Baseline

AC Baseline

优点: low variance 因为使用了Critic，它是基于很多Sample 训练出来的神经网络。
缺点： biased，因为critic 不是完美的。

PG Baseline

优点: unbiased
缺点： high variance 因为是基于单一一个样本点得到的。

我们可以讲两者结合，得到

image.png

优点: low variance 它是基于很多样本训练的网络。
优点: no bias。

Eligibility traces & n-step returns

在算法中，我们有2种办法计算 Advantage：

1. Bootstrap (TD(1))

Bootstrap

优点： low variance
缺点： higher biase 如果 Value Fucntion 有问题，而这常常发生。

2. MC

优点： no bias
缺点： higher variance 因为只使用了一个样本。

3. N Steps

既然如此，我们就考虑，让 Bootstrap 多获得几步的 Reward 也许就可以降低 Variance 了。

n steps

Idea 来源于这张图

N Steps

4. Generalized Advantage Estimation (GAE)

在 n-step 的基础上，可以进一步推出更好的方法 GAE。 GAE 的思想就是使用多个 n的组合，来替代单一的n。对于不同的n ，可以赋予不同的权重：

GAE

Stabebase 3 中 Actor Ctritic 的实现，用的就是 GAE。这里就不多介绍了，也许以后解析 SB3的代码会再看这部分的实现。

最后编辑于：2022.02.13 12:00:34

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 200,612评论 5赞 471
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,345评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 147,625评论 0赞 332
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,022评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,974评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,227评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,688评论 3赞 392
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,358评论 0赞 255
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,490评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,402评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,446评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,126评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,721评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,802评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,013评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,504评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,080评论 2赞 341

深度强化学习（8）Actor-Critic 算法（2）

基于 Monte Carol 方法的 Batch Actor-Critic 算法

无限回合的处理

基于 Bootstrap 方法的 Online Actor-Critic 算法

Batch 与并行计算

Off Policy 的 Actor-Critic 算法

Replay Buffer

Q Function

算法

使用 Ctritic 当Baseline

Eligibility traces & n-step returns

1. Bootstrap (TD(1))

2. MC

3. N Steps

4. Generalized Advantage Estimation (GAE)

推荐阅读更多精彩内容