深度强化学习（7）Actor-Critic 算法（1）

本文开始介绍第二个算法 Actor-Critic。主要内容依然参考 Berkeley CS285: Lec6 Actor-Critic Algorithms

Reward To Go & Q Value

在深度强化学习（6） Policy Gradients (2) 中，我们提到了 Reward-To-Go:

$R(\tau)=\sum_{t^{\prime}=t}^{T-1} \gamma^{t} r_{t}$

它代表从t 时刻以后，所有的 Reward 折现( $\gamma$ 为折现率)以后之和。我们也可以用 $\hat{Q}_{t}^{\pi}$ 来表示它。其中：

$\pi$ : 当前的 Policy。
$t$ : 从 $t$ 时刻开始。
$\hat{Q}$ : ^ 代表这个值来源于观察。

image.png

$\hat{Q}_{t}^{\pi}$ : 在 $t$ 时刻, $s_{t}$ 状态下, 采用 Action $a_{t}$ 以后获得的未来 Reward 之和。

如果我们引入期望，就可以把 ^ 给去掉，获得更好的结果：

True Q & Reward to go

那么前面提到的收益函数的梯度，就可以改成

收益函数的梯度

Baseline

上一章，我们说到了减去 Baseline 可以降低算法的 Variance，这里我们也对上面的公式减去 Baseline ：

image.png

其中 $V(S_{i,t})$ 是在 $s_{t}$ 状态下，所有可能 Action 期望, 正好符合 Baseline的要求。

image.png

Value Function

我们先总结一下我们遇到的几个函数:

(1) Q Value，在 $s_{t}$ 时，选择 $a_{t}$ 获得的收益和

Q Function

(2) Value Function，在 $s_{t}$ 时，未来所有可能收益和

Value Function

(3) A Value，在 $s_{t}$ 时，选择 $a_{t}$ 可以获得多少超额收益

Advantage Function

在引入 A Value 以后，收益函数的梯度可以进一步写成：

收益函数的梯度 With A value

如果我们对 $A^{\pi}(s_{i,t}, a_{i,t})$ 估计的越好，真个模型的Variance 就会越小。

我们应该 Fit 那个Value ?

让我们回到 Reinforcement Learing Fitting 的问题上，我们的目标是训练模型，现在我们定义了 $Q^{\pi}, V^{\pi}, A^{\pi}$ 三个Value，但是我们在训练的时候，应该如何获得他们的值呢(fit) ？

image.png

经过替换，我们发现：

image.png

其中 $r(s_{t}, a_{t})$ 可以经过environment 的反馈得到，所以我们只要建立起 $V^{\pi}(s)$ 的函数就可以了。换句话说，我们只要建立起来一个模型，能够根据 $s_{t}$ 得出 $V^{\pi}(s)$ 就可以了。说到找出一个拟合函数，我们自然而然的就想到了神经网络。

至此，在这个思路下，问题就转换成了如何更新 V Value Neural Netork 的参数的深度学习的问题了。

V Fucntion NN

如何估计V Value ?

为了训练一个神经网络计算 $V^{\pi}(s)$ ，我们必须先找到估计 V Value 的办法。最直接的，就是利用现有的 Policy，进行多次模拟。

如果只进行一次模拟就是Monte Carlo 方法：

如果进行多次模拟，就是：

多次模拟的时候，每次模型都需要重置Environment

这样的话，我们就可以组建我们的训练数据：

一次模拟，虽然不够好，但是也不错

对应的 Loss Function 就是：

更好的做法

此外，还有一个办法，可以不借助 Policy ，直接利用 $V$ Fucntion:

image.png

式子中 $\hat{V}_{\phi}^{\pi}({s}_{i, t+1})$ 直接使用， $V(s)$ 计算。到这里，大家可能会有个疑问，我们的目的就是要生成训练数据, 然后用它们训练神经网络。但是现在生成数据的时候，又用到了 $V(s)$ 。这有点循环论证的意思。

我理解是，在训练的过程中，其实我们还是引入了环境中的Ground Truth ： $r(s_{i,t}, a_{i,t})$ 。所以在训练过程中，还是不断的有新的信息被引入进来。 $V(s)$ 会随着训练逐渐变得好起来。

到此，我们讲完了 Actor-Ctritic 的引子，下一节，正式开始讲 Actor-Critic 算法。

总结一下两种 Fit V Value 的方法

Monte Carlo： 利用Monte Carlo，基于现有 Policy和状态，对未来进行模型。这个方法不需要对 V Function 建立模型。
Bootstrap (TD1)： 利用下1步的 Reward，结合一个V Function （神经网络），给出的下一个状态以后的所有 Reward。这个方法需要单独对 V Function 建立模型。

最后编辑于：2022.02.13 05:57:01

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 200,612评论 5赞 471
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,345评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 147,625评论 0赞 332
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,022评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,974评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,227评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,688评论 3赞 392
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,358评论 0赞 255
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,490评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,402评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,446评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,126评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,721评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,802评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,013评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,504评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,080评论 2赞 341

深度强化学习（7）Actor-Critic 算法（1）

Reward To Go & Q Value

Baseline

Value Function

我们应该 Fit 那个Value ?

如何估计V Value ?

更好的做法

总结一下两种 Fit V Value 的方法

推荐阅读更多精彩内容