Lecture 6 Value Function Approximation

Value Function Approximation

image.png

如何将强化学习应用到大的数据集

  1. 希望使用value function进行归纳法,因为表格记录函数值收到状态数量限制。
  2. 学习这种总结归纳法,使用有效方法估计函数值。


    image.png
  3. 建立新的函数逼近value function,包含自己设定的权重w,同时可以估计所有位置的状态。
  4. 采用MC或者TD方法,更新逼近函数。


    image.png
  5. 类似一个黑盒子,输入s和a,调整w,训练逼近函数,类似于神经网络。


    image.png
  6. 内部是什么样的呢,索性用机器学习思想设计逼近函数。


    image.png
  7. 逼近函数需要知道梯度来进行更新。
  8. 独立同分布训练数据在这里并不适用。


    image.png

Incremental Methods

image.png
  1. 从梯度下降开始,下图介绍梯度下降法。


    image.png
  2. 使用梯度下降法逼近value function。
  3. 假设这是一个监督学习,我们能够得到真实的value functionv_\pi(S),则可以通过减小误差的方法进行梯度下降,从而更新参数。
    image.png
  4. 假设我们有一个特质向量,每一个维度表示某一特征表示。


    image.png
  5. 使用神经网络的黑盒子模型进行非线性逼近来估计value function。
  6. 线性value function逼近,即假设value function和特征向量是线性关系。
  7. 同样的,使用梯度下降的方式更新参数w。(这页ppt最后一行)


    image.png
  8. 上节课讲的表格查找法其实是线性value function逼近的一种特殊形式。也是状态矩阵乘权重向量,得到Q-table


    image.png

实际怎么做的

  1. 实际上我们没有监督者告诉我们实际v_\pi(S,A),所以我们用MC或者TD方法估计实际的value function,同样的使用梯度下降方式进行参数更新。
    image.png
  2. 用MC方法进行value function 逼近。


    image.png
  3. 同样的,使用TD方法进行vlaue function逼近。\delta是TD error。
  4. 为什么只做目标函数的梯度,因为实际上没有做真的TD运算,只是直接信任,并没有反过来估计真实样本。
image.png

image.png
image.png

value function的逼近控制

  1. 同样的,只评估部分样本节约时间。
  2. 上节课提到的,我们需要做policy Iteration,如果我们估计直接估计Q,我们就没有模型的限制,同时还可以做贪心行为。


    image.png
  3. 所以我们想要构造函数逼近实际的q_\pi(S,A)从而使用梯度下降方法更新梯度。
    image.png
  4. 还是从最简单的线性假设入手。


    image.png
  5. 同样的可以使用TD算法估计G_t,利用梯段下降进行更新。
    image.png
  6. 像小车车游戏就更适合用TD方法更新。


    image.png

    image.png

    image.png

    image.png

    3如果非线性,需要很多辅助函数,会造成离散,无法收敛。


    image.png
  7. 括号表示因为使用了贪婪策略,会震荡。


    image.png

    image.png

Batch Methods

image.png
  1. 目前我们只是简单地使用的梯度下降的方法,但并没有最大化的使用,找到了最好的但不是最合适的函数值,所以我们期望找到最合适的函数值。
  2. 所以我们用Batch methods的方法,学习已经建立的经验库 。


    image.png
  3. 最小二乘法,学习经验数据库。


    image.png
  4. 经验回放 把训练过的东西保留在训练资料库中,然后类似监督学习标准的学习。
  5. 进行梯度下降,直到找到最小均方误差。


    image.png

DQN

  1. TD不适用于神经网络。
  2. 经验回放能够稳定你的神经网络,打破了混合之间的联系,消除之间潜在的关联,让出现顺序随机化,反而能够更加稳定的更新。
  3. 运用两套不同的参数向量,冻结下老的神经网络,试图储存下所有看过的信息,之后用目标对冻结的神经网络进行参数给与,获得更加稳定的参数更新。


    image.png

    image.png

    image.png
image.png

线性最小二乘法

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343