DQN算法

强化学习概要

定义

1、环境指的是智能体执行动作时所处的场景,而智能体则表示强化学习算法。环境首先向智能体发送一个状态(S),然后智能体基于其知识采取动作(A)来响应该状态。之后,环境发送下一个状态,并把奖励(R)返回给智能体。智能体用环境所返回的奖励来更新其知识,对上一个动作进行评估。这个循环一直持续,直到环境发送终止状态来结束这个事件。

2、策略(π):智能体根据当前状态决定下一步动作的策略。

3、价值(V):折扣(discount)下的长期期望返回,与R代表的短期返回相区分。Vπ(s) 则被定义为策略π 下当前状态s的期望长期返回值。

4、Q 值或行动值(Q):Q 值与价值相似,不同点在于它还多一个参数,也就是当前动作a。Qπ(s,a) 指当前状态s在策略π下采取动作a的长期回报。

无模型(Model-free)与基于模型(Model-based)

Model-based:模型学习从当前状态s0 和动作 a 到下一个状态s1 的转移概率T(s1(s0,a))。如果成功地学习了转移概率,那么智能体将知道给定当前状态和动作时,进入特定状态的可能性。

Model-free:无模型算法依赖试错来更新知识。因此,它不需要空间来存储所有状态和动作的组合。

在策略(on-policy)与离策略(off-policy)

on-policy:在策略智能体基于当前动作 a 学习价值。

off-policy:离策略智能体基于局部最优的贪心行为(greedy action)a* 学习价值。

DQN

定义

强化学习算法可以分为三大类:value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法,这种算法中既有值函数网络,又有policy网络。

而已Q-Learning对于任意的(Q(s,a)我们都可以由公式求出它的值函数,即用一个查询表lookup table来表示值函数不同的是,DQN使用深度神经网络值函数近似Q ̂(s,a,ω)≈Q_π (s,a)。

且DQN分离目标网络,由于Q 值与 next Q 使用同一个网络时,是在一边更新一边学习,会不稳定。所以,这个算法其实就是将神经网络拆分成2 个,一个 Q网络,用于同步更新Q 值,另一个是 target 网络,用于计算目标 Q 值,并且每隔一段时间,自动将最新的Q 网络的权值同步给 target 网络。

算法原理

强化学习是个反复迭代的过程,在这个过程中,强化学习要不断的根据策略来求值函数,并依据所求得的值函数更新策略网络。

DQN是通过神经网络近似求得值函数,具体是神经网络的输入是一个observation(即state,s),输出是值函数Q(s,a)(a是action a)。通过神经网络得到值函数,DQN使用ϵ−greedy策略来输出action。步骤是环境先给出一个obs,智能体根据神经网络求得关于这个obs的所有值函数Q(s,a),再根据ϵ−greedy策略选择action并做出决策,环境接收到此action后会给出一个奖励Rew及下一个obs。这是一个step。此时我们根据Rew去更新值函数网络的参数。接着进入下一个step。如此循环下去,直到我们训练出了一个好的值函数网络。

算法流程

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容