1、深度强化学习简介

什么是强化学习?

可以考虑一个更加宽泛的问题,如何建立一个智能的设备,如何才能让我们更接近真正的AI。举个例子,油轮可以在不使用现有的AI技术就可实现全球航行,但是他却不是真的无人化,他还是需要人去检查发生的不可知故障。这是因为处理故障这种事情,确实太复杂了,他会深入底层复杂的环节。但是如今深度学习提供了一种处理非结构化环境的方法。我们可以通过构建复杂的模型来处理原始信息,而不必要去为每个任务手工提取特征。

强化学习提供是一种对行为建模的方法。他强调agent和environment 之前的交互,agent执行action,然后环境反馈consequences observations以及reward给agent。强化学习可以应用于TD-GAMMON,AlphaGO,Atari,Mujuco,StarCraft,Robot,滴滴的动态路径规划等等。



强化学习与监督学习

任何监督学习的问题我们都可以看做强化学习的问题,我们输入x,经过中间网络之后然后输出y。 并且把损失函数与reward等价。但是强化学习问题的假设比监督学习的少很多,强化学习的难度更大。当监督学习的损失函数不可微分的时候,我们可以把它转换为强化学习的问题去解决。


我们什么时候需要使用强化学习

当我们的任务只是单个决策的时候,就没必要使用强化学习,比如分类,回归这些问题。在这些场景下我们当前的决策是不会影响未来的决策。所以从另一方面来说,如果我们知道我们要什么样的action,但是我们不知道怎么去得到序列化的action,这时候就需要考虑使用强化学习。


什么是深度强化学习

Deep Reinforcement Learning强调的是end-to-end training,是不需要人为设计那么多的特征干预训练过程。

那么end-to-end learning对sequential decision而言到底意味着什么呢? 之前的各种处理具体问题的p流水线其实都有人工进行特征提取的步骤,然而当今深度学习可以取代人工体征提取的这个过程。对深度学习而言,他的输入时perception(比如原始图片,声音,文字信息),他的输出可以直接是action。中间的那么多特征抽取的事情都交给了深度网络,这样才是真的end-to-end.training。


为什么我们当前到了需要深度强化学习的时候呢?

主要是三个方面的巨大进步,一个是深度学习的快速发展,而是强化学习算法的不断发展,另外一个是当前的计算能力指数型增长。

最近几年深度强化学习在很多方面都获得了不错的成就,state-of-art在疯狂被刷新.


解决真实世界sequential decision making还有什么问题?

基础的强化学习方法可以处理最大化rewards的问题,Reward是从哪里来的? 对Atari游戏来说,游戏分数就是reward。对人来说可以是多巴胺,对动物可以是捕获到猎物并存活下去。

但是这不是sequential decision的全部内容。我们还需要考虑其他几个方面

第一、从demostrations中进行学习Reward Function(Inverse RL),从demostrations中学习,观察示例行为,然后从观察到的行为中推断rewards。就像让机器模仿人的驾驶动作,然后从人的动作中学习如何驾驶汽车。

第二、在不同领域间学习能力的互相迁移(Transfer Learning, Meta-Learning)

第三、学习去predict并使用prediction进行动作执行。Agent可以从对世界的观察中进行学习,通过无监督学习方式进行学习。

三是从其他任务中学习,就是迁移学习以及让agent学习如何去学习(即meta-learning)。


如何建立 inteligent machines呢?

考虑下一个inteligence应该具备哪些最基础的能力呢?1、所有人类都能做的事情,比如走路。2、我么可以学习大量的事务,甚至是非常困难的事务。3、我们人类的学习机制如此强大,可以做任何与智力有关的任务。

能否可以通过single algorithm来实现inteligent machine呢? 目前确实有一些人体试验区证实,人类的各种组织是有共性的,比如我们可以用我们的舌头产生视觉(BrainPort; Martinez et al; Roe et al.)。若是single algorithm可实现inteligent machine,那么其必然可以解析多种不同的输入模式,比如人的视觉,听觉,触觉,嗅觉等等,然后能够输出复杂的各种actions。

从single algorithm这点来看,深度强化学习就是当前的必经之路,Deep可以即可以处理复杂的输入,而Reinforcement learning可以进行复杂的action选择。


当前深度强化学习面临的一些挑战

第一、人类可以快速学习,但是DRL当前学习速度通常都非常慢。

第二、人类可以复用过往的只是,DRL还无法做到。

第三、 Transfer learning还是个未解的关键问题。

第四、我们很难搞清楚到底应该怎么去设计reward function。

第五、我们也搞不清楚prediction到底有什么作用。

最后以 Alan Turing镇守此文

Instead of trying to produce a program to simulate the adult mind, why not rather try to produce one which simulates the child's? If this were then subjected to an appropriate course of education one would obtain the adult brain.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341