什么是强化学习？

可以考虑一个更加宽泛的问题，如何建立一个智能的设备,如何才能让我们更接近真正的AI。举个例子，油轮可以在不使用现有的AI技术就可实现全球航行，但是他却不是真的无人化，他还是需要人去检查发生的不可知故障。这是因为处理故障这种事情，确实太复杂了，他会深入底层复杂的环节。但是如今深度学习提供了一种处理非结构化环境的方法。我们可以通过构建复杂的模型来处理原始信息，而不必要去为每个任务手工提取特征。

强化学习提供是一种对行为建模的方法。他强调agent和environment 之前的交互,agent执行action，然后环境反馈consequences observations以及reward给agent。强化学习可以应用于TD-GAMMON，AlphaGO，Atari，Mujuco，StarCraft，Robot，滴滴的动态路径规划等等。

强化学习与监督学习

任何监督学习的问题我们都可以看做强化学习的问题，我们输入x，经过中间网络之后然后输出y。并且把损失函数与reward等价。但是强化学习问题的假设比监督学习的少很多，强化学习的难度更大。当监督学习的损失函数不可微分的时候，我们可以把它转换为强化学习的问题去解决。

我们什么时候需要使用强化学习

当我们的任务只是单个决策的时候，就没必要使用强化学习，比如分类，回归这些问题。在这些场景下我们当前的决策是不会影响未来的决策。所以从另一方面来说，如果我们知道我们要什么样的action,但是我们不知道怎么去得到序列化的action，这时候就需要考虑使用强化学习。

什么是深度强化学习

Deep Reinforcement Learning强调的是end-to-end training，是不需要人为设计那么多的特征干预训练过程。

那么end-to-end learning对sequential decision而言到底意味着什么呢? 之前的各种处理具体问题的p流水线其实都有人工进行特征提取的步骤，然而当今深度学习可以取代人工体征提取的这个过程。对深度学习而言，他的输入时perception(比如原始图片，声音，文字信息)，他的输出可以直接是action。中间的那么多特征抽取的事情都交给了深度网络，这样才是真的end-to-end.training。

为什么我们当前到了需要深度强化学习的时候呢？

主要是三个方面的巨大进步，一个是深度学习的快速发展，而是强化学习算法的不断发展，另外一个是当前的计算能力指数型增长。

最近几年深度强化学习在很多方面都获得了不错的成就，state-of-art在疯狂被刷新.

解决真实世界sequential decision making还有什么问题？

基础的强化学习方法可以处理最大化rewards的问题，Reward是从哪里来的? 对Atari游戏来说，游戏分数就是reward。对人来说可以是多巴胺，对动物可以是捕获到猎物并存活下去。

但是这不是sequential decision的全部内容。我们还需要考虑其他几个方面

第一、从demostrations中进行学习Reward Function（Inverse RL），从demostrations中学习，观察示例行为，然后从观察到的行为中推断rewards。就像让机器模仿人的驾驶动作，然后从人的动作中学习如何驾驶汽车。

第二、在不同领域间学习能力的互相迁移（Transfer Learning, Meta-Learning）

第三、学习去predict并使用prediction进行动作执行。Agent可以从对世界的观察中进行学习，通过无监督学习方式进行学习。

三是从其他任务中学习，就是迁移学习以及让agent学习如何去学习(即meta-learning)。

如何建立 inteligent machines呢？

考虑下一个inteligence应该具备哪些最基础的能力呢？1、所有人类都能做的事情，比如走路。2、我么可以学习大量的事务，甚至是非常困难的事务。3、我们人类的学习机制如此强大，可以做任何与智力有关的任务。

能否可以通过single algorithm来实现inteligent machine呢? 目前确实有一些人体试验区证实，人类的各种组织是有共性的，比如我们可以用我们的舌头产生视觉（BrainPort; Martinez et al; Roe et al.）。若是single algorithm可实现inteligent machine，那么其必然可以解析多种不同的输入模式，比如人的视觉，听觉，触觉，嗅觉等等，然后能够输出复杂的各种actions。

从single algorithm这点来看，深度强化学习就是当前的必经之路，Deep可以即可以处理复杂的输入，而Reinforcement learning可以进行复杂的action选择。

当前深度强化学习面临的一些挑战

第一、人类可以快速学习，但是DRL当前学习速度通常都非常慢。

第二、人类可以复用过往的只是，DRL还无法做到。

第三、 Transfer learning还是个未解的关键问题。

第四、我们很难搞清楚到底应该怎么去设计reward function。

第五、我们也搞不清楚prediction到底有什么作用。

最后以 Alan Turing镇守此文

Instead of trying to produce a program to simulate the adult mind, why not rather try to produce one which simulates the child's? If this were then subjected to an appropriate course of education one would obtain the adult brain.

1、深度强化学习简介