[Paper Weekly]Mastering the Game of Go without Human Knowledge

10月19日，deepmind在Nature杂志上发表了重磅文章《Mastering the Game of Go without Human Knowledge》，介绍了其在强化学习领域的新进展。读过了朋友圈相关报道之后，新算法的效果确实让人印象深刻，主要体现在：

更强的准确性，以100:0击败Alphago Lee（就是击败李世石的那一版算法）。
不需要人类棋谱，仅保留围棋的基本规则，即可在自我博弈中进步。
极高的训练效率，在4个TPU（赤裸裸的植入广告）上训练3天就可以击败Alphago Lee（后者在48个TPU上训练数月之久）。

大致阅读了Nature上的文章，对新算法有了一个大致的了解，下面是论文笔记。因为不懂围棋，所以讨论算法相关内容。
tips：为了区分版本，以下将击败樊麾的版本称为fan，击败李世石的版本称为lee，击败柯洁的版本称为master，这篇论文中算法称为zero。

一、与之前版本的不同

由于没有找到lee的详细资料，所以主要与上一篇论文《Mastering the Game of Go with Deep Neural Networks and Tree Search》中提到的alphago fan进行比较。

没有采用人类棋谱和也没有手工设计的特征，即未利用除了规则的先验知识（文末将讨论这个问题）。
将policy network和value network融合为一个网络一起训练。
zero采用了受深度网络指导的启发式蒙特卡洛搜索树。

二、算法分析

1.启发式蒙特卡洛搜索树

alphago同样采用蒙特卡洛搜索树（MCTS）进行走子。与之前算法不同的是zero在evaluation采用了价值网络的输出来替代rollouts。

Alphago中的MCTS演化

fan版本

在执行MCTS时，不断执行以下步骤的模拟：

选择（select）。在每次模拟时，从当前根结点开始往下走，总是选择“最感兴趣”的动作（action），其评价公式为：

其中：

该系数的作用是鼓励探索未走过的节点，同时尽量去走SL网络判断可能性较大的节点。

扩展（expand）。当我们走到一个未拓展的节点时，我们根据SL策略网络的概率输出随机拓展一个子节点。
评价（evaluate）。对于新创建的子节点，需要评估该节点所代表的状态的价值。在fan版本的算法中，采用混合机制对状态价值进行估计：

其中，第一部分是以节点状态为输入价值网络的输出，第二部分是从该节点状态开始使用快速走子策略（fast rollout policy）走出的胜负结果，若超过一定的步数，则计算分数。
回溯（backup）。
最后，根据拓展节点的价值估计，更新所有经过节点的动作价值Q(s,a):

（在实际应用中做了修改）

最后，在多次模拟后，选择从根结点状态出发，访问最多的action完成落子。在进行下一步时，当前搜索树被复用，下一个状态成为根结点。

zero版本

zero也通过MCTS进行落子，与fan版本的不同主要体现在evaluate步骤上，具体模拟步骤如下：

选择（select）。见fan版本。
扩展（expand）。基本与fan版本一致，只不过zero版本使用的是融合网络的策略输出随机拓展子节点。
评价（evaluate）。与fan版本不同，zero版本只使用融合网络的价值输出作为拓展节点的价值估计。所以zero版本中不需要rollouts，也不需要训练依赖人类棋谱的fast rollout policy。
回溯（backup）。在完成价值估计后，对动作价值函数进行更新：

在多次模拟后，选择从根结点状态出发，访问最多的action完成落子。

2.策略网络与价值网络的结合

在网络结构上，master与zero有着相同的网络结构，它们与fan、lee相比主要由两个区别：

将价值网络和策略网络合并为一个网络。
网络结构采用residual network结构，而不是一般的convolutional结构。

价值网络与策略网络融合

fan版本

fan版本算法机构中有两种网络：策略网络和价值网络。
策略网络使用人类棋谱KGS数据集训练的SL网络进行初始化，使用自我博弈数据进行训练。价值网络主要通过特定策略下的自我博弈数据进行训练。
网络的输入都为多通道[19,19]矩阵，每个通道代表的feature如下：

Input features in fan

zero版本

zero版本策略网络和价值网络相结合，仅使用自我博弈的数据进行训练，网络采用res结构。
输入是shape为[19,19,17]的矩阵，其中8通道矩阵表示现在时刻及从此时开始的前7个时刻当前玩家的棋子位置，8通道矩阵表示现在时刻及从此时开始的前7个时刻当前对手的棋子位置，最后一个常数通道表示现在走棋的颜色（黑色为1，白色为0）。

三、训练过程

zero在训练上也与fan有着不同。在训练过程中，zero包含着三个过程：

神经网络的优化，就是一个有监督网络的训练。
从不同时间点产生的网络中选择最优网络（best player）。
使用最优的网络走子产生self-play数据用于训练。

training pipeline

四、一些记录

论文中提到之前在线上以60连胜的战绩击败人类职业选手的alphago master与zero有着相同的算法结构，不同的是master利用了人类棋谱以及手工设计的特征作为输入。在与zero的100场对弈中，zero以89比11战胜了master。
论文中讨论了不通过MCTS，只通过策略网络进行走子（选用最大p值的走子方法），相当于人类不思考推理，纯粹靠直觉进行走子的方式。采用这样的策略算法性能会有所下降，大概下降到能击败欧洲冠军的地步（fan版本的性能）。

五、问题

疑问：为什么没有使用人类棋谱反而算法性能提升了？

个人理解：先说结论，用没用人类棋谱其实并没有太大影响，不使用人类棋谱最大的作用是让论文的题目更炫酷。首先看一下不同版本下alphago的算法表现。

各版本性能

在这里zero与master采用了相同的算法结构，区别主要在于master采用了人类棋谱对网络进行预训练并采用了部分手工设计特征，zero未使用人类棋谱对于网路预训练并只采用黑白子位置作为输入。从上面的图中可以看到，其实两者的性能差距并不大（在围棋中极小的准确度提升就会带来压倒性的胜率优势）。而zero相对于lee版本的性能提升主要是由于算法机构的优化（网络融合、res机构替代conv结构等）。
这里说到了人类数据对算法的影响，我认为从lee版本开始，人类棋谱对算法的性能的提升就有限了。但是在fan版本中，人类棋谱还是对算法性能影响比较大，

疑问：为什么将策略网络和价值网络融合提升了算法性能？

个人理解：首先来看看论文中的比较。

结构和融合

论文中提到了将策略网络与价值网络融合后，略微降低了策略网络的准确性，提高了价值网络的准确性，最终提升了算法在对弈时的表现。带来这种提升的主要原因是双重相关任务训练使上层特征得到了多次训练，即在训练策略网络时上层特征参与了一次训练，在价值策略网络时上层特征参与了一次训练，从而得到了“更好”的上层特征的表达。

疑问：增强学习在没有人类知识的情况下就这么强，人工智能会不会毁灭人类呢？

个人理解：至少目前来看，还需要很长的时间。围棋是一个可观测到“完全信息”的游戏，它符合马尔可夫过程，目前的强化学习的基础大都建立在马尔可夫过程之上。而现实生活中的任务许多不符合马尔可夫过程，所以算法并没有在围棋中展现的令人惊叹的性能。
还有一个问题就是，目前强化学习的依赖多次模拟（或者在真实条件下实验），但是现实中的任务（譬如驾驶），没有办法完美的模拟也没有办法多次实验（不能让一辆自动驾驶汽车上二环多撞几次来采集数据），所以很难像围棋这样构建端到端的解决方案。所以，目前增强学习的应用场景还极其有限，监督学习依然是主流。

最后编辑于：2017.12.11 04:59:49

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,179评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,229评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,032评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,533评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,531评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,539评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,916评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,813评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,568评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,654评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,354评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,918评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,152评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,852评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,378评论 2赞 342

[Paper Weekly]Mastering the Game of Go without Human Knowledge

一、与之前版本的不同

二、算法分析

1.启发式蒙特卡洛搜索树

fan版本

zero版本

2.策略网络与价值网络的结合

fan版本

zero版本

三、训练过程

四、一些记录

五、问题

疑问：为什么没有使用人类棋谱反而算法性能提升了？

疑问：为什么将策略网络和价值网络融合提升了算法性能？

疑问：增强学习在没有人类知识的情况下就这么强，人工智能会不会毁灭人类呢？

推荐阅读更多精彩内容