AlphaGo人机大战随想 -- 作者: 馋宗通吃

本文是我的好友馋宗通吃观战后的感想,我帮忙发布在简书。如需转发请通知我,谢谢。

补充:我这个好友大学专业是计算机相关的,大学期间学过神经网络,写过棋类程序,也算是典型围棋爱好者。



AlphaGo 4:1 李世石,人机大战落幕。估计大部分人和我一样,从赛前对AlphaGo的轻视,到AlphaGo突然战胜人类九段的吃惊,再到李世石屡败屡战后点穴般“神之一手”的惊艳,到最后接受人工智能战胜人类九段的同时,又有一点点的感伤和对未来的担心。

本人吃货一枚,稍微研究过人工智能,现在陪小孩学围棋玩。下面从几方面随便聊聊自己的想法,也算是对这些天自己心路历程的一个记录吧。

一、说说狗狗(注1)

AlphaGo由3部分构成:Policy Networks/Value Networks /蒙特卡罗搜索树(MCTS)。下面简单介绍它们仨。

1)Policy Networks

Policy Networks根据当前局面,评估下一步走哪里?它分为两部分,Supervised Learning Policy Networks和Reinforcement Learning Policy Networks。

Supervised Learning Policy Networks是一个13层深度的人工神经元网络,它学习了KGS Go Server里所有的专业棋谱,合共3000万步棋。学习完成后,如果你“问”SL Policy Networks记不记得某个学习过的棋谱里下一步棋应该走哪里,Policy Networks回答有57%和棋谱里一致。呵呵,貌似阿尔法狗狗的记忆力很一般呀!其实不然,剩下43% SL Policy Networks凭“感觉”给出的棋,我猜如果其中有一小半不是太坏的招,那么SL Policy Networks针对学习过的局面给出的下一步棋,有70%左右是不差的!!!但这还没完,阿尔法狗狗还要再自我强化一把,就是Reinforcement Learning Policy Networks。

Reinforcement Learning Policy Networks是SL Policy Networks的加强版,就是拿一个选定的SL Policy Networks不断跟一群随机选择的SL Policy Networks内部比赛,不断修正自己。最终,这个选定的SL Policy Networks被强化到有80%的内部比赛胜率。有没有养一堆毒虫让它们互相厮杀剩下一个的感觉?用一个开源的围棋软件Pachi作为参考对手,阿尔法狗狗用SL Policy Networks胜率是11%,而用优胜劣汰脱颖而出的RL Policy Networks胜率暴涨到85%。

2)Value Networks

Value Networks跟Policy Networks类似,它根据当前局面,预估己方胜率是多少。训练方式也是如出一辙,先用KGS Go Server里的棋谱训练。训练出一批Value Networks之后,它们再互相PK,得到一个预估胜率最准确的Value Networks,叫做Reinforcement Learning Value Networks。我们是不是该对股评专家也采用类似的方式对待呢?嗯,评股,养蛊,谐音啊~

3)蒙特卡罗搜索树(MCTS)

蒙特卡罗是一类随机方法的统称。举个例子,假如筐里有100个苹果,让我每次闭眼拿1个,挑出最大的。于是我随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个……我每拿一次,留下的苹果都至少不比上次的小。拿的次数越多,挑出的苹果就越大,但我除非拿100次,否则无法肯定挑出了最大的。这个挑苹果的算法,就属于蒙特卡罗算法——有限时间内尽量找好的,但不保证是最好的。(注2)

AlphaGo大概就是这样运作的,当前局面有很多下法(平均200个落子点),用Policy Networks把“觉得不错”的落子点优先标出来,然后蒙特卡洛搜索树(MCTS)会开动脑筋,如果狗狗我这样这样落子而对方就会那样那样回应……MCTS对于每个想到的局面,会有一个评分:综合考虑Value Networks评分和一个随机得分(the outcome zL of a random rollout played out),公式是这样子的:

最后AlphaGo会选一个得分(胜率)最高的下法。关于评分,我觉得DeepMind这里并没有讲太清楚,围观群众也不必深究(也可查阅论文原文)。只需要明白狗狗的思路既可,狗狗的世界大概是这样的:

狗狗根据以往的经验(“感觉”)选一些下法,随机也选一些下法,发挥计算力特长搜索评估不同局面,最终选择胜率最高的下法。只要选的下法足够多,就很可能逼近最佳下法。这样看来,狗狗有种“大胆猜测,小心求证”的味道,DeepMind厉害。

从娱乐的角度看,阿尔法狗狗可以看作是:根据经验抓一批人,随机也抓一批人,都杀掉!错杀三千,也许 “那一个”就逃不了!如果给狗狗更多的时间和CPU,就杀三万三十万,“那一个”就更难逃脱了!!!好邪恶好血腥~

从计算机搜索树剪枝算法角度看,AlphaGo是:用Policy Networks来剪枝,用Value Networks模糊估值和随机估值(减少思维盲点)结合,达到在有限时间和硬件条件下,尽量找到好的下法!从结果来看,狗狗在“时间/空间/准确性”方面找到了较好平衡点,赞一个。

最后说说AlphaGo的硬件配置: 本次比赛使用单机版本48 CPUs + 8 GPUs,40条线程并行计算;分布式版本用到多台机器,合共1202 CPUs + 176 GPUs,每台机器40线程。

图例:How AlphaGo (black, to play) selected its move in an informal game against Fan Hui.

二、说说战斗(注3)

3月9日,李世石轻敌,首局中盘认输,人类哗然。

3月10日,AlphaGo完胜,其中一步5路尖冲,令聂卫平“脱帽致敬”。李世石承认局面一直落后,完败。

3月12日,李世石在序盘仅仅因一手棋过分便遭到AlphaGo最犀利的反击,从此落入被动局面。三连败,世间感伤。

3月14日,李世石在不利局面下弈出“神之一手”挖,AlphaGo“短路”,小李翻盘。李世石出席发布会时,现场几百名记者齐声高呼李世石的名字,小李是英雄。

3月15日,李世石细棋败北。

纵观这五盘棋,AlphaGo通过大量棋谱/实战训练,令自己“像一个高手”,同时局部精准计算是特长。但AlphaGo仍有程序固有的缺点,一旦遇到bug很容易崩溃,有点像人类的“天才白痴”。另外,AlphaGo人工神经元网络不会针对对手调整自己,或者说,5局棋谱比起之前16万局训练如沧海一粟,对AlphaGo提高和调整几乎可以忽略。

而李世石,赛前对AlphaGo 有轻敌情绪,但小李不断试探和调整策略的努力,屡败屡战和绝地反击的决心,终于逼出AlphaGo的bug,的确配得上“人类代表”。

最终人机大战李世石1比4败北,谷歌的人工智能攻破了人类智力运动最坚实的堡垒,李世石逆境下获得的一胜同样捍卫了人类的尊严。

三、说说未来

AlphaGo的确是人工智能的一大突破。

这次突破可能最重要的影响,就是让我们更清晰的认知了基于机器学习的神经网络的能力,这种能力应该远远超出我们早期的预想。因此对我们人类将来的生活将产生深远的影响。(注4)

个人认为,AlphaGo是人类历史上的一个里程碑。人类从石器时代—铁器青铜时代—蒸汽时代—电气时代—信息时代一直发展过来,石头/金属工具替代了徒手劳作,蒸汽/电气力量替代了人力,计算机替代了简单而繁重的精确数据处理。而现在,AlphaGo用一场胜利宣告人类开始进入新的时代——人工智能时代。这个时代可能会有一些特点:

1)人工智能将代替一些专业性极强但不需要完全准确的工作(能获取完全信息的领域),例如全球语言的同声传译(人类要逆天重建巴别塔呀),例如在一个城市里根据监控图像迅速排查恐怖嫌疑分子等等。

2)人工智能成为人类更有力的助手,人也更依赖人工智能(其实,我们现在已经更依赖智能手机了,囧)。这方面期待人工智能的沟通表达能力做出突破。例如这次AlphaGo一些下法虽然后来证明很厉害,但很多职业棋手当时都看不懂。试想,如果一个医疗人工智能助手给了医生一个精准的治疗方案,但无法说清楚为什么要这样做,医生和病人敢上手术台吗?

3)人类不可替代,至少AlpahGo这一类完全信息人工智能不行。因为还有“不能获取完全信息的领域”。人类可以探索未知领域,并且策略调整和反应很快,人类可以发现原来未知的东西,例如“引力波”。而在人类已经把某个领域探索的比较清楚了,把这些经验整理成的“训练数据”(或者获取训练数据的框架),人工智能才能学习。如果要训练那些数据都不知道,阿尔法狗狗就晕了。让一台机器/物种能创新和顿悟,仍然是神之领域!(科学的尽头是哲学,哲学的尽头真的是神学吗?)

最后,用我昔日同窗赵教授的一个段子作为这篇文章的结尾:

离考试结束还有10分钟了,监考老师说:“要及格的同学抓紧时间啦!”说完便转身走出了教室……对任何一个人,只要脑袋没有进水,都知道要干什么了。对这个简单的情景,不知道阿尔法狗狗会如何反应?哈哈哈~~~

注1:全篇多处引用到DeepMind团队的论文《Mastering the Game of Go with Deep Neural Networks and Tree Search》,不一一标出,在这里一并向DeepMind团队致谢。

注2:作者:苏椰,http://www.zhihu.com/question/20254139/answer/33572009

注3:这里参考了网上各路专业棋手和记者和看法,无法一一列出,一并致谢!有兴趣读者可以上网搜索细品。

注4:刘知青教授接受喆理围棋访问语录。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容