【译作】人工智能面临可重现性危机

Science Feb 2018

【计算机科学】

作者：Matthew Hutson

去年（2017年），加拿大蒙特利尔大学(U of M)计算机院的科学家们急于展示一种新的语音识别算法，他们想把其与由知名科学家设计的基准算法进行对比。唯一的问题是:基准算法的源代码没有被公开。研究人员不得不根据已公开的部分进行重现。但蒙特利尔大学实验室的博士生Nan Rosemary Ke说，他们无法使自己推算的版本与基准算法宣称的性能相匹配。“我们尝试了两个月，但没有任何进展。”

蓬勃发展的人工智能(AI)领域正在努力应对可重现性危机，如同10前类似的危机困扰着心理学、医学和其他领域。人工智能研究人员发现许多关键结果很难被重新验证，这将引领一种新的研究方法和发表协议。Nicolas Rougier表示:“我认为，其他领域的人可能会认为，正因为我们有代码，所以可重现性是有一定保证的。他是波尔多的法国国家计算机科学与自动化研究所的计算神经学家。“可是事实并非如此”，上周，人工智能发展协会(AAAI)在路易斯安那州的新奥尔良市举行了一次会议，会议的议程上提到了可重现性，一些团队解析了这一问题，其中一个团队还提出了缓解这一问题的其他办法。

根本问题在于研究者常常不愿意分享他们的源代码。在这次人工智能发展协会召开的会议上，挪威科技大学特隆赫姆分校的计算机科学家奥德.埃里克·甘德森报告了在过去几年中，对两场顶级人工智能大会上发表的论文中提出的400种算法的调查结果。他发现只有6%的发言者分享了自己的算法。只有三分之一的人共享了数据，也只有一半的人分享了“虚拟程序代码”--受限制的算法摘要。(很多情况下，在期刊上发表的人工智能论文中也没有代码，如在《科学》和《自然》杂志中。)

假使可以获取并运行原代码，它可能也不会尽如人意。在被称为机器学习的人工智能领域，计算机从经验中获得专业知识，而算法的训练数据会影响其性能。Ke觉得正是因为不知道语音识别基准的训练数据，导致她的团队试验失败。“从一个程序运行到另一个有一定的随机性，”她说。她又补充说，当然，如果你“非常非常幸运，可以碰巧运行到一组非常好的数据”。“大家通常会这么报告。”

在人工智能发展协会(AAAI)的会议上，蒙特利尔麦吉尔大学计算机的科学家Peter Henderson演示了试错学习的人工智能，其表现不仅对所使用的确切代码高度敏感，而且对开始训练时产生的随机数也高度敏感，还有“超参数”——这些设置不是算法的核心，但会影响算法的学习速度。他在不同的条件下运行了几个这种“强化学习”算法，得出截然不同的结果。例如，一个虚拟的“半猎豹”——一个运动算法中使用的简笔图形——可以在一个测试中学会冲刺，但在另一个测试只会在地面瞎蹦跶。Henderson说，研究人员应该记录更多的关键细节。他说:“我们正在努力推动这个领域有更好的实验程序和更好的评估方法。”

Henderson的实验是在一个名为Gym的强化学习算法的试验平台上进行的，该平台由加州旧金山的一个非营利组织OpenAI所创建。OpenAI的计算机科学家约翰·舒尔曼(John Schulman)帮助创建了Gym，他说，这有助于标准化实验。“在Gym之前，很多人都致力于强化学习，但每个人都在为他们的实验创造各自的环境，这使得不同论文之间很难比对的结果，”他说。

在AAAI会议上，IBM研究部门展示了另一个协助复制的工具:一个可以自动创建未发布源代码的系统，它可以节省研究人员几天或几周的时间。这是一种人工神经网络——一种由多层小计算单元组成的机器学习算法，类似于神经元——再重组为其他的神经网络。它扫描一篇人工智能研究论文，寻找构建神经网络的图表或表格，将这些数据解析成层再进行连接，然后用新的代码生成网络。该工具现在已经复制了数百个已发布的人工神经网络，IBM正计划将它们置于一个开放的在线存储库中。

荷兰埃因霍温科技大学的计算机科学家Joaquin Vanschoren创建了另一个资源库作为准服务器:这个网站名为OpenML。它不仅托管算法，还托管数据集以及超过800万次的实验及其相关细节。Vanschoren说:“你进行的实验很大程度都没有记录假设和决定。”“即很多细节都没有被详细记录下来。”

心理学在某种程度上建立了一种支持复制试验的学术环境来应对可重现性危机，人工智能也开始这么做了。2015年，Rougier协助创办了(ReScience)--一本致力于研究复制的计算机科学杂志。大型神经信息处理系统会议已经开始在这个网站上链接论文的源代码。Ke在协助组织一项“关于可重现性的挑战”，这个项目将邀请研究人员尝试重现论文并提交给即将召开的会议。Ke说，将近100篇论文正在进行重现，研究人员大部分是学生，他们的工作会帮助他们获得学分。

然而，人工智能研究人员表示，激励机制仍与可重现性性无法匹配。他们没有时间在对每一种情况测试算法，论文中也没有足够的篇幅来记录他们尝试的每一个超参数。由于许多没有同行评价的论文每天都在arXiv的网上发表，他们感到了无法快速发表论文的压力。许多人不愿意报告失败的重现性案例。例如，在《科学》杂志(ReScience)，迄今为止所有发表的重现性结果都是成功的案例。Rougier说，他有一些被告知的失败实验，但其他年轻的研究人员常常不希望被认为是在评价资深的研究人员。这也是Ke不会透露基准的语音识别算法背后的研究人员的名字的原因。

Gundersen认为这种学术环境需要改变。“这不是什么面子的事儿，”他说。“而是实事求是的事。”

名词解释：

Reproducibility--可重现性

可重现性：不同实验室的不同分析人员用相同分析对同一被测对象测定结果之间的相对标准偏差。

AAAI-人工智能发展协会

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,830评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,992评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,875评论 0赞 331
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,837评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,734评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,091评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,550评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,217评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,368评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,298评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,350评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,027评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,623评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,706评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,940评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,349评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,936评论 2赞 341

【译作】人工智能面临可重现性危机

推荐阅读更多精彩内容