互联网世界的“人工智能”——探秘“深度学习”的前世今生

本文来自“流浪汉” (@ZhangLumin

Facebook AI Lab 于今年下半年正式建成,其网络覆盖纽约、伦敦以及 Facebook 加州门罗帕克总部三地。AI Lab 旨在投入研发精力,探索人工智能的分支之一:深度学习(deep learning)。借此,Facebook 希望在未来能给用户提供更智能化的产品使用体验。

此消息一出,立刻成为机器学习顶级会议 NIPS 本年度会议上一道引人注目的风景,同时也为近两年大热的深度学习再添火一把。据悉,Google 于近日雇佣了未来学和人工智能专家Ray Kurzweil担任其人工智能计划的工程总监,微软最杰出的工程师之一、Bing Mobile 和 Bing Maps 开发的关键人物Blaise Agüera y Arcas 也已加盟 Google的机器人学习团队。IBM 也在深耕深度学习,旗下的超级计算机Watson凭借“高智商”已经在华尔街花旗集团找到了一份工作,负责证券投资组合管理。今年 10 月,雅虎收购了图片分析初创公司LookFlow,计划提升 Flickr 的搜索及内容发现体验。

那么,到底什么是深度学习?靠谱吗?对广大创业者来说,其中究竟存在怎样的机会?在下文,我会尝试梳理一下关于深度学习的概念,并分享一点个人的思考。

正如 Zuckerburg 所澄清的那样,Facebook(及本文所讨论)的人工智能是计算机科学中狭义的人工智能,并没有人工建造人脑那样的野心。这种人工智能,是基于数学(统计)进行问题求解的机器学习算法(machine learning algorism),即我们常常提到的大数据时代的算法核心。机器学习无处不在:互联网广告投放、网络传播、趋势预测、机器人研发、计算机视觉、搜索、自然语言理解,以及生物信息识别等都离不开机器学习。这也是诸多大公司在这个领域频频投资的主要原因。

深度学习是怎么火的?

什么是深度学习(deep learning)?说白了,就是人工神经网络(Artificial Neural Network,以下简称 ANN)这个旧瓶装了新酒。

人工神经网络包含输入层、输出层以及中间的若干隐层(hidden layer),每层都有若干结点及连接这些点的边,在训练数据集上会学习出边的权值,从而建立模型。随着边所表征的函数的不同,可以有各种不同的神经网络。这种源于人工智能中联结主义学派(connectionism)的方法在上世纪七八十年代盛极一时。John Hopfield,Geoffrey Hinton 和 Yann Lecun 等多位学者都对 ANN 颇有研究。

然而不幸的是,和学术论文中鼓吹的不同,在诸多工程领域中,人们发现 ANN 并没有表现出比其他经典算法更好的性能。究其原因,由于巨大的计算量和优化求解难度,ANN 只能包含少许隐层,从而限制了性能。控制领域仍然在使用经典的 PID 调节,而在机器学习领域,随着以支持向量机和贝叶斯网络为代表的统计学习在 90 年代的兴起,ANN 开始倍受冷落。

Geoffrey Hinton 曾感慨自己的学术生涯就像 ANN 一样起起伏伏。所幸的是,这位 Gatsby 的创立者一直没有放弃 ANN 的研究。从 06 年开始,他陆续开始发表关于如何改进 ANN 的文章,主要是通过很多数学和工程技巧增加隐层的层数,也就是深度,所以被称为深度学习。虽然 Hinton 的观点没有得到足够重视,成为主流共识,但大家开始更加关注这一领域。

08 年 NIPS 基金会没有批准 Deep Learning 的研讨会申请,结果组织者自行开会,包括 Michael Jordan,Andrew Blake 等一众机器学习及相关领域最具影响力的资深学者都出席了会议,会场爆满。除了一直没有放弃的 LeCun 等人,这一领域还吸引来了 Stanford 机器学习的教授、Coursera 创始人 Andrew Ng。Ng 的研究组,率先做出了和现有最高水平相提并论的结果。后来, 大家一步步推进,深度学习在很多实际评测中遥遥领先,一下就火了。

深度学习主张,如果 ANN 的隐层足够多,选择适当的连接函数和架构,并增加一个非监督学习的“pre training”网络组成,就会具有更强的表述能力,但常用的模型训练算法反向传播(back propagation)仍然对计算量有很高的要求。近年来,得益于计算机速度的提升、基于 MapReduce 的大规模集群技术的兴起、GPU 的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时,深度学习才在实践中有了用武之地。

在计算机视觉领域,深度学习首先在手写识别领域表现出众。2012 年,在物体识别(被誉为计算机视觉圣杯)的权威测试 Imagenet Challenge 中,深度学习遥遥领先于其他经典算法(16% VS 26%),吸引了无数眼球。纽约大学计算机科学系副教授 Rob Fergus(和 Yann LeCun 一起加入 Facebook AI Lab)的学生 Matthew Zeiler,创立了一家提供图像搜索服务的公司——Clarifai。他的深度学习算法在本月刚刚结束的 ICCV Imagenet Challnge 2013 中,继续领先于其他算法。

深度学习产品化的浪潮中,科技巨头机会更大

Google 研究员 Ilya Sutskever 最近表示,如果数据足够多、计算能力足够强、人工神经网络足够深,即便不加“pre training”预处理,也可以取得目前最好的结果,这充分证明,目前的深度学习对标注数据量和计算能力都提出了很高的要求。

目前更像是巨头们的游戏。Google 和百度都已在自己的图像搜索中部署了深度学习技术。Google 在内部多个项目组推广深度学习平台,而百度也将深度学习算法运用到了语音等多个产品中。今年 5 月,前 Facebook 资深科学家徐伟加盟百度深度学习研究院(Institute of Deep Learning, IDL)。在这次 NIPS“深度学习研讨会”上,IDL 还设立了展台,它在深度学习方面的研究成果在学术界也越来越有影响力。

最近,Facebook 在人工智能领域动作频频。Zuckerburg 和俄罗斯富豪尤里一起创立了 300 万美元奖金的 Breakthrough Prize in Mathematics,可谓与 AI Lab 的设立一脉相承。拥有海量数据的互联网巨头中,Google 收购了 Geoffrey Hinton 的创业公司 DNNResearch(一家专注于语音和图像识别技术的研究公司), 百度挖来余凯老师创立了 IDL 研究院,IBM 研究院 Watson 电脑开始研究深度学习相关技术,微软研究院邓力老师率先把深度学习应用在语音识别中,Yahoo 收购了 LookFlow 来创建深度学习小组,Amazon 在柏林创立了机器学习研究中心……

这一系列行动,无论是出于战略防御,还是单纯被深度学习吸引,一个无法否认的事实是:深度学习产品化的热潮已经扑面而来。

深度学习有局限性,初创公司应理性选取机器学习算法

有些人觉得深度学习似乎没有理论深度,其实不然。查阅一下 Geoffrey Hinton 的论文,其中用到的理论很深刻,数学技巧也很复杂,深度学习的理论门槛较高。但是好消息是,以 Hinton、Yoshua Bengio 为首的研究组开放了越来越多的源代码,包括 GPU 的实现,而且多种不同算法的开源实现也被公开,所以算法实现的门槛已经降低了很多。

对于创业者来说,困难在于如何获取大规模已标注数据、集成有 GPU 的计算集群以及针对自己的项目调参数。调参数一直是深度学习被学术界诟病的话题,早期只有几个圈内的小组掌握着调参数的秘方和数据处理的技巧。目前的深度学习参数调节已经比之前透明化了许多,但仍是开发过程中最为耗时的一部分。

目前主打深度学习的创业公司并不是很多,除了被Google收购的DNNResearch,Hinton 的另外一个学生最近在伦敦组建了 DeepMind,也在 NIPS 研讨会上进行了展示,他们使用深度学习改进了传统的强化学习,以寻找优秀的策略来打游戏,算法的表现和人的策略很相似。

还有位于旧金山的初创公司 Ersatz 主打深度学习的云平台,以进一步降低深度学习的门槛,但是除了数据问题,其技术水平有待观察且商业策略与众多大数据平台小公司无二,能否在激烈的商业拓展中脱颖而出还是问号。还有个别图像和文字理解的初创公司加入了深度学习的模块作为补充手段,在实际问题尤其是不同数据集上的应用尚有待观察。

但是,深度学习算法能够成功运行的前提仍然是,项目能够采集到充分大的标注且数据维度足够高或者你的想法足够通用。有了大数据样本才能缓解复杂模型的过度学习(overfitting)。从某种意义上说,这也给了其他机器学习算法很多机会。比如说,因为隐私原因,服务企业的大数据平台就很难应用深度学习,

深度学习的另一局限性是可解释性不强,即便是一流的学者也很难对效果超群的深度学习算法在具体问题上给出具体解释。这有可能成为产品迭代过程中的阻碍。深度学习本身是支持在线学习和数据流,但是相关理论尚待完善。如上所述,深度学习目前主要集中于监督学习,在非监督学习领域,除了 Google 前一段时间公布的用于自然语言处理的 word2vec,还没有很出彩的工作。

从深度学习的研究者身上,我们可以看到,一个好的研究者要对自己的研究有足够强的信念。正如马云所说,好的创业者要坚持自己的信念,而不是盲目跟风。我前不久遇见了 Aria Haghigh,他是 Prismatic 这个创业公司的创始人,同时也是一位名校毕业、成果卓著的机器学习研究者,放弃了教职出来创业。他也懂深度学习,但是对于他的产品和数据来说,他说深度学习并不是首选,因为数据的特性不同。

Prismatic 其实用的是 Logistical Regression 的算法,这一算法相对成熟,不过依然有很多地方可以优化。他们甚至自行创建了分布式系统,而不是使用 Hadoop。事实上,目前诸多搜索引擎和社交网络的广告系统都是以 Logistical Regression 的算法为基础的,相关产品的体验和速度都非常棒。朴实的算法,花同样的时间去调参数,对产品已经足够了,因为用户是不会察觉准确率上百分之零点几的差别。

此外,每个人对人工智能都有自己的见解。比如,Peter Thiel 投资了 Machine Intelligence Research Institute——这个研究机构对于目前主流的机器学习算法不满,试图从交叉学科的角度,创建更接近人、更友好的智能。

历史不会重演,却常常惊人得相似。翻开 Yann LeCun 的简历,这并不是他第一次投身工业界。他曾经是 AT&T 实验室(Bell 实验室拆分后留在 AT&T 的部分)图像处理组的负责人,并试图硬件化人工神经网络,后来由于公司策略调整,整个研究组被裁,他才挪移到纽约大学任教,继续自己独树一帜的研究(曾赢得国防部的合同)。

这次,他终于等到了深度学习(deep learning)的复兴,接受了 Facebook 的工作邀约再次回归工业界。之所以会聘请 LeCun 等高校教授回到业界,是因为深度学习在实践中确实取得了效果,而公司之前也雇佣过这些教授麾下的学生,合作下来都很愉快。

谁也不知道深度学习是否会像其他算法一样进入瓶颈期。如何把深度学习运用到产品中,将产品智能化,提升用户体验——这越来越受到公司的关注。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容