【转载】当这位70岁的Hinton老人还在努力推翻自己积累了30年的学术成果时,我才知道什么叫做生命力(附Capsule最全解析)

当这位70岁的Hinton老人还在努力推翻自己积累了30年的学术成果时,我才知道什么叫做生命力(附Capsule最全解析)

Hinton镇楼
Hinton镇楼

Hinton以“深度学习之父”和“神经网络先驱”响彻AI领域。

这几日,Hinton被刊进各大媒体的头版头条,是因为他的那篇Capsule论文,终于揭下了神秘的面纱。

在论文中,Capsule被Hinton大神定义为这样一组神经元:其活动向量所表示的是特定实体类型实例化参数。他的实验表明,鉴别式训练的多层Capsule系统,在MNIST手写数据集上表现出目前最先进的性能,并且在识别高度重叠数字的效果要远好于CNN。

一个月前,在多伦多接受媒体采访时,Hinton大神断然宣称要放弃反向传播,让整个人工智能从头再造。不明就里的媒体们顿时蒙圈不少。

8月份的时候,Hinton大神还用一场“卷积神经网络都有哪些问题?”的演讲来介绍他手中的Capsule研究,他认为“CNN的特征提取层与次抽样层交叉存取,将相同类型的相邻特征检测器的输出汇集到一起”是大有问题的。当时的演讲中,Hinton大神可没少提CNN之父Yann LeCun的不同观点。

毕竟,当前的CNN一味追求识别率,对于图像内容的“理解”帮助有限。而要进一步推进人工智能,让它能像人脑一样理解图像内容、构建抽象逻辑,仅仅是认出像素的排序肯定是不够的,必须要找到方法来对其中的内容进行良好的表示……这就意味着新的方法和技术。

而当前的深度学习理论,自从Hinton大神在2007年(先以受限玻尔兹曼机进行训练、再用有监督的反向传播算法进行调优)确立起来后,除了神经网络结构上的小修小改,很多进展都集中在梯度流上,正如知乎大V“SIY.Z”在《浅析Hinton最近提出的Capsule计划》(https://zhuanlan.zhihu.com/p/29435406)时所举的例子(为了方便大家阅读这篇文章,营长将具体内容附在文章末尾):

  • sigmoid会饱和,造成梯度消失。于是有了ReLU。

  • ReLU负半轴是死区,造成梯度变0。于是有了LeakyReLU,PReLU。

  • 强调梯度和权值分布的稳定性,由此有了ELU,以及较新的SELU。

  • 太深了,梯度传不下去,于是有了highway。

  • 干脆连highway的参数都不要,直接变残差,于是有了ResNet。

  • 强行稳定参数的均值和方差,于是有了BatchNorm。

  • 在梯度流中增加噪声,于是有了 Dropout。

  • RNN梯度不稳定,于是加几个通路和门控,于是有了LSTM。

  • LSTM简化一下,有了GRU。

  • GAN的JS散度有问题,会导致梯度消失或无效,于是有了WGAN。

  • WGAN对梯度的clip有问题,于是有了WGAN-GP。

而本质上的变革,特别是针对当前CNN所无力解决的动态视觉内容、三维视觉等难题……进行更为基础的研究,或许真有可能另辟蹊径

这当然是苦力活,Hinton大神亲自操刀的话,成功了会毁掉自己赖以成名的反向传播算法和深度学习理论,失败了则将重蹈爱因斯坦晚年“宇宙常数”的覆辙。所以,李飞飞对他在这里的勇气大为赞赏:
drfeifei

如今Capsule的论文刚刚出来,深度学习的各路大神并没有贸然对其下评论,深夜中的外媒亦尚未就此发稿,甚至就连技术圈内一向口水不断的Hacker News,今天也是静悄悄地一片

不过,可以肯定的一点是,一个月后的NIPS大会,Capsule更进一步的效果必定会有所显现,AI科技大本营也一定会继续跟进这里的进展。

至于Hinton此举对于深度学习和整个人工智能界的后续影响,包括Yann LeCun在内的各路大神恐怕都不敢冒下结论,以营长的水平,在这里连翻译和解析论文都显得多余(论文在这里https://arxiv.org/abs/1710.09829,感兴趣的话可自取)。咱们还是静等时间来验证Hinton大神的苦心孤诣到底值不值得吧。

这正如Hinton大神在接受吴恩达采访时所说的:

如果你的直觉很准,那你就应该坚持,最终必能有所成就;反过来你直觉不好,那坚不坚持也就无所谓了。反正你从直觉里也找不到坚持它们的理由。

当然,营长肯定是相信Hinton大神的直觉的,更是期待人工智能能在当前的水平上更进一步。

尽管意义不同,Hinton大神此举却让营长想到了同在古稀之年的开尔文勋爵,他1900年那场关于物理学“两朵乌云”的演讲可是“预言”得贼准:“紫外灾难”让年近不惑的普朗克为量子力学开创了先河,“以太漂移”让刚刚毕业的爱因斯坦开始思考狭义相对论,经典物理学的大厦就此崩塌。

那么,人工智能上空所飘荡的到底是一朵“乌云”呢?还是一个新的时代?让我们拭目以待。

我们来看看Hinton的学术历程,这篇是来自知乎的文章:《浅析 Hinton 最近提出的 Capsule 计划》虽然发表已有一个多月,但值得一读

作者:SIY.Z
原文:https://zhuanlan.zhihu.com/p/29435406

这有可能也是知乎上面分析介绍深度学习最为全面的文章之一。希望做物理的,做数学的,做生物的,做化学的,做计算机,包括做科幻的都能看的很开心

Hinton 以“深度学习之父” 和 “神经网络先驱” 闻名于世,其对深度学习及神经网络的诸多核心算法和结构(包括“深度学习”这个名称本身,反向传播算法,受限玻尔兹曼机,深度置信网络,对比散度算法,ReLU激活单元,Dropout防止过拟合,以及深度学习早期在语音方面突破)做出了基础性的贡献。尽管已经将大半辈子的时间投入到神经网络之上,这位老人却丝毫没有想退休的意思。

Hinton 近几年以 “卷积神经网络有什么问题?” 为主题做了多场报道 [1] [2],提出了他的 Capsule 计划。Hinton似乎毫不掩饰要推翻自己盼了30多年时间才建立起来的深度学习帝国的想法 [3]。他的这种精神也获得了同行李飞飞(ImageNet创始者)等人肯定 [4]。

Hinton** 为什么突然想要推倒重来**?这肯定不是出于巧合或者突然心血来潮,毕竟作为一个领域的先驱,质疑自己亲手建立的理论,不是谁都愿意做的事情。(试想一下,如果你到处做报告,说自己的领域有各种各样的问题,就算不会影响到自己,也让做这个领域的同行和靠这个领域吃饭的人不是很舒服)

说推倒重来有点过分,Hinton并没有否定一切,并且他的主要攻击目标深度学习在计算机视觉方面的理论。但是从几次演讲来看,他的 Capsule 计划确实和以前的方法出入比较大。Hinton 演讲比较风趣,但是也存在思维跳跃,难度跨度太大等问题。这些问题在他的关于 Capsule 的报告中还是比较突出的。可以说仅仅看报告很难理解完全 Hinton 的想法。我这几天结合各类资料,整理了一下 Hinton 的思路和动机,和大家分享一下。

Hinton 与神经网络

(以下用NN指代人工神经网络,CNN指代(深度)卷积神经网络,DNN指代深度神经网络)

要深入理解Hinton的想法,就必须了解神经网络发展的历史,这也几乎是Hinton的学术史。

人工智能才起步的时候,科学家们很自然的会有模拟人脑的想法(被称为连接主义),因为人脑是我们唯一知道的拥有高级智能的实体。

NN 起源于对神经系统的模拟,最早的形式是感知机,学习方法是神经学习理论中著名的 Hebb's rule 。NN最初提出就成为了人工智能火热的研究方向。不过 Hebb's rule 只能训练单层NN,而单层NN甚至连简单的“异或”逻辑都不能学会,而多层神经网络的训练仍然看不到希望,这导致了NN的第一个冬天

Hinton 意识到,人工神经网络不必非要按照生物的路子走。在上世纪80年代, Hinton 和 LeCun 奠定和推广了可以用来训练多层神经网络的反向传播算法(back-propagation)。NN再次迎来了春天

反向传播算法,说白了就是一套快速求目标函数梯度的算法。

对于最基本的梯度下降(Gradient Descent):
\theta_i\leftarrow\theta_{i-1}-\nabla_{\theta}Loss反向传播就是一种高效计算\nabla_{\theta}Loss的方式
不过在那时,NN就埋下了祸根。

首先是,反向传播算法在生物学上很难成立,很难相信神经系统能够自动形成与正向传播对应的反向传播结构(这需要精准地求导数,对矩阵转置,利用链式法则,并且解剖学上从来也没有发现这样的系统存在的证据)。反向传播算法更像是仅仅为了训练多层NN而发展的算法。失去了生物学支持的NN无疑少了很多底气,一旦遇到问题,人们完全有更多理由抛弃它(历史上上也是如此)

其次是,反向传播算法需要SGD等方式进行优化,这是个高度非凸的问题,其数学性质是堪忧的,而且依赖精细调参。相比之下,(当时的)后起之秀SVM等等使用了凸优化技术,这些都是让人们远离NN的拉力。当那时候的人们认为DNN的训练没有希望(当时反向传播只能训练浅层网络)的时候,NN再次走向低谷

深度学习时代的敲门砖——RBM

第二次NN低谷期间,Hinton没有放弃,转而点了另外一个科技树:热力学统计模型。

Hinton由玻尔兹曼统计相关的知识,结合马尔科夫随机场等图学习理论,为神经网络找到了一个新的模型:玻尔兹曼机(BM)。Hinton用能量函数来描述NN的一些特性,期望这样可以带来更多的统计学支持

不久Hinton发现,多层神经网络可以被描述为玻尔兹曼机的一种特例——受限玻尔兹曼机(RBM)。Hinton 在 Andrew Ng 近期对他的采访中 (https://www.youtube.com/watch?v=-eyhCTvrEtE),称其为 "most beautiful work I did"。

当年我第一次看到 RBM 的相关数学理论的时候,真的非常激动,觉得这样的理论不work有点说不过去。这里我给出相关的数学公式,以展示NN可以有完全不同于生物的诠释方式

在统计力学中,玻尔兹曼分布(或称吉布斯分布)可以用来描述量子体系的量子态的分布,有着以下的形式:
P(s)\propto e^{-\frac{E(s)}{kT}}
其中s是某个量子态,E(s)为这个状态的能量, P(s)为这个状态出现的概率。
k是玻尔兹曼常数。T是系统温度,在具体问题中也是一个常数。于是我们不妨让kT=1原来的表达式可以简化为
P(s)\proptp e^{-E(s)}
也就是
P(s_i)=\frac{e^{-E(s_i)}}{\sum_se^{-E(s)}}
这不就是 softmax 吗?居然自然地在统计力学分布里面出现了(难怪之前 LeCun 让大家学物理)。

为了再次简化,我们定义
Z:=\sum\limits_se^{-E(s)}
于是就有
P(s)=\frac{1}{Z}e^{-E(s)}
(因为这时候公式里面只有一个s,就没有必要写下标了)

下面问题来了,** E **是什么? s又应该是什么?

Hinton 看了看神经网络的一层,其分为可见层(输入层)和隐含层(中间层)。按照经典网络的定义,神经元有激活和未激活两个状态。那么干脆让 s 等于可见层 v 并上隐含层 h神经元的状态吧(默认都用向量的方式表示):于是

RBM示意图
RBM示意图

s= (v,h),P(v,h)=\frac{1}{Z}e^{-E(v,h)}

那么E又是什么呢?

非常巧合的是,量子物理学里面有个模型极其像神经网络,以至于只要了解过几乎都会惊叹两者的相似度。这个模型就是著名 易辛模型(Ising model)。易辛模型(物理学界常见调侃:你3维 Ising 模型会解了吗?)描述了晶格系统中的相变,解释了铁磁性问题(你可能好奇过,为啥这么多金属,就铁等少数金属特别敏感,而且还能被磁化。这个模型给出了解释)。

Hinton 把神经元的偏置(对于可见层记作a, 对于隐含层记作b ) 作为 Ising model 的 “外场”,NN的权重W作为 Ising Model 的“内部耦合系数”(两个神经元之间的权重越大,代表它们的耦合越强,关联越强),于是能量就可以写作非常简单的形式:
E(v,h)=-a^Tv-b^Th-h^TWv

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,302评论 5 470
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,232评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,337评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,977评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,920评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,194评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,638评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,319评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,455评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,379评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,426评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,106评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,696评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,786评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,996评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,467评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,043评论 2 341

推荐阅读更多精彩内容

  • 假期里,孩子似乎像断了线的风筝!飘飘悠悠的没有方向的玩,虽然也做了部分假期作业,但是心还是没定下来,今天正式...
    飞越高空阅读 182评论 0 7
  • 当女儿决定这个学期要通校的时候,我的心就紧缩着,她住校的时候,我们的生活就已经手忙脚乱了,她要是通校要早晚接送可怎...
    长青竹ing阅读 237评论 3 5
  • 感赏: 昨天中午同事帮我收了村医送来的资料,我没被打扰得午休,谢谢同事的体贴。 女儿经过努力昨天数学考得98分她是...
    贵州六年级庄杰阅读 130评论 0 2