GMIS 2017大会邓力演讲:无监督学习的前沿与SPDG方法的优良性

机器之心 | GMIS 2017大会邓力演讲:无监督学习的前沿与SPDG方法的优良性
视频地址:网易直播:直击机器智能峰会:看AI的过去现在与未来 http://live.163.com/room/134513.html

微软人工智能首席科学家邓力将分享《无监督学习的最新进展(Recent Advances in Unsupervised Learning)》。他认为,聚类方法、GAN 和变分自编码器(VAE)等传统无监督学习方法关注的重点是对输入数据的结构建模,而邓力则将探讨一种通过探索输出结构来进行无监督学习的方法以及为这种学习技术的新型成本函数问题所提出的新技术——随机原始-对偶梯度(SPDG:stochastic primal-dual gradient)。

有关研究的论文《一种利用序列输出统计的无监督学习方法(An Unsupervised Learning Method Exploiting Sequential Output Statistics)》已经在 arXiv 上发布:http://arxiv.org/abs/1702.07817,来听演讲之前,不妨先读读论文吧。

邓力今天跟大家介绍的一个主流的观点就是,以预测为中心的无监督的学习的范式,在这个范式里面我们能够直接完成机器学习的目标,无论是预测还是其他的任务。因为,我们能够直接把输入放到系统里面,然后利用无监督学习的机制(机器自己学习),而不需要人类给它一些标签、标识,利用这种范式就能做出一些非常优良的预测。

随后邓力为我们描绘了监督学习如何使用分类器处理标注问题。我们知道监督学习的特点就是有大量的标注数据集,而最新的监督模型总是表现得比无监督预训练模型更好。那是因为,监督会允许模型能够更好的编码数据集上的特征。只不过当模型应用在其他的数据集上时,监督会衰减。如下图所示,邓力首先展示的就是从成对输入-输出数据的分类模型。

邓力老师表明监督学习,即给机器出输入、输出的两种数据,让它自己去学习,这种情况下它肯定有一个映射了,一对输入输出就像一个老师,老师教给这个机器如何进行识别或预测。这个范式非常地成功,在人类已经应用的比方说语言识别和机器翻译等等方面,都是用这种范式来做的。这种范式十分成功,都是用这种一对对映射的输入输出方式来训练整个系统。但是另一方面我们可以看到这种方法的成本还是很大的,我们需要给系统提供输入跟输出成对的数据。语音识别还好一点,但是其他的应用(比方说翻译、医疗的应用、图象识别、视频相关的任务和医学影像方面的任务),那么这种映射的输入输出成对的训练方法就太贵了,成本太高了。

邓力老师随后表明如果没有输入、没有一个学习材料它怎么学,所以说机器还得有一些学习材料,在这个范式里面要给机器提供一些米、一些学习材料,而又不需要人类提供那些非常成本昂贵的输入输出的映射,那怎么办呢?在这个世界上有充分的、多元的一些知识的来源,我们可以把它正和岛一个整合的系统,然后给系统、给机器,这是一个非常大胆的说法,怎么把世界上既有的多元化的信息分类到各个知识领域。
无监督学习分类器


语言模型能从分离的语料库中训练,这样就移除了成对数据(标注数据),也就不需要大量人力标注。

我们假设是这样做的,在这个实验里面我们使用语言模式的信息,既使是我们提供的序列作为输入给这个机器,它出来的输出还是不能给出一个明确的标签,输出只能给出一个非常泛泛的、很慢的人类语言的标签。所以我们用真实的语言,我们用语言来作为机器学习的指导。那么自然语言的数据可以是一个很困难的东西,但是我们可以单独拿出来使用,不把这个自然语言和任何的图象进行配对。为此我们就极大地降低了培训的成本、训练机器的成本。
问题形式化为:
原始问题的成本函数为

该损失函数的问题:成本函数即使是线性模型也高度非凸性。可以最优化这个目标函数,求出最优参数,然后就可以求出我们所需要的模型。所以邓力老师跟大家来分享了一下这个成本函数,我们可以看到刚才已经讲过了这个目标函数,最开始它是不好的,但是最后迭代以后它会越来越好。我们可以看到从网站里面它跟你的数据训练是不同的,所以这是很容易建造的,但是却很难优化。在邓力老师的演讲中,非常重要的就是采用SPDG在没有标注的情况下学习如何做预测。那么我们一起来看看邓力老师如何将前面我们形式化的原始问题转化为极小极大对偶问题,并采用随机梯度下降来求得最优参数。(注:以下参考自邓力等人今年发表的论文:An Unsupervised Learning Method Exploiting Sequential Output Statistics)为了正确地将随机梯度下降应用到前面我们形式化问题所得到的损失函数,即最小化损失函数:

我们需要转换该损失函数以保证其随t的累和为对数损失。为此,我们首先需要引进凸共轭函数这一概念。给定一个凸函数 f(u),那么其凸共轭函数f * (ν)就定义为:

此外,也可以表示为:

若有函数 f(u) = − ln u,其中标量 u>0,那么其共轭函数为 f* (ν) = −1 − ln(−ν),其中标量v<0。因此根据上式定义,我们的函数和共轭函数有以下关系:

其中,sup由max替代,因为上确界是可以用最大化达到的。随后我们可以将上面的函数代入最开始的损失函数中,而根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题,因此求解原始问题就等价于求解以下极小极大问题(min-max problem):

其中
,即V定义为所有对偶变量的集合
。 Lt(θ, V )为第t个分量函数:

极小极大问题方程的最优解(θ,V)即称之为函数L(θ,V )的鞍点。一旦求得最优点 (θ, V),我们就能保留原始变量θ作为模型学到的参数。随机原始-对偶梯度方法(Stochastic primal-dual gradient method /SPDG)在上式极小极大问题等价优化式中,我们先关于θ极小化L(θ, V )和关于V极大化L(θ, V )以求得最优解 (θ,V*)。这样求得的参数θ即原始问题的最优化解。我们更进一步注意到原始问题的等价式极小极大问题现在是分量函数Lt(θ, V ), t = 1, . . . , T从1到T的累和。

因此,关于θ的极小化和关于V的的极大化可以由随机梯度下降解出,即L(θ, V ) 关于原始变量θ执行随机梯度下降、L(θ, V ) 关于对偶变量V执行随机梯度下降。这样重复迭代的方式,即随机原始-对偶梯度(SPDG)方法。为了计算随机梯度,我们先将L(θ, V )的全批量梯度表示为:

为了计算随机梯度,我们将每个样本
[I的平均值由各自的随机抽样分量
(或其小批量均值)替代,如此迭代重复下去(其中tm为集合{1, . . . , T}中的均匀随机变量)。在上述算法一中,我们使用小批量梯度概述了SPDG方法,其中梯度可以在 TensorFlow 实现中自动计算。此外,对偶变量
的负约束(negative constraint)由于在极大极小问题中的内在 log-barrier
而能被自动执行。因此,我们不需要独立的方法来实现约束条件。随后,邓力老师分析了对偶问题成本函数的损失表面,它表明对偶问题的损失表面具有更优良的性能,执行随机梯度下降也能得到一个很好的最优解。

最后,邓力老师总结了本场演讲的精要信息点:

最后邓力老师表明,无监督学习比监督学习更有趣,但是也更困难。我们可以使用更多的一些数据来进行学习,比如说像我刚才所说的 SPDG 方法,该方法不需要进行标记,但它可以直接进行学习来听声音的识别或者说做一些翻译。这样的一个线性的方式,我们也需要很多的发明来使无监督学习更加地有效。
邓力说:「其实我们人类还是很有希望的,因为在未来有越来越多的技术以后,人类就可以有更多的价值。」他认为虽然监督学习很有希望,但未来的趋势还是无监督学习。

















最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容