人人都能懂的机器学习——训练深度神经网络——迁移学习初探2

上一篇文章介绍了迁移学习的基本概念,这篇文章其实是迁移学习初探的一个小尾巴。通常我们使用迁移学习,会首先寻找是否有类似的训练好的模型可用,但如果实在找不到可用的模型,又无足够的已标记数据可用,那么还有两种替代方法:无监督预训练和用辅助任务预训练。

无监督预训练

假设你需要完成一个复杂的任务,但是手头又没有足够的已标记好的数据,更不幸的是你又找不到训练好的类似功能的模型。这种情况下,首先应该试着收集更多的标记好的数据。但如果实在找不到更多数据了,就可以尝试使用无监督学习技术(见图2.5)。实际上,一般收集未标记的数据还是很容易的,但是要标记它们需要花大量的时间或者金钱。如果手头能够有大量未标记的数据,那么就可以尝试用这些数据来训练一个无监督的模型,比如自动编码器(autoencoder)或者生成对抗网络(GAN)。然后重用无监督模型的低层网络,在顶层加上针对你的任务的输出层,然后使用标记好的数据进行监督学习,以精调最终的模型。

Geoffrey Hinton和他的团队在2006年使用了这个技术,引领了神经网络的复兴和深度学习的成功。在2010年以前,无监督预训练(特别是使用RBMs的无监督学习)都甚至是训练深度网络的标配,直到梯度问题被很好地解决了之后(见我之前的文章),大家才普遍直接使用监督学习来训练深度神经网络。但是无监督预训练(现在基本上都是自动编码器或者GAN)在特定情况下仍然是个不错的选择,比如没有类似的模型可以用,标记好的训练数据很少,但是未标记的数据又特别多的时候。

在很久以前,人们很难用深度学习来训练一些很深的模型,所以大家会使用一种叫做贪婪逐层预训练的技术(见图2.5)。首先训练一个只有一层的无监督模型,一般是受限玻尔兹曼机(RBM)。然后将该层冻结,再在该层之上加另外一层,之后继续训练模型(实际上就是训练新的一层)。随后再加新层,再训练,如此往复。但是现在事情变得简单很多了,大家一般一次就训练好整个无监督模型(即图2.5中,直接从步骤3开始训练),并且将RBM替换为自动编码器或者GANs。

图2.5 在无监督训练中,使用无监督学习技术对未标记数据(或者所有数据)进行训练,然后使用监督学习技术针对已标记数据进行微调,以完成最后任务。无监督训练可以一次只训练一层,也可以直接训练整个模型

用辅助任务预训练

除上述无监督学习方法之外,还有一个选择就是用一个辅助任务来训练一个初始的神经网络。这辅助任务的特点,就是你可以很轻松地获取到,或者自己生成大量标记好的数据。然后再重用初始模型的低层,为你实际的任务服务。初始的神经网络的低层需要能够学习到一些对实际任务有用的特征探测能力。

比如说,如果你想搭建一个人脸识别的系统,但是只有想要识别的每个人的寥寥几张照片,根本无法训练出一个好的分类器。但是对于你想要识别的每个人,想要他们每个人都提供成百上千的照片又不现实。那么,你就可以尝试从网上收集任意路人的照片,然后训练出一个初始的模型。这里的辅助任务就是,检测两张照片里的人是不是同一个人。这样一个神经网络会学习到脸部的特征探测,那么重用这个模型的低层,就有助于训练出性能足够优秀的分类器。

在自然语言处理(NLP)中,你可以下载大量文字信息,并自动生成已标记的数据。比如说,你可以随机遮住文中的一些字词,然后训练一个模型用来预测被遮住的字词是什么(即,模型可以用来预测一句话中的字词应该是什么,比如“你刚__说什么?”下划线里的字很可能是“刚”或者“才”)。如果你的模型可以很好地预测被遮住的字词,那么这个模型就已经能够很好地处理语言问题了,那么就可以重用这个模型,然后针对已标记的数据和实际的任务进行精调。

上面提到的方法,也可以被称为自监督学习。自监督学习也就是从数据本身自动生成标记,然后使用生成的标记,通过监督学习的方法来训练模型。但是不管怎么说,这个方法都没有进行人工标记数据,所以还是将其归类为无监督学习的一种。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342