AutoML初探 -- 上

前两天李沐大神团队发了一条关于AutoGluon的朋友圈“头发的生长剂”,成功引起我了我注意力,在人心惶惶的公司里坐着也是坐着,顺手学习了一下AutoML。
(吐槽一下,现在觉得医护工作者,消防员,教师才是真正值得尊敬的人,资本家不值得尊敬和同情,资本永远都是嗜血的)

这篇文章分两部分,上篇介绍AutoML原理,下篇实验对比。


关于AutoML

AutoML的作用其实就像字面意思一样,自动的机器学习。主要目的就是减少人工干预建立机器学习通道。而目前机器学习人工干预主要有三块工作:

  • 特征工程
  • 搭建模型
  • 模型调优

自动特征工程(Automated Feature Enginnering, Auto FE)

自动特征工程这一块其实没什么好说的,因为要实现一个泛化能力很强的特征工程模型,目前还做不到。不同的数据集都需要人工来发掘特征,很难达到自动化。 现在能做到的是做一些特征增强的工作,简单的特征选择,降维,生成,编码等。

自动模型调优

模型调优就是参数的优化(Hyperparameter Optimization, HPO),早年间的grid search还是很好用,这里还需要做的优化是优化器的优化,说成把这些方法排列组合也不为过。

自动搭建模型

自动搭建模型其实就是NAS(Neural Architecture Search,神经网络架构搜索),这一块是AutoML的主要发力方向。NAS的目标是搜索出在一数据集上表现最好的神经网络架构。就像搭积木一样,不断试错,把积木搭的又高又稳。
Google Brain的论文《Learning Transferable Architectures for Scalable Image Recognition》,里面总结了图像识别用到的神经网络的“好用的积木”其实就几个:

怎么把这几个模块进行组合,需要一个算法。
NAS算法用一个RNN作为控制器,采样不同结构的子网络,然后训练这些子网络,根据其在Validation Set上的效果,反馈给RNN进行更新。


但是NAS最大的问题是太慢了,在ImageNet这种大型数据集上训练是非常困难的(因为gpu的烧钱啊),所有要设计合理的搜索空间。所以提出了两个假设。
第一个假设,网络在结构相同的较小训练集上训练好了,迁移到大的数据集上也有好的效果;
第二个假设,NAS训练小的convolutional cell的结构,然后重复堆叠这些convolutional cell搭建更深的网络取得更好的效果。

第一个假设在深度学习里显然是有效果的。第二个假设只需要两种convolutional cell:Normal Cell和Reduction Cell就可完成,然后选择了当时最先进的两种模型,CIFAR-10和ImageNet作为整个神经网络结构。


一旦这个结构确定下来,剩下的任务就是预测Normal Cell和Reduction的结构。具体的训练过程可以再看看论文,最后训练出来最好的cell结构是这样的。


这个模型是在500块Nvidia P100s上,花了4天时间训练出来的,大概算了一下应该要4万刀。。。

这么个烧钱的玩意显然是不能推广开来的,2017年还是Google在论文《Progressive Neural Architecture Search》提出了PNAS(渐进式神经架构搜索),不是上来就抓一个模块(cell)就开始训练,而是先从简单的cell开始,逐渐向复杂的cell搜索它的结构。这种PANS方法比原始的NAS效率高5到8倍,也便宜了许多。

为了进一步提升效率,google又提出了ENAS,作者假设NAS的计算瓶颈在于,需要把每个模型到收敛,但却只是为了衡量测试精确度,然后所有训练的权重都会丢弃掉。ENAS算法强制将所有模型的权重共享,而非从零开始训练模型到收敛,我们在之前的模型中尝试过的模块都将使用这些学习过的权重。因此,每次训练新模型是都进行迁移学习,收敛速度也更快。

总结

在网上查了资料之后,发现AutoML,其实目前还是鸡肋。 因为对于简单的任务,NAS效果基本略好于人类炼丹师水平,但对于复杂的任务,NAS又变成人工智障水平,且并不会减少多少工作量。所以并不看好短期内AutoML能在工业界有什么大的作为。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 198,932评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,554评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 145,894评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,442评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,347评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,899评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,325评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,980评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,196评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,163评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,085评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,826评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,389评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,501评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,753评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,171评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,616评论 2 339

推荐阅读更多精彩内容