90% 的机器学习论文都会存在的问题

近几年来,“大数据”和“机器学习”的浪潮越涨越高,伴随而来的则是同样如潮水般的机器学习论文。各大会议上灌水的文章越来越多,相关从业者挑选有用论文的难度自然也更大,很多包括我在内的机器学习开发人员因为平时时间有限,面对着每年成千上万的文章没法一篇一篇仔细地去看,有时候看完了一篇论文才发现一点卵用都没有,时间白白浪费了。然而看了这么多没什么卵用的文章之后,我发现90%以上的文章都存在一些共同的问题。

不管黑猫白猫,能抓到耗子就是好猫。不管什么模型,是不是deep还是做了多么复杂的神经网络结构,效果不好也是白搭。然而大多数情况当我兴致勃勃地好不容易看到了模型评估对比(Evaluation)的部分的时候,都总是不禁有一种“老子裤子都脱了你却给我看这个”的感觉,为什么呢?具体有以下几种原因

你的对照模型(Baseline)调好了吗?

啥是实验组啥是对照组相信大家中学物理实验都学过,机器学习本来也算是科学的一部分,科学就要讲究严谨。奈何最近这门学问越来越像玄学靠近了,大家做实验最后都只看缘分图个开心,结果你是做开心了,我看的时候一脸懵逼。我经常看着论文里的实验数据表格产生一个哲学思考,作者到底有没有认真调Baseline?很多学术界的文章为了发Paper结果自己胡搞了一套结构出来,然后拉几个现在比较火的模型出来当Baseline,结果发现,擦,好像没什么提高啊,然后玩命调自己新模型的参数,调了一个月终于调好了,比对照模型高了那么0.001 AUC,然后美滋滋的发文章去了。但是Baseline基本没调过或者没认真调过,两个模型放在一起根本不具有可比性。这就好比你想比较跑步和骑车哪个快

对照组:一个75岁的老大爷骑着一辆破自行车骑了10分钟

实验组:奥运短跑冠军跑了1分钟

结论:跑步比骑车快


做过机器学习调参的人都知道,选对了特征和模型有时候只是成功的一半,合理的参数和模型结构的细节的设置往往会起到很关键的作用,尤其是进入深度学习以后,可调的东西也越来越多,很多文章只字不提对照模型的参数信息,有的就算提了,你也不知道作者是不是认真先把对照模型调到最好了。

你有做过线上实验吗?(Online Metrics)

接着上面的话题继续说。实验结果里面还有一个特别有迷惑性的地方就是实验本身的可参考性。啥意思呢,简单来说就是线下实验和线上实验的区别,做过推荐系统或者广告推荐的同学应该很清楚,线下结果和线上结果的差异(Discrepancy)会随着系统的复杂度上升而变得越来越明显。换句话说就是你线下操作一通猛如虎,结果线上真正应用了一试结果没啥效果,或者是线下有的反而更差的模型线上反倒更好。举个例子来说,如果说模型是格斗的话,线下测试就是套路表演,线上测试就是肉搏,练格斗不就用来打的吗?肉搏能赢才是真本事,只是耍得一套好套路并没有什么卵用。太极屌还是MMA猛找高手过一下招才知道,光嘴炮是没用的。

这种差异究其原因是数据分布的差异问题。线下终究只能做模拟,无论是训练数据还是测试数据的分布和真正线上数据分布是不一样的,我们见过太多这种例子了,所以最终都要以线上结果为准,线下只是做个参考。然而很多文章,首先学术界的没条件做线上,其次有些就算是工业界的文章也不发布线上数据,这就很令人生疑了,不得不怀疑模型本身应用到产品之后的效果。

这里不得不提到工业界文章的特点了,那就是纯结果导向,这也恰好可以解决之前提到的对照组模型的问题。工业界的对照组基本上会有本公司当前Production的模型,这个一般是之前很多工程师调好的比较好的模型,所以对比起来比较不会有之前提到的问题,因为如果只是调参数能有更好的结果,那早就有人去调了。

一个很残酷的现实就是,90%的机器学习文章就是毫无意义的,文章作者本人都不一定知道为什么这个改动会有更好的效果,大多数只是不同想法的排列组合,得到一些看似有提高实则在误差范围以内的实验结果。希望广大从业人员还能擦亮双眼,去伪存真。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容