Edward系列(二)

继续讲线性混合效应模型。

苏黎世联邦理工学院评选“谁是最可爱的教授”。2972名学生评价1128名教授/教师的讲座,学生来自在14个院系的不同年级。每名教师可能会开设多个讲座,每名学生可能会评价多个讲座。数据集如下。

数据集来自R包lme4,总共有73421条数据

很多人认为模型就是由输入产生输出的过程。按这种想法,上面这个数据集,输入是s、d、studage、lectage、service、dept,输出就是y,我们希望模型对y的预测是准确的。

但模型也可以反过来“由果溯因”。这时候,我们希望通过y这个结果,反推一些事实。例如Edward文档中提到:

摘自:http://edwardlib.org/tutorials/linear-mixed-effects-models

意思是:有些学生会“不用脑”的给所有讲座打高分(或低分);好老师的讲座应该更受欢迎;有些院系只出“干货”,不会包装,所以分数低。

复杂一点说就是:独立性假设不成立。

问题来了,我们能不能把“不用脑”的同学识别出来?能不能把高出一般水平的好老师识别出来?能不能把那些“内向有才华”的院系识别出来?

办法是有的。

我们先看一下独立性假设成立时模型是什么样子的。这个前提下,所有同学都是“有脑”的,所有老师都是好老师,所有院系都是“英俊有才华”的。

摘自:http://edwardlib.org/tutorials/linear-mixed-effects-models,注释是我加的

从这张图可以看到,在独立性假设下,我们用典型的线性回归模型就可以了。可是,我们用了73421条数据,最终获得的居然只有5个系数,这也太“浪费”数据了。

不“浪费”数据的办法也是有的。例如,我们用特征工程的办法,把某些变量稀疏表示(参见周志华《机器学习》11.5)。我举个风控的例子。

稀疏表示后,MaxDqBin变成了6个新变量MaxDqBin01~MaxDqBin06

把原始变量稀疏表示后,再建模得到的系数就相应变多了。下面是建模后得到的信息。

多了10个新系数,开不开心?

原本我们通过建模只能获得5个系数(分别对应Intercept、TOB、NonBankTradeDq、IncomeLevel、MaxDqBin),但通过变量稀疏表示(NonBankTradeDq变成NonBankTradeDq01~06,MaxDqBin变成MaxDqBin01~06),新模型获得了15个系数。观察NonBankTradeDq01~06的系数,02、04、06的系数是负值,01、03、05系数是正值,说明即使同一个变量,其内部差异对最终结果的影响是不同的,所以,把变量“拆开”(稀疏表示)是必要的。

这引申出一个新的问题。什么样的稀疏表示才是合适的?为什么MaxDqBin“拆成”6个变量,而不是20个?

很多人的回答是:找领域专家。有时候专家有很大作用,有时候这么做只是把问题交给“色子”。

掷色子,果个人都会啊!

或者能不能更进一步,一个变量有多少唯一值就“拆成”多少个新变量?回到“谁是最可爱的教授”这个例子,学生变量s,有2972名学生,“拆成”2972个新变量,老师变量d,有1128名老师,“拆成”1128个新变量,以此类推。可是,新增加多少个新变量,就意味着新增加多少个要估计的系数,这是一个可以完成的任务吗?

这也是线性混合效应模型要解决的问题。引用一本线性模型引论的话:近30年来,关于混合效应模型的参数估计一直是线性模型的最活跃的研究方向之一。

Edward回答了这个问题:Yes,I can do!

当然在 Edward 之前还有很多工具解决了这个问题。例如,R包lme4。lme4 用的方法和 Edward的方法是不一样的,Edward用的是贝叶斯方法+Tensorflow(或者深度概率编程),lme4的作者在lme4文档里,这样说:混合效应模型虽然很有用,但超大的计算量把它限制在中等数据集(一万到一百万)的建模上。Edward建在Tensorflow之上,估计是可以突破中等数据集这层限制的。

lme4无法突破中等数据集限制

我们还是把线性混合效应模型的数学表达形式展示出来。

确定只是增加了一点点?

如果数据集不大的话,我还是倾向使用lme4的。因为用lme4建模,只需要一句话。

高度抽象化的编程语言是极好的!

用Edward实现建模,编程就稍微麻烦一些,代码量大概是这些。

如果不和lme4比,其实也不多吧

最后,在“谁是最可爱的教授”这个案例,Edward给出了与lme4之间的比较。下图是关于学生的参数(系数)估计。

摘自Edward。横坐标是lme4的计算结果,纵坐标是Edward的计算结果。图上每个点代表了一名学生,有了这些参数估计,我们就可以进一步将学生分类,例如:轻度“不用脑”、中度“不用脑”、。。。这样我们就从数据出发,得出我们希望的结果,而不用受制于某些不靠谱“专家”了。

关于线性混合效应模型的解释,教科书或Edward没有提到稀疏表示,我只是想从稀疏表示这个角度去看待混合效应模型,从工作经验去想一个事情和从理论去想一个事情还是不一样的。

当然,还是要以教科书为主。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容