预估数值校准分析

1、充分拟合的模型,分某特征取值维度在训练集上积分(例如区分产品类型进行预估值积分),是否等于训练集上的统计值。

A:不是,需要具体分析。

  • a、理想状态,当模型排序能力100%正确的时候(即所有正样本=1,负样本=0),此时在任意维度上积分,与统计值一致(相当于label与prediction每条样本的数值上就一致了)
  • b、理想状态,当数据充分拟合(甚至在training set上过拟合),在loss最低的状态下,可以很简单地证明其回归到均值上。
    直觉上也很容易分析,对于训练集中每条ins,它都具有一个编码,对于相同特征编码的ins被划分成m组,每组标记为g_j,j \in [1,m],模型预估值会回归到这些ins的均值gctr_j上。假如某特征x取值有x_i个分组,有i \in [1,n]种取值,它可能会被划分成m种不同的ins编码,但是肯定满足m>n,且不同x_i取值的ins肯定会分到不同的ins组g_j中。这里重点是,ins分组g_j一定是一个比特征取值x_i更细的分组,每个x_i对应多个g_j分组,其集合为Z_i因此,最终在特征x维度进行积分得到xctr_i = \frac {\sum_{j \in Z_i} n_j * gctr_j}{\sum_{j \in Z_i} n_j },即这个分组上的加权平均(其中Z是所有ins分组中x = x_i的ins的下标j集合)。而分子\sum_{j \in Z_i} n_j * gctr_j = \sum_{j \in Z_i} pos_j为这些ins中正例数量,分母:{\sum_{j \in Z_i} n_j }为ins总的数量,即其最终预估值被正确地“回归”到对应“特征分组x_i”的均值上。
  • c、由于模型本身有各种正则,early stop,以及资源限制导致收敛不完全等因素,所以真实条件下,不可能完美拟合到训练集,因此在特点特征取值上积分,不能回归到统计值。
  • d、模型本身的限制不仅仅局限于c中的因素,还有一个很大的因素就是“容量”限制。很常见于线性模型中,由于其参数量以及自由度的限制,会产生原生的bias。比如两个特征笛卡尔积完全交叉维度为N \times M,如果仅仅在模型中输入未交叉的特征,那么其“参数量”就为N+M,正常情况下是不足以表征N \times M个不同的值的,因此在多个维度上会产生bias。这个问题其实在DNN中也存在,由于DNN多数出于对数据的low-rank假设,因此当underneath的数据秩非常高的时候,则模型可能无法达到所有维度的无偏。
  • e、现实中最大的问题,还是covariate shift。b假设的结论如果要在测试集中成立,需要建立在其特征的分布,即其条件分布p(x_i|X)【全部维度即其联合分布】不能发生任何变化的严苛条件下,任何轻微的分布变化,都会导致其“积分后”的数值发生较大的变化。当然,这里还有一个假设,就是我们模型学到的真理,并不是真正的ground truth。(如果是真正概率发生的ground truth的话,无论上层的分布如何变化,最终模型都能正确地“模拟”出生成的分布。)
2、post-training 再分维度校准,是因为模型没学到这些维度吗?整体排序性能受到怎样的影响?
  • a、关于是否“学到”:
    通过上一个问题的分析,我们可以知道,分特征维度进行统计如果最终不等于统计值是存在多种影响因素的。
    这里的,“没有学到”这个说法,更多地是想表达模型在特定特征维度上的“收敛”程度不佳。
    因此,如果判断是收敛性的问题,通过一些特征与结构设计,是可以解决“没有学到”的问题的。(在这个判断假设下,需要验证做完优化后整体loss应该会进一步降低)
  • b、是否分维度校准
    首先需要确定我们是否,以及为什么需要分维度校准。在不同维度上是否存在很大的差异,哪些是可以通过模型优化的,哪些是不能的。比如去除特定的抽样比例,通过增加训练轮数,加入特征,结构加速收敛等操作,看能否在不牺牲泛化能力的情况下优化不同维度上的数值diff,如果不行,才需要分维度校准。
    在分维度校准的状态下,其实模型的排序能力没有通过模型优化,所以是不能保证的,但是其绝对值数值上的准确性是可以得到优化的。
    因此在后续策略上需要谨慎地考虑其带来的trade off,潜在排序能力的损失换来的增益是否crucial。
3、能否直接通过模型中的调整来优化等?

根据上面的讨论,其实通过特征的设计,结构的设计本身也是相当于直接在模型这个scope中,进行了trade off。且这种方式相对于post-training来说更能保障整体的排序能力。
但是具体的优化方式,需要更细致的探讨TODO:比如在LR部分(或者wide侧),将特定维度与其他维度都进行交叉,可以减少bias,但是这种方式显然提升了variance。

4、分维度post-training calibration优劣
  • 劣势:排序能力无法保证,具体排序能力损失,影响面大小取决于后续策略使用。
  • 优势:
    对模型本身优化入侵小。
    在模型时效性有限的情况下可以更快地拟合数据。
    当数据分布变化较快的时候,跟踪快速变化的数据(往往模型对快速变化仍难以捕捉)。
    提供一种高阶更flexible的trade off的能力。(因为其本质还是在bias和variance之间做trade off,模型牺牲了一些特定维度的bias,获得更强的泛化性能)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容