分与合

大部分的拆分与组合,本质都是在trade off
甚至不少明星大佬的离婚与结婚,也是在权衡即时的付出与未来潜在的收益(笑)

模型拆分训练

  • 是否应该拆分,拆分粒度的影响:
    多场景一起训练与单独拆分训练比,一起训练大模型数据量更大,variance更低,但是对局部而言bias更大,数据有被少数重度用户dominate的风险。
    而拆分训练,bias更小,但如果特征维度,参数数量不变的话,会由于数据量减少会导致variance扩大。

  • 模型拆分维度训练:
    拆分的维度是需要考量的,因为拆分后,模型则不能保障不同维度间的排序能力。
    1、拆分维度不影响排序
    比如推荐中分用户拆分,分新老客,其实这种拆分影响最小,因为推荐中不同用户的样本不用混排,影响不大,类似的还有分广告位,时段等context特征。
    2、拆分维度部分影响排序
    比如分广告主训练cvr模型。由于不同广告主之间本身产品面向用户差异较大,同时我们很在意特定广告主的预估准确性,对部分广告主严重高估低估都可能导致平台收入受损,广告主流失等问题,所以我们有时候也会分广告主进行模型训练。当然,这里有很多别的问题,比如数据隐私问题等。
    这里的业务整体介于混排和不充分混排之间(比如定向不同,或者分布差异大容易判定)。
    3、拆分维度影响排序
    比如推荐中要分产品类型,这些产品在每次排序中可能都要进行充分的混排,此时需要谨慎设计。如果上层有机制来代替直接排序,那么没问题,而如果是混排,那么拆分导致不同维度间的排序能力不可控是很危险的。

  • MTL辅助拆分:
    由于拆分本身会极大程度影响数据量,拆分出来的部分由于数据量小很可能要suffering from large variance。
    所以一种更好进行trade off的框架就是多任务训练,拆分任务并用share param,或者加入参数的L1L2距离惩罚,相当于加上constraints,能缩减因为拆分带来的过大的variance。同时如果去掉不同场景下不必要的特征,也能稍微降低一些variance。这个对比完全share所有参数的训练方式来说,相当于一种更弱且可以调节的constriants。
    所以,MTL其实某种程度就是更好地帮我们trade-off。通过调整不同任务的学习率,share参数的数量,L2惩罚系数等,更好地优化这个问题。

  • 拆分与组合本质的合理性是什么
    其实本质来自于,他们是否属于同一分布。如果我们假设样本从统一总体分布中采出,那么应该组合起来一起统计。如果我们认为样本并非从同一总体中采出,那么我们应该拆分统计。而现实中的这样的假设往往太强了,即同特征表述下是同分布的(即两个特征相同的用户决策的随机性来自相同的底层分布),错误的假设导致样本并非严格来自同一总体,因此带来了天然的bias。且就算假设成立,由于我们无法收集所有特征(譬如此时用户所处环境温度影响了决策),仍会有很大的bias(omitted var bias)。
    通常,对于一些有明显差异性的场景下,我们会自然而然地就会进行拆分。而进一步思考,每一个人决策的底层系统都是不同的,甚至每一次。所以拆分的合理性也来自于此。
    何处收敛?其实都是在bias与variance之间trade off而已,最终收敛到泛化误差最小的状态。

校准,分桶数量,分维度如何选择?

其实也是bias 与variance的选择,因为校准的指标,最终也是看泛化能力。

  • 如何评估泛化能力:
    一般来说,比如隔日校准,拿今天的反馈数据校准数值,然后评估明日数据集上的分段oe。

  • 影响泛化的参数:
    1、分桶数量,分桶太少导致跟真实的bias过大(这里是假设不同段的数据来自于不同总体,多个段被分到一个桶就被当作了同一个总体,自然带来了bias),分太多导致在单区间内不置信variance太大。
    1.1、分维度类似于分桶,分越多variance越大。
    2、校准函数形式与参数的选择,表达能力太弱导致bias大,太强导致variance大。
    3、注意一些边界点的处理,对于少数outlier,可能会导致离谱的误差。

  • 分维度校准有何影响:
    从直观大的scope看,分维度缩小了数量,variance上升,bias下降。
    对于保序回归,进行分维度校准,内部保序不影响auc,但是不同维度之间是会影响的。理论上,整体数据集应该是负面影响。(注意泛化性的标准,不能用测试集搜参数校准)
    不过在实际场景中,也可能并没有负面影响,比如我们在男女用户上分别校准,真实排序能力其实不受影响,因为男女的样本其实本身就是分隔的。但是在商品维度上分别校准,就有影响了。
    其实分了维度后,某种程度上,也是降低了bias,提升了vairance。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容