模型排序能力与用户相关性

在推荐场景下,模型auc大于0.5,其排序能力一定高于随机吗?模型离线评估auc大于0.5,上线后发现与随机推荐没差别?排序的商品结果与用户没有相关性?

关于相关性与偏置信息

对于单目标的推荐排序来说,模型能起到的优化效果只跟相关性有关(即内容与用户的相关性本身),与用户之间的差异,位置偏置,时间等因素都是无关的。
比如,我们在模型中假设只使用这些偏置因素,而不加入相关性特征(譬如完全没有item特征),也可以获得不错的auc,模型能区分不同用户/位置/时间之间的点击率差异,但并不能区分每个人在特定的时间会喜欢怎样的item。所以,最终排序结果,和直接随机排序是没有差别的。
即:模型的排序能力体现在两方面,其一是对偏置信息的排序能力,其二是对用户相关性的排序能力。

  • Q1:那我们需要在模型中加入这些偏置吗?
    A:需要,如果不加入这些特征,则会导致omitted-variable bias(OVB[1],其实OVB与causal inference中的confounding bias是有很多关联之处的[2])。要理解起来也很简单,譬如某用户手机有bug会自动点击第一个内容,如果不加入位置特征,那么模型就会错误地认为出该商品与该用户有很强的相关性,但其实推荐另一个商品在第一位也会被点击。如果加入位置信息,模型则能学到点击的“原因“来自于第一个位置,而非用户相关性。
    --
    PS:在这里很多团队会犯错,譬如有些团队在新客场景选择用剔除用户特征的模型在老客历史数据上训练以期望此模型能在新客业务中有更好的效果,认为此举剔除了用户特征的影响,这就是很常见的认知误区。
    当然,直接无脑加入特征也会造成一定的问题,其实特征分为两类:
    第一类,固有属性。譬如用户的年龄,职业,地区等等。
    第二类,用户反馈数据。譬如7天内点击数量,购买数量,曝光数量等等。
    其实第二类反馈特征为0,有两种可能,第一种,新用户,第二种,老客户,但是他就是不喜欢点击。如果我们大量的样本是老客户,那么这样的特征就会在新用户身上产生bias,偏向那些不喜欢点击的老客户(因为特征表现一样,但是ground truth真实点击率是不同的)。因此,一些简洁的做法是,我们需要在模型中加入譬如用户注册时间,来访次数,曝光次数等等数值特征来“纠正”这些累计数值在时间上的“偏差”。理论上只要直接加入这些特征,dnn等模型就能抽取出其中的各种非线性关系,但是实际中这样可能效率不高,因此可以加入一些特定的特征工程。
    反正核心就是,这类信息得输入给模型,如果是你“先验”就比较重要的信息,更应该以更显式的方式输入,以便加速模型的收敛。(很多做特征抽取的优化,其实一定程度上,也是在“加速”模型的收敛)
  • Q2:全量数据集上的AUC指标也由两方面组成,一方面是偏置信息带来的AUC,一方面是用户内容相关性带来的AUC。我们真正想要得到的模型,是对用户内容相关性有更好排序能力的模型。那么我们能否在离线评估的时候剔除这些因素,更具体地评估模型对相关性的排序能力
    A1:使用随机推荐的数据来做评估。这里其实相当于在causal inference中进行完全无偏的随机实验,来验证结果。(数据完全无偏,就不需要adjust for confounder了)
    A2:使用用户/session级别的gauc指标来评估,这里类似于于对实验进行control variable(control这些confounder)。

Refer:
[1]OVB
见:https://en.wikipedia.org/wiki/Omitted-variable_bias

[2]OVB与confounding bias之间的差异:(mediator and confounder)
https://stats.stackexchange.com/questions/496328/difference-omitted-variable-bias-and-confounding
1、即当缺失的变量为mediator的时候,这时其实X \rightarrow Y的估计在total effect维度是无偏的,但是对于direct effect来说是有偏的。(即在prediction problem中是没问题的,但是在causal problem中是有偏的)
2、而当缺失变量为confounder的时候,其估计的参数,在total effect维度也是有偏的。当然,direct effect也是有偏的。(在causal和prediction中都是有问题的)
3、因此,通常,这个bias要视情况来分析。譬如在临床医疗等领域,当我们关注某变量对疾病的直接影响,那么需要在direct effect保持无偏,因此无论mediator抑或confounder都需要被重视。而互联网ctr预估等领域,当只关注最终的估计Y时,缺失mediator不会导致total effect的bias所以可以忽略。当然,这都是理论分析,实际上我们并无法准确分辨mediator和confounder。

[3]关于 Collider 变量对模型的影响:
https://stats.stackexchange.com/questions/399640/including-collider-variables-in-prediction
总结就是:
1、在prediction problem中,加入collider并不影响结果(不影响预估结果,但是模型系数失去了表达”causality的性质“)
2、在causal problem中,collider会带来bias。(系数无法表征causality)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容