1、由于高斯分布方差的最大似然估计为有偏估计,导致方差估计值在样本量较小时有较大的低估。[1]
假设单一变量X分布(这里用高斯分布,实际也不是必要),虚线为负样本(数据量较大),实线为正样本,他们中间有较小部分的overlap。
结论是,模型对实线虚线的预估,会一定程度上比真实值偏右(方差比真实实线方差更小)。从直觉也很好理解,因为副样本的数量较多,所以在overlap的区域,预估错负样本(将负样本预估成证样本)的代价更大,所以模型预估的时候,得到的实线比真实偏右(方差值被低估,P(y=1)的概率值,也被低估)
在LR中,针对这周情况对ctr值的修正可以通过一系列推断得出[5]:
pi为原预估概率。Beta为参数。V(Beta)为参数的协方差矩阵。这个公式直觉上来理解的话,V(Beta)代表了参数的不确定性,如果Beta本身是确定的,那么其协方差矩阵为全0矩阵,则C项为0。换句话说,参数的不确定性越高,调整的系数越大。另外,0.5-pi项决定了系数的正负,对于概率低于0.5的(即发生概率更小,样本数更少的类别),概率是低估的,系数项为正。
2、在实际的应用中,预估值同样会受到数据采样的影响[2]
常用的方法有通过prior对其进行修正,以及通过样本loss权重进行修正。[3]
以及针对采样率的参数,直接对预估ctr做修正。采样得到的后验概率与真实后验概率的关系[4]:
refer:
[1] 《计算广告》15.3
[2] https://zhuanlan.zhihu.com/p/35580375
[3] http://vividfree.github.io/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/2015/12/15/model-calibration-for-logistic-regression-in-rare-events-data
[4]When is undersampling effective in unbalanced classification tasks?(http://www.oliviercaelen.be/doc/ECML_under_v4.pdf)
[5]Logistic Regression in Rare Events Data