Variance in OLS estimator

OLS假设

  • y_i=\beta_0 + X_i^T \beta_1+\epsilon_i简写为y_i=X_i^T\beta +\epsilon_i
    y=X\beta+\epsilon
    X为nxm的矩阵,n为样本数量,m为变量数量+1,\beta为mx1的权重向量

  • \epsilon的期望为0: E[\epsilon|X] = 0,方差为E[\epsilon_j - \overline{\epsilon}] = \sigma^2

  • \epsilon这里是冗余参数,需要有如下假设:
    1、同方差性:E[(\epsilon_i-\overline\epsilon)^2|X] = \sigma^2即每次观测的variance都一致,为\sigma^2,即homoscedasticity( [反义 Heteroscedasticity]):

    at each value of *x*, the *y*-value of the dots has about the same [variance]:

    2、\epsilon无自相关性:Cov(\epsilon_i,\epsilon_j) = 0,即不同观测之间的error没有线性关系(不一定独立,独立是充分非必要条件)(在某些特定的情况下,譬如时间序列估计中,有dependencies,serial correlation,则不成立,详见GLS)

  • OLS estimator:
    residual of ith observation:r_i = y_i - x_i^Tb,b为\beta的candidate
    最小化sum of residual的estimator被称之为 OLS estiamtor:\hat \beta = \arg \min_{\beta} S(b) = \arg \min_{\beta} \sum_{i=1}^N(y_i - x_i^T\beta)^2
    根据推导,最后OLS estiamtor for \beta最终的解析解为:\hat{\beta}=\arg\min_{b}S(b)=(X^TX)^{-1}X^Ty
    [推导见appendix A]

  • OLS estimator的性质
    1、方差分解:
    SST(total)=SSE(error)+SSR(regression)
    R^2=1 - \frac {SSE}{SST}
    PS: 这里有时候被写成Residual,有时候写成Error,但其实error与residual是有点区别的(这里严格上来讲是residual)
    error(disturbance)是观测值与真实值(true)的偏差。(比如\epsilon_i=X_i-u,u为总体均值)
    residual是观测值与估计值(estimated)的偏差。(比如r_i=X_i-\overline X\overline X为样本均值)

  • Orthogonal Projection view
    Y = X\hat \beta + \epsilon
    Y:n \times 1,每一行是一个observation的response
    \epsilon: n \times 1,每一行是一个observation的error项
    X:n \times p,也被叫做design matrix,每一行是特征向量的转置x_i^T
    \beta : p \times 1,参数向量
    带入\hat \beta得到:
    \hat Y = X\hat \beta = X(X^TX)^{-1}X^TY=PY
    P=X(X^TX)^{-1}X^T为称为Projection matrix,维度为n \times n

估计值的方差:variance of ols estimator:

\hat{\beta}\beta(真值)的估计值,其值是function of datas,并非一个constant estimate,所以也可以看作是一个随机变量,计算其mean 与 variance

  • 期望:E[\hat{\beta}]=\beta,即OLS estimator为\beta的无偏估计

  • 方差:Var(\hat{\beta}|X) = E[(\hat{\beta}-\beta)(\hat{\beta}-\beta)^T]=\frac{\sigma^2}{X^TX},由于\sigma^2未知,我们通常用其样本上的估计值来计算。


    PS0:
    \beta是一个m维向量,Var(\beta)是mxm的covariance matrix,对角线上的元素为每个beta的方差。


    PS1:
    其公式在直觉上也非常好理解,分子是模型预估y的\sigma^2,预估越准,residual越小,其值也越小,与estimator的var成正比。例如维度m=1,则对于Var(\beta_1),其分母为\sum_{i}^N((x_i-\overline{x})^2),即:1、样本数量N越大,2、X分布越宽泛(variance大利于估计,如果x全部集中在一点,那么其值对y的估计没有帮助),越利于估计,所以与其值呈反比。(证明见[4],或者[2]中的Unbiasedness and variance of \hat{\beta}


    PS2:
    注意,这里conditioning on X其实可以消除,证明见[3]

  • 一种更直觉的计算方式[4]:对sample进行bootstrap,获得多个估计值,\hat{\beta_i},对这组变量计算variance即可获得其variance的一个估计。

误差的方差(Residual/Error Variance)[5](ie: variance of \epsilon or expectation of \hat{\sigma}^2)

根据定义 \epsilon \sim N(0,\sigma^2)\epsilon的variance为\sigma^2,但是我们无法知道\sigma^2的真实值。所以我们计算时会使用其估计值代替:\hat{\sigma}^2

  • 因为\epsilon_i=\hat{y_i} - y_iE[\epsilon]=0,根据方差的定义从样本获得\epsilon方差的估计值: \hat{\sigma}^2=\frac{1}{n-2}\sum_{i}^n(\hat{y_i} - y_i)^2

  • 再由推导:E[\hat{\sigma}^2]=\frac{n-p}{n}\sigma^2,即其期望的bias随n的增加而减小,所以\hat{\sigma}^2\sigma^2的一致性估计,但不是无偏估计。

Heteroscedasticity异方差性

1、对于异方差性,需要用GLS来拟合。
2、其实,我们也可以进行针对性的分析与处理。比如在业务中也可以采取一些针对性的措施。譬如不仅仅只参考预估的均值,也将其方差考虑在内。
3、异方差性状况下误差variance的估计:直觉上处理,特征命中数量量越多,variance越小[6]。还有一些思路在之前的文章中有讨论[7]

低估variance的影响

1、譬如在不均衡数据中对p(x| y =1)估计的问题:(此处1为数据量少的样本,在之前文章有讨论[8]以及[9],以及论文[10].)

  • estimator自身的方差很大。
    用样本均值\overline{x}=\frac{1}{n}\sum(X_i)估计总体均值时虽然是无偏(unbiased)的E[\overline{x}]=E[u],但是其方差与样本数量成反比,为var(\overline{x})=s^2/n。即样本越小,这个estimator的variance就越大。estimator本身的variance太大,则本身就不有效(availability)【当然,从严谨的意义上来讲,应该去计算在有限样本条件下,是否能达到variance的最小值(minimum)[12]。这里我们跳出一下理论框架,直觉上理解一下:设想一下采集更多的样本,我们就可以获得更小的variance】
  • 系统性地低估少样本数的数据本身dependent variable的方差:
    导致对X变量方差的估计偏小:MLE估计分母为n,在n很小的时候会对variance低估。导致会对p(y=1)低估。直觉上的理解可以详见[10]中的Parameter Estimation

2、直觉上,variance越大,越容易induce a wrong ranking

引申1 Linear Regression 中的 Uncertainty Estimate[7]

对于Linear Regression。
1、Homoscedasticity
\sigma^2是一致的,可以直接从样本中获取sigma的估计。
2、Heteroscedasticity
由于\sigma^2不是一致的,所以我们直觉上很容易想到可以同时建模conditional mean与conditional variance:p(\sigma^2| x)。[13][14]

引申2 Heteroscedasticity in Logistic Regression

由于Logit model的定义本身不包含error term \epsilon,所以Heteroscedasticity并无法在此定义。[15]

APPENDIX A

  • 先引出OLS estimator的几个特性:
    residual: \hat r_i =y_i - \hat y_i= y_i - x_i^T \hat \beta
    1、\sum_i^n \hat r_i = 0
    2、\sum_i^n \hat r_i x_{ij}= 0,这里j为常数
    3、\sum_i^n \hat r_i \hat y_i= 0,可以通过上述两个结论推广
    一个简单的证明方法是凸函数最优解的FOC
    即满足:\frac {\partial S(\beta)}{\partial \beta}=\frac {\partial \sum_i^n (y_i-\beta_0-\beta_1x_1-...\beta_p x_p)^2}{\partial \beta} =0
    \beta_0的偏导可得:\sum_i^n 2 \hat r_i (-1)= 0,除去常数得到第一个推论。
    \beta_j求导可得:\sum_i^n 2 \hat r_i (-x_{ij}) = 0,除去常数得到第二个推论。
    由于\hat y_i=x_i^T \hat \beta,对式子进行移项,\beta_0\sum_i^n \hat r_i + \sum_j^p \hat \beta_j\sum_i^n 2 \hat r_i (x_{ij})=0,即可得\sum_i^n \hat r_i \hat y_i= 0,即第三个推论。

  • SST的decomposition推导:
    SST=\sum (y_i-\overline y)^2 = \sum (y_i - \hat y_i + \hat y_i - \overline y)^2
    =\sum (y_i - \hat y_i )^2 +\sum (\hat y_i - \overline y)^2+ 2\sum(y_i - \hat y_i )(\hat y_i - \overline y)
    SST=SSE+SSR+ 2\sum \hat r_i \hat y_i + 2\overline y \sum \hat r_i
    根据上述特性的推论,可以得到后面两项=0,所以SST=SSE+SSR
    类似推导见[16]

  • 换个角度理解SST分解:
    Var(y)=Var(\hat y + \epsilon)
    =Var(\hat y)+ Var(\epsilon)+Cov(\hat y ,\epsilon)
    由Homoscedasticity的定义,\epsilonX无关Cov(x_i,\epsilon)=0,而\hat yX线性加权和,根据Cov的性质很容易得到Cov(\hat y ,\epsilon)=0

Refer:
[1]:https://link.springer.com/content/pdf/bbm%3A978-0-585-25657-3%2F1.pdf
[2]:相关证明:proof:https://en.wikipedia.org/wiki/Proofs_involving_ordinary_least_squares#Least_squares_estimator_for_.CE.B2
[3]:消除conditioning on X的证明:https://stats.stackexchange.com/questions/183986/derivation-of-ols-variance
[4]:变量维度m=1时的证明:
https://stats.stackexchange.com/questions/391254/standard-error-of-simple-linear-regression-coefficients
[5]:我们这里是residuals,因为\beta的真实值我们不知道,所以我们用的是估计值与观测值的偏差。
[6]:Ad Click Prediction: a View from the Trenches章节confidence estimate
[7]:其他Uncertainty Estimate的思路:https://www.jianshu.com/p/7f6597ed66dc
[8]:非均衡数据分类,采样:https://www.jianshu.com/p/c2a543d68e71
[9]:Ctr校准:https://www.jianshu.com/p/43403b2540e1
[10]:Logistic Regression in Rare Events Data
[11]:When is undersampling effective in unbalanced classification tasks?
[12]:Finite-sample efficient estimators:
https://en.wikipedia.org/wiki/Efficiency_(statistics)#:~:text=An%20efficient%20estimator%20is%20an,estimation%20errors%20of%20different%20magnitudes.
[13]:https://stats.stackexchange.com/questions/169499/heteroscedasticity-in-machine-learning-predictions
[14]:Heteroscedastic kernel ridge regression
[15]:Logit model相对于Linear的理解。Logit其实是对一个unobserved latent variable进行建模:log-odds(logit(p) = log\frac{p}{1-p})与independent variable是线性关系。log-odds其实就是概率p的一个变换,将其从[0,1]的区间映射到实数集上R,这个函数本身隐含了p属于[0,1)。类似地可见probit函数。
https://stats.stackexchange.com/questions/503092/heteroskedasticity-and-logistic-regression

[16]SST decomposition:https://en.wikipedia.org/wiki/Partition_of_sums_of_squares

[17] 关于variance of estimator更generalize的情况:https://stats.stackexchange.com/questions/60596/estimate-the-variance-of-mle
TODO fisher infomation:https://en.wikipedia.org/wiki/Fisher_information#:~:text=9%20References-,Definition,on%20the%20value%20of%20%CE%B8.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容