线性回归

总结

线性回归是有监督学习里最常见也是最简单的一种形式,可以分为一元线性回归和多元线性回归,适用情况为Y是连续型数据,X为任意数据。内容主要分为:基本思想,参数估计及解读,假设检验(模型整体显著性、单个变量显著性、拟合优度检验),模型诊断与改进,模型选择(确定边界,确定信仰,选择计算方法)。

基本思想

  • 真实模型:Y=f(X)+\varepsilon

    • Yf(X)有误差,即\varepsilon,是除了自变量X之外对Y有影响的因素,绝对不可少,有随机性。\varepsilon是不可观测的,被称为random error。
    • 不能忽略随机误差,如果没有它,就变成了一个确定的函数,没有不确定性,而统计学就是研究不确定性。
    • f(X)的形式是多种多样的,是确定性的或系统性的。
      • f(X)=E(Y|X)被称为回归函数,没有不确定性。
      • 一个X有可能对应多个Y,所以不可能算出一个确切的Yf(X)E(Y|X)
  • 真实模型未知,参数方法中需要假设形式并进行估计。线性回归在估计之前对模型做了一个基本假定,即f(X)=\beta_0+\beta_1X_1+...+\beta_pX_p,故线性回归模型为:
    Y=f(X)+\varepsilon=\beta_0+\beta_1X_1+...+\beta_pX_p+\varepsilon

    • 真实的模型大概率不是这样子的,但并不妨碍我们使用它。

    • \beta_0,\beta_1,...,\beta_p:未知的回归系数,需要根据样本数据估计并解读。

    • \varepsilon:误差,不可观测。

  • 估计未知参数

    • 目标找到离所有点都近的一条直线
    • 即残差平方和最小:\sum_{i=1}^n(Y_i-\hat{\beta}_0-\hat{\beta}_1X_1-...-\hat{\beta}_pX_p)^2=\sum_{i=1}^ne_i^2最小,得到参数的估计量,其中e_i即为\varepsilon_i的估计量,即残差。
    • 即最小二乘估计OLS
  • 之后再进行假设检验,模型诊断与改进,模型选择等等步骤。

参数估计

一元线性回归

  • 一元线性回归:Y=\beta_0+\beta_1X_1+\varepsilon

  • 基本假设(保证参数估计量具有良好性质):

    • 自变量X是确定的,不是随机变量

    • 随机误差\varepsilon零均值,同方差,无序列相关性,即
      E(\varepsilon_i)=0\ \ \ \ i=1,2,...,n
      Var(\varepsilon_i)=\sigma^2\ \ \ \ i=1,2,...,n\\
      Cov(\varepsilon_i\varepsilon_j)=0\ \ \ \ i\ne j,i,j=1,2,...n

    • 随机误差项\varepsilonX不相关,即
      Cov(X_i,\varepsilon_i)=0

    • \varepsilon服从正态分布,即
      \varepsilon\sim N(0,\sigma^2)\ \ \ i=1,2,...,n

  • 以上四个假设被称为线性回归模型的经典假设或高斯假设,满足该假设的线性回归模型称为经典线性回归模型

  • 参数估计核心思想:找到一条直线让所有的点都靠近这条直线,大家好才是真的好,即找到所有的点都直线在Y轴的距离的平方和最小。

参数估计的核心思想
  • 参数估计方法:即最小二乘法Ordinary least squares
    \min\sum_{i=1}^n(Y_i-\hat{Y}_i)^2=\min\sum_{i=1}^n(Y_i-\hat{\beta}_0-\hat{\beta}_1X_1)^2=\min e_i^2
    \begin{cases} \sum(\hat{\beta}_0+\hat{\beta}_1X_i-Y_i)=0\\ \sum(\hat{\beta}_0+\hat{\beta}_1X_i-Y_i)X_i=0 \end{cases}
    \begin{cases} \hat{\beta}_1=\frac{\sum(X_i-\bar{X})(Y_i-\bar{Y})}{\sum(X_i-\bar{X})^2}\\ \hat{\beta}_0=\bar{Y}-\hat{\beta}_1\bar{X} \end{cases}
  • 其中:残差e_i=Y_i-\hat{Y}_i=\hat{\varepsilon}_i,是随机误差\varepsilon的估计量,代表这条直线拟合程度的好坏,如果其平方都比较大,说明拟合的不好,点离直线比较远,所以最小化的量其实就是最小化残差平方和。

  • 参数估计量的统计性质:BLUE

    • 线性性:即是另一随机变量的线性函数
    • 无偏性:即E(\hat{\beta}_j)=\beta_j
    • 有效性:即在所有线性无偏估计量中方差最小
    • 上述三个准则也被称为估计量的小样本性质,具备以上性质的估计量是最佳线性无偏估计量,即Best Linear Unbiased Estimator,BLUE。
    • 若满足经典线性回归假设,最小二乘估计是BLUE的,即具有最小方差的线性无偏估计量。
    • 也具有一致性/相合性,即随着样本量增大,参数估计值逐渐趋近于真实值。
  • 参数估计量的精度评估:标准误

    • standard error of an estimator reflects how it varies under repeated sampling

    • 首先,需要明确一点:\hat{\beta}_0,\hat{\beta}_1本质也是随机变量,因为不同数据求出来的\hat{\beta}_0,\hat{\beta}_1是不一样的,所以求随机变量标准误,也可以理解为标准差。关于标准差和标准差的关系可以看这里:标准误VS标准差

    • 一元情况:
      SE(\hat{\beta}_1)=\frac{\sigma^2}{\sum_{i=1}^n(X_i-\bar{X}^2)}
      SE(\hat{\beta}_0)=\sigma^2[\frac{1}{n}+\frac{\bar{X}^2}{\sum_{i=1}^n(X_i-\bar{X})^2}]
      置信区间:[\hat{\beta}_1-1.96SE(\hat{\beta}_1),\hat{\beta}_1+1.96SE(\hat{\beta}_1)]

    • 系数估计精度:标准误\longrightarrow置信区间,区间反映精度,区间大,精度不高。注意Var(\varepsilon)=\sigma^2也是不知道的,需要进行估计才能计算出上述两个标准误和置信区间。

多元线性回归

  • 多元线性回归:
    Y=\beta_0+\beta_1X_1+...+\beta_pX_p+\varepsilon=X\beta+\varepsilon
  • 基本假设

    • 零均值,即E(\varepsilon)=0,其中\varepsilon=(\varepsilon_1,...,\varepsilon_n)^T
    • 同方差和无序列相关,即Var(\varepsilon)=E\{[\varepsilon-E(\varepsilon)][\varepsilon-E(\varepsilon)]^T\}=E(\varepsilon\varepsilon^T)=\sigma^2I
    • 正态性:\varepsilon\sim N(0,\sigma^2I_n)
    • 随机误差项\varepsilon与自变量相互独立,即E(X^T\varepsilon)=0
    • 无多重共线性,即X列满秩,rank(X)=p
  • 参数估计

    • 基本思想和方法都类似:最小二乘法

    • 计算:
      \min \sum_{i=1}^n(Y_i-\hat{Y}_i)^2=\min\sum_{i=1}^ne_i^2
      \min e^Te=\min(Y-X\hat{\beta})^T(Y-X\hat{\beta})
      \min (Y^TY-\hat{\beta}^TX^TY-Y^TX\hat{\beta}+\hat{\beta}^TX^TX\hat{\beta})
      \frac{\partial Q(\hat{\beta})}{\partial\hat{\beta}}=-2X^TY+2X^TX\hat{\beta}=0
      X^TXY\hat{\beta}=X^TY\ \ \ 正则方程\\ \hat{\beta}=(X^TX)^{-1}X^TY

  • 参数估计统计量的性质:在线性模型经典假设下,参数的最小二乘估计量是线性无偏估计中方差最小的估计量BLUE估计量。

  • 注意此时系数\beta_j的解释:控制其他变量不变,即average effect on Y of a one unit increase in X_j holding all other predictors fixed, but predictors usually change together。即虽然解释上说是控制其他变量不变,但是一般做不到,变量之间一般多多少少都有一点相关,此时系数的方差会增加。比如体重和身高影响对足球运动员的影响,体重和身高一般是有关系的。

假设检验

  • 为什么做假设检验?
    • 因为在线性回归中非常关心真实的参数\beta是否为0或者是某个具体的数字。0告诉我们在控制其他因素的前提下,X_jY是相关还是不相关。虽然最小二乘估计的结果不会为0,但是这个非0的\hat{\beta}的非0特征是如何产生的,是真的XY不相关还是测量误差产生的,不知道,所以要做假设检验。
  • 假设检验主要有:方程整体显著性检验,拟合优度检验,单个变量的显著性检验
  • 看检验结果的顺序
    • 先看F检验的P值是不是小于0.05,如果是,说明至少一个自变量对因变量有显著影响
    • 然后再看R^2,即整体的拟合优度
    • 最后再看每个系数的显著性,及其如何解读,解读的含义
  • 举例:测量身高(此时假设身高可正可负)
    • 真实身高:参数\beta
    • 尺子的测量结果:统计量\hat{\beta}=1.7(尺子:最小二乘估计)
    • 尺子的精度:标准误standard error,即\hat{\beta}的标准差,SE越大,说明误差越大,尺子的精度就越差。
    • 问题核心:\beta\hat{\beta}的差异与尺子的精度进行比较。SE之前说过也是一个位置的参数,需要估计,所以实际用的是\hat{SE}
    • 假设检验原假设和备择假设:H_0:\beta=\beta_0\ v.s.\ H_1:\beta\ne \beta_0
    • 构造统计量t=\frac{\hat{\beta}-\beta_0}{\hat{SE}}
      • t统计量值很大,说明\hat{\beta}-\beta_0的差异很大,大到没有办法用尺子的测量误差来解释,说明两者之间的差异就是很大,所以拒绝原假设,否则接受原假设。接受原假设是基于现有的证据无法推翻原假设,但没有说原假设就是对的,只是没有办法拒绝。
      • 假设检验的过程从来不支持原假设,只是没有办法拒绝。但是此时要做一个决策,保守的,就是接受原假设。

平方和分解

  • SST=\sum_{i=1}^{n}(Y_i-\bar{Y}_i)^2,sum of squares total,总平方和。有点像Y_i的方差,是样本观测值与样本均值的离差,与最小二乘估计无关,反映因变量Y整个变异性有多大,即variability。变异性越大,包含的信息越多。

  • ESS=SSR=\sum_{i=1}^n(\hat{Y}_i-\bar{Y})^2,回归平方和。即样本回归拟合值域观测值的平均值之差的平方和,可以由回归直线解释的部分。

    • ESS:explained sum of squares,回归平方和。
    • SSR:sum of squares regression,回归平方和
  • RSS=SSE=\sum_{i=1}^n(Y_i-\hat{Y}_i)^2,sum of squared residuals,残差平方和。即实际观测值与回归拟合值之差的平方和,是回归直线不能解释的部分。

    • RSS:residual sum of squares,残差平方和。
    • SSE:sum of squared residuals,残差平方和。
    • 残差e_i=\hat{\varepsilon}_i的方差\hat{\sigma}^2的无偏估计:\hat{\sigma}^2=\frac{1}{n-p-1}(Y_i-\hat{Y_i})^2=\frac{SSE}{n-p-1},其中n-p-1为调整系数,p是自变量的个数。
  • 这里统一用ESS代表回归平方和,RSS代表残差平方和。

平方和分解

单个自变量显著性检验:t检验

  • 原假设和备择假设:H_0:\beta_j=0\ v.s.\ H_1:\beta_j\ne0
  • 统计量:t=\frac{\hat{\beta}_j-\beta_j}{\hat{SE}(\beta_j)}\sim t(n-p-1)
  • 临界值:给定显著性水平\alpha,则临界值t_{1-\alpha/2}(n-p-1)
  • 接受or拒绝:若|t|小于t_{1-\alpha/2}(n-p-1),则落在了接受域,则接受原假设,说明自变量X_j对因变量没有显著影响,反之拒绝原假设,自变量X_j对因变量有显著影响。
  • P值:P-value<\alpha,拒绝原假设,反之接受。
  • 假设检验的两类错误
实际 实际
H_0为真 H_0为假
决策 拒绝H_0 Type I Error
决策 接受H_0 Type II Error
  • 多重检验的问题

    • 其实就是一个夜路走多了总会遇到鬼或者常在河边走哪有不湿鞋的问题
    • 假设检验时,每次5%可能性犯错误,好像并不大,但是当你要做10,100甚至1000次假设检验时犯错误的可能性就非常大。所以,只要假设检验做得多,就一定会看到显著性的结果——多重检验的副作用。
    • 如何控制:先看F检验,也不是很好,但是也没有特别好的方法。

方程整体显著性检验:F检验

  • 原假设和备择假设:H_0:\tilde{\beta}=0\ v.s.\ H_1:\tilde{\beta}\ne0,其中\tilde{\beta}=(\beta_1,\beta_2,...,\beta_p),不包含截距项。
    • 原假设:所有解释变量都没用
    • 对立假设:只要有一个解释变量的系数不是0,对立假设就成立
    • F检验首先执行,如果不能拒绝原假设那么t检验就不用做了。如果能拒绝,则至少有一个解释性变量是显著的,再分别对每一个解释性变量做t检验
    • 做法不完美,比如有50个解释性变量,F检验通过了,比如其中X_1是显著的。那么在做t检验时,第一个显著,剩下的解释变量仍然承受着严重的多重检验的问题。
  • 统计量:F=\frac{(RSS_0-RSS_1)/p}{RSS_1/(n-p-1)}\sim F(p,n-p-1)
    • RSS_0:空模型的残差平方和,RSS_1:当前模型的残差平方和,此处是全模型,即p个自变量。
    • 核心思想在于分子:即空模型和全模型的残差平方和的对比,当原假设成立时,所有解释变量都没用,则空模型和全模型的残差平方和相差应该不大,即RSS_0-RSS_1很小,所以F值就会很小,就倾向于接受原假设。
    • 分母:\hat{\sigma}^2=RSS_1/(n-p-1)
    • 分子/分母:标准化,没有技术原因,主要思想来自于RSS_0RSS_1的对比,一个空模型,一个全模型,如果差别不大,说明模型不显著。
  • 临界值:给定显著性水平\alpha,临界值F_{\alpha}(k,n-k-1)。如果F小于F_{\alpha}(k,n-k-1),则接受原假设,即该模型的所有回归系数都等于0,该模型没有意义,反之拒绝原假设,并做进一步的t检验。

拟合优度检验:R^2

  • 整个模型的accuracy的评估:即对所有data fit出来的效果,两种方法:
    • 绝对衡量:residual standard error:RSE=\hat{\sigma}=\sqrt{\frac{1}{n-p-1}RSS}
    • 相对衡量:R^2=(1-\frac{RSS_1}{RSS_0})=\frac{TSS-RSS}{TSS}
  • R^2=(1-\frac{RSS_1}{RSS_0})*100\%=\frac{TSS-RSS}{TSS}
    • RSS_0:空模型的残差平方和,即SST,它刻画的是因变量Y中包含多少信息。
    • RSS_1:当前模型/全模型的残差平方和,说明使用当前模型时残差中还有多少信息,一定小于RSS_0
    • \frac{RSS_1}{RSS_0}:即Y中有多少信息是残差造成的,即有多少是X解释不了的。
    • R^2Y中有多少信息是可以被X解释的,即0-1之间。
    • R^2缺点:分不清好坏,只要解释变量增加,R^2就会增大,不管解释变量是否有用,永远偏好全模型,但全模型不一定是最好的。
    • 一元线性回归中:R^2=r^2
      • r=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum_{i=1}^n(X_i-\bar{X})^2}\sqrt{\sum_{i=1}^n(Y_i-\bar{Y})^2}}
  • R^2_{adj}=((1-\frac{RSS_1/n-p-1}{RSS_0/n-1})\times100\%)=(1-\frac{n-1}{n-p-1}\frac{RSS_1}{RSS_0}\times100\%)\\=(1-\frac{n-1}{RSS_0}\frac{RSS_1}{n-p-1}\times100\%)
    • 调整后R^2:即在RSS\ ratio前面加一个调整系数
    • 调整系数\frac{n-1}{n-p-1}作用:随着模型越来越复杂,p在增加,n-p-1在减小,同时RSS_1在减小,而RSS_0不变。所以当增加变量是很重要的变量的时候,RSS_1的下降程度要大于n-p-1的下降程度,所以调整后R^2会变大。但是当增加的变量是不重要的变量的时候,RSS_1的下降程度小于n-p-1,则调整后R^2会变小。
    • 有可能出现负数,负数表示连空模型都不如。当n较小,p很大时。
  • 外样本判决系数
    • 用外样本来评价,即将数据随机切分为训练集和测试集
    • 公式完全一样,只是\hat{\beta}的估计是根据训练集,外样本R^2的计算是根据测试集

模型诊断与改进

  • 建模时的假设:

    • 零均值,即E(\varepsilon)=0,其中\varepsilon=(\varepsilon_1,...,\varepsilon_n)^T
    • 同方差和无序列相关,即Var(\varepsilon)=E\{[\varepsilon-E(\varepsilon)][\varepsilon-E(\varepsilon)]^T\}=E(\varepsilon\varepsilon^T)=\sigma^2I
    • 正态性:\varepsilon\sim N(0,\sigma^2I_n)
    • 随机误差项\varepsilon与自变量X相互独立,即E(X^T\varepsilon)=0
    • 无多重共线性,即X列满秩,rank(X)=p
  • 有些假设不成立,只会影响估计的效率,但是有些假设不成立模型就没办法用

    • 异方差:残差图(\hat{Y}和\hat{\varepsilon}),对数变换
    • 正态分布:QQ图直线,对数变换
    • 强影响点:cook距离
    • 多重共线性:方差膨胀因子VIF,很严重
    • 内生性:模型中的一个或多个解释变量与随机扰动项相关

异方差和残差图

  • 残差:\hat{\varepsilon}=Y_i-\hat{Y}_i,误差\varepsilon不可观测,所以用残差来估计它。

  • 异方差:相对同方差而言,同方差即Var(\varepsilon_i)=\sigma^2。异方差即随机误差项具有不同的方差,Var(\varepsilon_i)=\sigma_i^2

  • 产生原因

    • 遗漏重要解释变量
    • 存在测量误差
    • 截面数据中总体各单位存在差异
    • 模型函数形式设定错误
    • 存在异常观测
  • 诊断方法

    • 残差图:横轴\hat{Y}预测值,纵轴\varepsilon

      残差图
      • 图一:零均值同方差假设成立,观测到残差是以0为平均水平,无规律的散乱分布
      • 图二:残差并不以0为平均水平波动,且呈现出抛物线形状,2次曲线。原因:可能是遗漏了重要变量,比如某变量的平方项,不太常见。解决方法:加入新的自变量,或者考虑非线性模型
      • 图三:喇叭状,常见,残差的波动随着预测值的增加越来越大,异方差,即Var(\varepsilon_i)=\sigma_i^2。异方差特别常见,特别是因变量和钱有关的时候。比如假定收入的波动相同,但是收入水平不同的人的波动不太相同,收入高的人波动要更大。解决方法:对数变换。
      • 在R语言中模型诊断时,第一个和第三个图表示的意思差不多,只要看第一个就可以了。
    • 统计方法:Goldfeld-Quandt检验法,White检验法,Park检验法,Glesier检验法等

  • 后果

    • 最小二乘估计任然是线性无偏一致的,但不再有效,即方差不是最小的
    • 随机误差项的条件方差的估计是有偏的,即\hat{\sigma^2}=\frac{RSS}{n-p-1}是有偏的
    • 参数的估计标准误差也是有偏且不一致的,参数的估计标准误中含有\hat{\sigma}^2
    • 预测的精准度降低
  • 解决方法

    • 理论上会用加权的最小二乘估计,但实际中不常用
    • 实际:对数变换,改善异方差情况。常假定正态分布,对数变换也可以改善不对称的情况。
    • 对数变换只适用于正数,如果条件不允许,此时应该知道最小二乘法产生的解不是最优的,要加权的最小二乘估计产生的结果可能更好
      • 加权的最小二乘:如果一个观测值的方差更大,即准确度差,权重应该低一点,反之权重更高一点
      • 或者如果有很小一部分比如1%的0,则可以在0上加一个单位,比如变成0.001

非正态性和QQ图

  • 正态性\varepsilon\sim N(0,\sigma^2I_n)
  • 诊断方法:QQ图。横轴:标准正态分布理论分位数,纵轴样本分位数。
    • 如果QQ图的散点近似成一条直线,那么就近似服从标准正态分布。
    • 如果两侧尾巴偏离了就是厚尾分布,哪边尾巴偏离多就是什么偏,比如右尾偏离多,就是极大值比较多,是右偏分布。
  • 后果:影响估计量的一致性
  • 解决方法:取对数

强影响点和Cook距离

  • 强影响点:如果在计算某种指标时,包含和不包含某个样本点,对于结果影响很大,那么这个样本点就是强影响点
    • 比如土豪在计算平均收入时就是强影响点
  • 回归分析中的强影响点:是否包含该样本点对于参数的估计结果\hat{\beta}造成很大的影响
    • 离群值和强影响点
      • outlier:outlier is X given y is unusual,即针对Y,通常是相同的X,但离群值的Y会和大家差别很大
      • High leverage:has unusual value for X,即X的取值已经很奇怪了。一般因变量取值比较特殊会成为强影响点。
  • 诊断方法:Cook距离
    • 针对样本点计算,n个样本点可以计算出n个cook距离
    • 计算思想:用所有全样本的估计量\hat{\beta}作为基本的标杆,然后把第i个样本删除剩下n-1个样本重新进行最小二乘估计得到\hat{\beta}_{-i},进而得到该样本点的cook距离。两者进行对比,如果目前正在研究的观测值是一个灭有太大影响力的观测值,存在与否不太会影响最终计算结果,所以预期两个估计量之间的差距是比较小的,cook距离就比较小。
    • 计算公式:D_i=\frac{(\hat{\beta}-\hat{\beta} _{-i})(X^TX)(\hat{\beta}-\hat{\beta}_{-i})}{(p+1)\hat{\sigma}^2}
  • 后果:会带偏回归系数,向强影响点的方向偏离
  • 解决方法:删掉强影响点
  • 问题:什么样的cook距离算异常?
    • 没有一个给定的比较标准,看大家的平均水平,如果大家基本都在0.0几,而你在0.5,那么就需要注意了。即强影响点产生的cook距离真的要比其他观测点压倒性地大。
    • 看是在因变量/自变量上异常,一般因变量取值比较特殊会成为强影响点。
  • 注意:R语言中总会输出3个最高的cook距离,不要一看见就删除,要和其他水平比较,否则再删也总会出现3个最高的。

多重共线性、可识别性与方差膨胀因子VIF

  • 前面:异方差,强影响点等影响不大。

    • 异方差:OLS估计不再是最有效的,估计效率低
    • 强影响点:结果解读不好,被那个点带偏了
  • 多重共线性:OLS会产生错误,估计结果不可信

  • 多重共线性:(两个变量相关就是多重共线性×)线性回归模型中的解释变量之间存在精确相关关系或高度相关关系

    • 由于所有的解释性变量都来自于同一个个体,天生就相关,如果不相关才奇怪。多重共线性是这种相关性太高了,高到已经成为一个灾难性的后果:影响到可识别性,要非常小心处理。
  • 可识别性

    • 模型1:Y=X_1+X_2+X_3+\varepsilon,其实X_1=X_2=X_3,即模型是完全共线性的,所以模型1还有其他两种写法。
    • 模型2:Y=2X_1+X_3+\varepsilon
    • 模型3:Y=X_2+2X_3+\varepsilon
    • 模型1,2,3都是同一个模型,但是对应的回归系数却各不相同。这时就产生了可识别性问题,即identifiability的问题。
    • 可识别性问题:同样一组数据在不同的参数设定下可以产生相同的Y,分不清哪个是唯一正确的\beta
    • 实际中,一般不会出现完全共线性,但是常常会出现强烈共线性。这里只举例了两两相关性,只要画散点图就可以看到,但是还会有其他复杂的相关关系,需要VIF方法。
  • 产生原因

    • 经济变量之间具有共同变化的趋势
    • 变量之间存在经济联系
    • 模型中包含滞后变量
    • 样本数据自身的原因
  • 诊断方法:方差膨胀因子VIF

    • 散点图法:对含有两个解释变量的模型,利用解释变量样本观测值的散点图来观察两者是否有显著的线性关系
    • 相关系数法
    • 经典判断法:拟合优度很高,F检验高度显著,但t检验显著的不多,怀疑存在多重共线性
    • VIF:variance inflation factor 方差膨胀因子
    • 思想:类似于一个打分系统,给每个解释性变量X_j打分,评价第j个解释性变量X_j受多重共线性影响有多大。X_j做因变量,其他的解释性变量做解释性变量跑一个回归分析模型。如果回归分析R^2非常非常大,说明X_j几乎可以被其他的解释性变量线性表出,说明这个变量正在承受着巨大的多重共线性影响。
    • 计算公式:X_j=\beta_0+\sum_{k\ne j}\beta_kX_k+\varepsilon,则VIF_j=\frac{1}{1-R_j^2}
      • 如果VIF>5,则R_j^2>80\%,需要引起注意。实际工作中,粗糙以10为界限,简单评价一个变量承受多重共线性的影响强度,超过10就比较警惕,小于10还可以接受。
  • 后果

    • 符号和常识理论相悖,估计结果无法解释。

    • 参数估计量的方差增大

    • 参数估计的置信区间变大

    • 假设检验容易做出错误的判断:比如F检验全部通过,而t检验都不通过

    • 多元线性回归中:\hat{Y}=X\hat{\beta}=X(X^TX)^{-1}Y。要求r(X)=p,即满秩,否则\beta就没办法估计或者不唯一。

      • 举例:自变量age和limit之间没有太大相关性,但自变量limit和自变量rating之间的相关性比较大,但不是完全相关。

      • 估计时:当Y对limit和age估计让残差平方和最小时,RSS残差平方和等高线如图1所示,中间的点即RSS最小的时候即得到了两个系数。

      • Y对limit和rating估计让残差平方和最小,残差平方和的等高线变得非常扁平,(等高线意味着在这条线上残差平方和是一样的),但是估计的系数会有很大的差异。即扁平的等高线会使得在一条等高线上的参数差异非常大。所以参数的方差变得很大。

      • X中如果有两列是高度相关时,X不是一个完全退化矩阵,但是(X^TX)^{-1}会变得很大。因为\beta的方差是\sigma^2(X^TX)^{-1},所以参数估计量的方差会增大,所以置信区间也会增大。

      • 还会导致:因为t统计量是除以\hat{SE}(\beta)会变大,所以t统计量就会变小,会导致它系数的不显著,但是R^2又很好。即standard error for \hat{\beta}_j increase, decline t statistic, reduce the power of the hypothesis test。

      自变量相关情况

      不同情况RSS等高线

      不同情况模型结果
  • 解决方法
    • 排除引起共线性的变量:逐步回归(向前回归,向后回归,向前向后回归)
    • 差分法:把原模型变为差分模型
    • 减小参数估计量的方差:岭回归法

内生性endogeneity

  • 内生性:即E(X\varepsilon)\ne 0,解释变量的内生性即模型中的一个或多个解释变量与随机扰动项相关
  • 产生原因
    • 遗漏重要解释变量
    • 存在测量误差
    • 存在错误的函数形式设定
    • 存在联立性
    • X和Y互为因果关系,X影响Y,Y影响X
  • 诊断
    • 基于常识去分析模型的系数,判断是否存在内生性
    • 使用Hausman检验
  • 后果
    • 会影响估计的无偏性
    • 会影响估计的一致性,即随着样本量增加,估计量不趋近于真实的\beta,问题很严重
  • 解决方法
    • 工具变量IV,构建基于IV下的回归模型,估计采用两阶段最小二乘估计
    • 改用代理变量。某变量无法直接观测,使用其他变量代替

总结

诊断 解决 原理
异方差 残差图 取对数 \hat{Y}\hat{\varepsilon}_i的图,喇叭状异方差
正态分布 QQ图 取对数 标准正态分布理论分位数和样本分位数,直线则正态分布,否则非正态
强影响点 cook距离 删除 针对每个样本点都可以计算cook距离,比大多数水平高则强影响点
多重共线性 VIF方差膨胀因子 向前回归,向后回归,向前向后回归
岭回归
用一个自变量作为Y,其他变量作为解释变量回归得到R_j^2,是对自变量求。VIF_j=\frac{1}{1-R_j^2},大于10说明要注意多重共线性
内生性 Hausman检验 工具变量IV,使用两阶段最小二乘估计

模型选择

  • 模型选择:在一系列待选模型中选择最优的。最优:模型尽可能简单且预测准确。

    • R^2:永远觉得全模型最好,但是全模型在预测时常常不是最好的,因为有些XY的预测精度没有改善还消耗了自由度
    • 模型选择的任务:留下真正重要的X
  • 步骤:

    • 确定边界:即待选模型

    • 确定信仰,选择标准:AIC准则或BIC准则。不同标准选择结果不同,两者的信仰是不同的。

    • 选择计算方法:模型选择往往涉及到比较大的计算量,要找到又快又准确的计算方法

    • 小心解读,谨慎使用:因为模型选择本身也是一个计算统计量的过程,也受到样本不确定性的影响,也有估计误差,怎样做才能把这些控制在最小范围内,是需要小心处理的。

确定边界:待选模型

  • 不考虑交叉项:共有2^p种选择,每个自变量都有进入/不进入模型两种选择
  • 交互作用interation/synergy effect协同作用:如果10个解释变量,则两两交叉多45中,相当于多45个自变量,所以变成2^55个模型,数量巨大。
    • 交互作用假定:强加规律,要求只要交互作用存在,主效应也一定存在,不论其检验结果是否显著。有一定的现实意义,但更多时候只是在降低计算复杂度。
  • X的非线性变换:范围更大
  • 此处只从不考虑交叉项和非线性变换入手,即2^p个待选模型

确定信仰,选择标准——AIC,BIC

  • 模型边界确定以后,如何知道哪个模型更好,可以用调整后R^2,或外样本R^2。无论哪种方法,都需要先解决一个问题:什么叫好模型,这依赖于我们的信仰是AIC还是BIC

AIC准则

  • 信仰:真模型不一定在待选模型里,要做的事情是在待选模型里选一个尽可能靠近真模型的模型。很难,真模型都不知道,如何找一个最近的。

  • 用KL distance来刻画两个模型的距离,这个距离经过一些列简化成了AIC准则

  • AIC准则:
    AIC=n\{log(\frac{RSS}{n})+1+log(2\pi)\}+2\times (p+1)

  • 不同地方略有差异,有的扔掉1+log(2\pi),这里是为了和R语言保持一致。
  • AIC喜欢残差平方和即RSS较小的模型,模型拟合越好残差平方和越小,但是后面又有一个惩罚项:即模型复杂度,复杂度越高,p越大,后面一项就越大,有一个trade-off。
  • 最优模型:AIC得分最小的模型,赤池信息准则。A: akaike, I: information, C:criterion。

BIC准则

  • 信仰:真模型一定在待选模型里,只是不知道是哪个而已,所以目标就是在样本量越来越大时把真模型以概率1挑选出来。

  • 学者施瓦兹:贝叶斯。既然我不知道是哪一个,我就乱猜一把,给每个模型一个先验概率,即假设每个模型都是以一定概率是真模型,然后看数据,给定数据计算后验概率,后验概率大的就是真模型。一系列处理后发现,后验概率的大小由BIC得分获得,即贝叶斯Information criterion或SIC施瓦兹。

  • BIC准则:
    BIC=n\{ log(\frac{RSS}{n})+1+log(2\pi) \}+log(n)\times(p+1)

    • 和AIC很像,都喜欢RSS小的,但前提都是模型复杂度不能太大,太大时进行惩罚。
    • 区别:增加一个解释变量,AIC的惩罚力度是2,BIC的惩罚力度是\log(n)。所以,只要n稍微大点,BIC的惩罚力度就会大于AIC的惩罚力度。所以BIC挑出来的模型可能会更小一点。
  • AIC和BIC信仰不同,所以统计学性质也不同

    • BIC=-2log(Likelihood\ Function)+log(n)\times p【更一般形式】
      • 性质:选择相合性,selection consistency。如果真模型真的就在那1024个待选模型里,当样本量越来越大时,BIC会以趋近于1的概率把真模型选出来。AIC不具备该性质。
    • AIC=-2log(Likelihood\ Function)+2\times p
      • 性质:损失有效性,loss efficiency。如果真模型不在待选模型里,只要离真模型最近,预测是最优秀的。所以AIC选出来的模型的预测精度大概是最优的。BIC不具备该性质。
    • 所以说两个信仰各有优点,但没办法调和。所以:两个准则都试试,得到两个不同的模型选择结果,BIC更加激进,选出的变量比较少,AIC保守选出的变量更多。
      • 经验表明,如果优先考虑预测精度,AIC的预测精度常常会好一点点。
      • BIC只选最有用的,所以稳定性比较好。如果你的模型在业务层面是非常稳定的,那BIC的模型可能会好一点点。

选择计算方法

无论哪个信仰都需要计算出来,但计算是比较难的,因为10个变量就已经1024个模型了。20个就100万了,30个就很大很大的数字了。所以一定是要在计算上动脑筋的。

计算方法solution path:

  • best subset,即把所有的模型都遍历一遍。模型多时就做不到了。

  • forward regression向前回归,先做所有1模型,找最好的1模型(只有一个解释性变量,相关性最好的解释性变量,如X_1);在给定X_1情况下,哪个解释性变量对R^2模型改善最好再添加进来,做很多2模型比较,找最好的2模型;以此类推。从而产生一系列的模型,这些模型是嵌套的,即一个比一个大,这些模型再用AIC或BIC挑选出来。把求解的空间从2^p降低到一个比较小的范围,在这个范围里再用AIC或BIC来选。

    • 优良性质:p很大也可以做。
    • 缺点:即使BIC的信仰正确时,都不具备选择相合性。原因:它很容易把一个高度相关但其实不重要的变量挑选出来然后再也不出去。例如:真实模型Y=X_1+X_2+\varepsilonX_3=X_1+X_2+小小噪音,那么会发现在有X_1X_2的情况下,X_3是多余的,但是让他们单打独斗时,X_3Y的相关性是最强的,所以它第一个就先进来,进来就不出去了。所以如果p 的个数不是特别多,更好的做法是后退法backward regression。
  • backward regression向后回归:从全模型出发,然后剔除一个对R^2影响最小的变量得到一个p-1模型,以此类推,产生一个比一个小的模型,然后再利用AICBIC进行挑选。

    • 优点:此时如果BIC的信仰是对的,p也不是很大,则此时就可以具备选择相合性。
    • 缺点:在有限样本时,一旦把一个人枪毙了,它就再也回不来了。给他一个回来的机会,所以又有了stepwise。
  • stepwise regression向前向后回归:按照一定的标准,允许你出去允许你又回来。

  • LASSO+SCAD:带有惩罚项的回归分析方法。把最小二乘估计改善成一个带有惩罚项的估计。比如LASSO就是在最小化最小二乘估计的目标函数时,加一个惩罚项L_1。好处:很多参数估计出来的时候就是exactly=0。既然估计出来的时候就等于0,自然模型选择的任务就完成了。

    • \sum_{i=1}^n(y_i-\beta_0-\sum_{j=1}^{p}\beta_jx_{ij})^2+\lambda\sum_{j=1}^{p}\vert\beta_j\vert

      这个做法的有效性非常非常依赖于调节参数\lambda,就是他有非常非常多的要求。

    • 也就是不同的\lambda会产生一个类似于stepwise regression的求解集合,他比2^p要小很多,这个集合里面仍然要挑选。这个集合里面的挑选对应的问题就是\lambda的选择,它的选择仍然需要AIC和BIC来帮助。

  • 向前回归:空模型加自变量,向后回归:全模型减自变量

小心解读,谨慎应用

  • Model selection uncertainty
  • model averaging模型平均:p(M_k|Y)=\frac{p(Y|M_k)\pi(M_k)}{\sum_{k=0}^{q}p(Y|M_k)\pi(M_k)}
    • 它要解决的问题是:我们无论用AIC, BIC, LASSO,最后选出来的模型都具有不确定性。因为它都是基于随机的数产生的,这个不确定性可能大也可能小。无论你选哪个模型,都是把鸡蛋放到一个篮子里,能不能分散开来放。
    • 把每个模型加权平均到一起得到一个综合的模型会不会更加稳定?经验表明:会。模型平均方法是一种非常有竞争力的预测模型,最大的特点就是性能稳定。对于一个具体的数据集而言,有时候它的预测精度是最好的,有时候也不见得是最好的,但是它的稳定性是最好的。几乎在所有的数据集中测试表现都是一个非常非常有竞争力的状态。
  • 系数的解读没有写,下次再总结
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容

  • 参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾...
    愚盆阅读 3,105评论 0 1
  • 一、简单线性回归 1.我们研究回归分析时要查看变量间是否存在相关性,线性相关公式为 但是这个地方要注意,这个系数为...
    enhengz阅读 3,241评论 0 0
  • 1. 模型简介 模型思想 多元线性回归(multiple linear regression) 模型的目的是构建一...
    风逝流沙阅读 20,421评论 0 5
  • 基本形式 给定包含条记录的数据集: 线性回归模型试图学习一个线性模型以尽可能地预测因变量: 多元线性回归的假设 同...
    TOMOCAT阅读 321评论 0 0
  • 彩排完,天已黑
    刘凯书法阅读 4,182评论 1 3