笔记说明

读《Discovering Statistics Using R》第七章 Regression中的7.2-7.5节做的笔记。主要包括简单线性回归基本概念、用 $R^2$ 评估拟合优度，模型整体的F检验，回归系数的t检验。

简单线性回归

回归分析是由一个自变量或多个自变量预测一个定量因变量变量取值的分析方法。简单线性回归就是只有一个自变量的线性回归：
$Y_i=b_0 +b_1X_i +ε_i$
确定了截距 $b_0$ 和回归系数 $b_1$ 就确定了简单线性回归。
$b_0 +b_1X_i$ 为简单线性回归模型的估计值 $\hat{y}$ ， $ε_i$ 为观测值与估计值之差，称为残差。

最小二乘法

可以通过最小二乘法来求解回归方程中的截距和回归系数。
其基本思想为：在给定样本数据后，求解使得回归方程的残差平方和取得最小值的截距和回归系数。
书中未解释最小二乘法具体的求解过程。此处略过。

评估拟合优度

可以用离差平方和来评估一个模型对数据的拟合优度：
$deviation = \sum(observed - model)^2$
$SS_T = \sum(Y-\overline{Y})^2$ (total sum of squares）为Y的离均差平方和。可以理解为用样本均值作为模型，它的离差平方和。
$SS_R = \sum(Y-\hat{Y})^2$ (resudual sum of squares)为回归后残差平方和。它代表线性回归模型的离差平方和。
$SS_M = \sum(\hat{Y}-\overline{Y})^2$ (model sum of squares）称为回归平方和
如果 $SS_M$ 相比 $SS_R$ 很大，这说明回归模型比使用样本均值作为预测模型有较大改善。数学上这三个平方和间有：
$SS_T=SS_M + SS_R$
$R^2 = \frac{SS_M}{SS_T}$
$R^2$ 称为决定系数，表示因变量的方差中回归模型可以解释的比例。它和介绍相关系数时提到的 $R^2$ 是一样的。

用离差平方和评估模型的另一个方法是F检验。在第二章时提到过，检验统计量如F经常是系统性方差除以随机性方差，或者说模型与误差之间的比较。在线性回归的F检验这里也是这样：F基于模型可解释的部分（ $SS_M$ ）和模型和观测值之间的差异（ $SS_R$ ）。由于离差平方和的计算和样本量有关系，我们使用平均的离差平方和，称为均方（MS mean squaes），它由离差平方和除以对应的自由度得到。
$SS_M$ 的自由度为模型中自变量的个数，对应均方为回归均方 $MS_M$
$SS_R$ 的自由度为样本量-模型中待估计参数个数（线性回归中即回归系数和截距），对应均方为残差均方 $MS_R$
$F=\frac{MS_M}{MS_R}$
利用F统计量可以对模型整体进行检验。根据分子自由度和分母自由度查F分布表可以找到对应的F临界值，若F＞临界值，则两变量线性关系有统计学意义。

回归系数检验

回归系数表示自变量改变一个单位时因变量的平均变化量。回归系数为0意味着：因变量的期望值不随自变量变化而变化；线性模型斜率为0。
如果自变量对因变量有（线性）预测作用，则其回归系数不等于0.
对回归系数的假设检验采用t检验。
$t=\frac{b_{observed}-b_{expected}}{SE_b}=\frac{b_{observed}}{SE_b}$
检验统计量t的自由度为N-p-1。N为样本量，p为自变量个数。
则在简单线性回归中此处自由度为N-2

示例数据

研究问题为用广告投入费用(adverts)来预测唱片销量(salesd)。数据在这里：Album Sales 1.dat

library(rio)
album1 <- import("data/Album Sales 1.dat") 
str(album1)

## 'data.frame':    200 obs. of  2 variables:
##  $ adverts: num  10.3 985.7 1445.6 1188.2 574.5 ...
##  $ sales  : int  330 120 360 270 220 170 70 210 200 300 ...

先做散点图看一下两个变量的情况,在散点图的基础上多加了geom_smooth(method="lm")，画出拟合的线性模型。

library(ggplot2)
scatter <- ggplot(album1, aes(adverts, sales)) + geom_point()
scatter + geom_smooth(method = "lm")

使用lm()函数进行回归分析，lm是linear model的简写。使用方法：
newModel <- lm(outcom ~ predictor(s), data = dataFrame, na.action = an action)

newModel 是生成的包含回归分析信息的对象。可以对其使用summary()来查看回归分析的统计量等信息。
outcom ~ predictor(s) 此处指定回归分析的自变量和因变量。~表示"predicted from"
na.action指定对缺失数据的处理。主要有两种处理方式：1.na.action=na.fail 默认选项，如果有缺失数据则回归分析不会进行。
2.na.action=na.omit 或 na.exclude 如果发现缺失则有缺失数据的样本在分析时被剔除。

albumSales.1 <- lm(sales ~ adverts, data = album1)
summary(albumSales.1)

## Call:
## lm(formula = sales ~ adverts, data = album1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -152.949  -43.796   -0.393   37.040  211.866 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.341e+02  7.537e+00  17.799   <2e-16 ***
## adverts     9.612e-02  9.632e-03   9.979   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 65.99 on 198 degrees of freedom
## Multiple R-squared:  0.3346, Adjusted R-squared:  0.3313 
## F-statistic: 99.59 on 1 and 198 DF,  p-value: < 2.2e-16

summary(albumSales.1)结果的倒数第二行提供了 $R^2$ 和矫正 $R^2$ 的值。广告支出可以“解释”唱片销量约33.5%的变异。
结果最后一行是方差分析的简要结果，包括F值、对应的自由度、P值。2.2e-16即 $2.2×10^{-16}$ 结果显示广告支出和唱片销量之间的线性回归关系有统计学意义。
Coefficients部分包括了回归模型的参数（回归系数和截距）及参数的假设检验结果。Estimatel列即为参数估计值。Std.Error为参数的标准误。回归系数约为0.096，截距约为134.1.
截距的意义是自变量为0时因变量的期望值，即广告支出为0时，唱片销量的期望为134.1（单位为千张）。
回归系数的意义是自变量变化一个单位时因变量的改变量。
Pr(>|t|)列对应t检验的P值。示例数据结果P值均＜0.001，则广告支出对预测唱片销量的贡献有统计学意义。

《Discovering Statistics Using R》笔记12-简单线性回归