线性回归

[Chapter 3 - 线性回归]

简单线性回归

形如 $\normalsize Y \approx \beta_{0} + \beta_{1}X$ ，其中 $\beta_{0}$ 截距为 $\beta_{1}$ 为斜率， $\beta_{0}$ 和 $\beta_{1}$ 被称为系数或者参数

计算模型系数

计算 $\beta_{0}$ 和 $\beta_{1}$ 使得直线和点之间的距离之和最小
第 $i \text{个}$ 回归值的残差为

$\normalsize e_{i} = y_{i} - \hat{y_{i}} = y_{i} - \hat{\beta_{0}} - \hat{\beta_{1}}x_{i} .$
则残差平方和 $RSS$ 为：
$\normalsize RSS = e_{1}^2 + e_{2}^2 + \ldots + e_{n}^2$ 或
$\normalsize RSS = (y_{1} - \hat{\beta_{0}} - \hat{\beta_{1}}x_{1})^2 + (y_{2}- \hat{\beta_{0}} - \hat{\beta_{1}}x_{2})^2 + \ldots + (y_{n} - \hat{\beta_{0}}- \hat{\beta_{1}}x_{n})^2 .$

假设样本均值为
$\normalsize \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_{i}$
$\normalsize \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_{i} ,$
最小二乘法的的回归结果为：
$\normalsize \beta_{1} = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}$

$\normalsize \beta_{0} = \bar{y} - \hat{\beta_{1}}\bar{x}$

评估系数准确性

对于模型 $\normalsize Y = \beta_{0} + \beta_{1}X + \epsilon$ 和回归线 $\normalsize \hat{y_{i}} = \hat{\beta_{0}} + \hat{\beta_{1}}x_{i} .$
标准差 $SE$ 为

$\normalsize \mathrm{SE}(\beta_{0})^{2} = \sigma^{2}\bigg[\frac{1}{n} + \frac{\bar{x}^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}\bigg]$

$\normalsize \mathrm{SE}(\beta_{1})^{2} = \frac{\sigma^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}$

其中 $\sigma^{2} = \mathrm{Var}(\epsilon)$ 并且 $\epsilon_{i}$ 与 $\sigma^{2}$ 没有协相关关系.

残差标准差为：

$\normalsize \mathrm{RSE} = \sqrt{\frac{\mathrm{RSS}}{(n - 2)}}$

其中 $\mathrm{RSS}$ 为残差方差之和.

标准差可以用来计算置信区间（在一定可信度下能够包含未知参数真实数值的区间）

简单的线性回归下 $\beta_{1}$ 的95% 置信区间可以估计为
$\normalsize \hat{\beta_{1}} \pm 2 \times \mathrm{SE}(\hat{\beta_{1}}) .$
相似的 $\beta_{0}$ 可以估计为
$\normalsize \hat{\beta_{0}} \pm 2 \times \mathrm{SE}(\hat{\beta_{0}}) .$

当我们想计算单个响应值 $y = f(x) + \epsilon$ , 我们使用预测区间；当我们想计算平均响应值 $f(x)$ ，我们使用置信区间

假设检验：

对于以下两种假设：
$H_{0}$ : $X$ 和 $Y$ 不相关
$H_{1}$ : $X$ 和 $Y$ 相关
我们可以采用T-检验进行估计
T-statistic 计算为：
$\normalsize t = \frac{\hat{\beta}_{1} - 0}{\mathrm{SE}(\hat{\beta_{1}})}$
如果 $X$ 和 $Y$ 无关, $n - 2$ 自由度的t-分布将会获得。
那么我们可以计算当前模型得到的t计算数据对应的概率p-value，如果p-value足够小，我们就可以拒绝假设 $H_{0}$ .

使用 $R^{2}$ 评估模型准确度

$\normalsize R^{2} = \frac{\mathrm{TSS}-\mathrm{RSS}}{\mathrm{TSS}} = 1 - \frac{\mathrm{RSS}}{\mathrm{TSS}}$

其中：

$\normalsize \mathrm{RSS} = \sum_{i=1}^{n}(y_{i} - \hat{y}_{i})^{2}$

$\normalsize \mathrm{TSS} = \sum_{i=1}^{n}(y_{i} - \bar{y}_{i})^{2} .$
$R^{2}$ 可以计算模型拟合后减少的数据的自由度， $R^{2}$ 越接近1，那么模型拟合的就越好，具体需要的 $R^{2}$ 的数据需要依据实际情况进行判定。

协相关系数

$\normalsize \mathrm{Cor}(X,Y) = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i} -\bar{x})^{2}}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}$

多变量回归

形如： $\normalsize Y = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \ldots +\beta_{p}X_{p} + \epsilon .$

F检验

对多变量提出以下假设：
$\normalsize H_{0}: \beta_{1} = \beta_{2} = \ldots = \beta_{p} = 0$
$H_{a}: at\ least\ one\ of B_{j} \ne 0 .$
F-检验可以检测哪种假设为真

F-statistic计算为：

$\normalsize \mathrm{F} = \frac{(\mathrm{TSS} -\mathrm{RSS})/p}{\mathrm{RSS}/(n - p - 1)} = \frac{\frac{\mathrm{TSS} -\mathrm{RSS}}{p}}{\frac{\mathrm{RSS}}{n - p- 1}}$

如果为 $H_{a}$ 成立，
$\normalsize \mathrm{E}\{\frac{\mathrm{RSS}}{n - p - 1}\} = \sigma^{2}$

相反如果 $H_{0}$ 成立，

$\normalsize \mathrm{E}\{\frac{\mathrm{TSS} - \mathrm{RSS}}{p}\} = \sigma^{2}$ 即F检验的数据会接近 $1$ ；相反, 如果 $H_{a}$ 成立，F值会大于 $1 .$

当 $n$ 较大时, F-statistic稍大于 $1$ 就很可能拒绝 $H_{0}$ . 如果 $n$ 比较小, 则需要较大的F值才行。

定性预测

通过编码
$\normalsize X_{i} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0 \ &\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.$
获得模型
$\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.$
或者编码
$\normalsize X_{i} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ A}\\ -1&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.$
获得模型
$\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} - \beta_{1}+ \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.$

对于三变量的话：
$\normalsize X_{i1} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ B}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ B} \end{array} \right.$

$\normalsize X_{i2} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ B}\\ 0 &\mathrm{if\ p_{i}\ \ne\ class\ B} \end{array} \right.$

$\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \beta_{2} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B}\\ \beta_{0} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ C} \end{array} \right. .$

变量互作，非线性关系

形如
$\normalsize \mathrm{Y} = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \beta_{3}X_{1}X_{2} + \epsilon$
变量没有互作时：
$\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \left\{ \begin{array}{cc} \beta_{2}&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.$
加上互作后变为：
$\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \left\{ \begin{array}{cc} \beta_{2} + \beta_{3}X_{1}&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.$
等价于：
$\normalsize y_{i} = \left\{ \begin{array}{cc} (\beta_{0} + \beta_{2}) + (\beta_{1} + \beta_{3})X_{1}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \beta_{1}X_{1}&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.$

线性回归常见问题

非线性关系

非线性关系

左图为线性拟合的结果，右图加上了平方变量，显然右图更加符合标准
误差相关性（时间序列模型）

误差相关性

一图误差随机分布，二图则具有了一定的关联，在相近的地方，取值具有趋同性，这样误差皆为正或者负值，三图具有明显的时间序列模型的模式。
误差不为常量

误差逐渐增大
离群值

离群值