线性回归

[Chapter 3 - 线性回归]

简单线性回归

形如\normalsize Y \approx \beta_{0} + \beta_{1}X,其中\beta_{0} 截距为\beta_{1} 为斜率,\beta_{0}\beta_{1} 被称为系数或者参数

计算模型系数

计算\beta_{0}\beta_{1} 使得直线和点之间的距离之和最小
i \text{个}回归值的残差为

\normalsize e_{i} = y_{i} - \hat{y_{i}} = y_{i} - \hat{\beta_{0}} - \hat{\beta_{1}}x_{i} .
则残差平方和RSS为:
\normalsize RSS = e_{1}^2 + e_{2}^2 + \ldots + e_{n}^2
\normalsize RSS = (y_{1} - \hat{\beta_{0}} - \hat{\beta_{1}}x_{1})^2 + (y_{2}- \hat{\beta_{0}} - \hat{\beta_{1}}x_{2})^2 + \ldots + (y_{n} - \hat{\beta_{0}}- \hat{\beta_{1}}x_{n})^2 .

假设样本均值为
\normalsize \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_{i}
\normalsize \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_{i} ,
最小二乘法的的回归结果为:
\normalsize \beta_{1} = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}

\normalsize \beta_{0} = \bar{y} - \hat{\beta_{1}}\bar{x}

评估系数准确性

对于模型\normalsize Y = \beta_{0} + \beta_{1}X + \epsilon和回归线\normalsize \hat{y_{i}} = \hat{\beta_{0}} + \hat{\beta_{1}}x_{i} .
标准差SE

\normalsize \mathrm{SE}(\beta_{0})^{2} = \sigma^{2}\bigg[\frac{1}{n} + \frac{\bar{x}^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}\bigg]

\normalsize \mathrm{SE}(\beta_{1})^{2} = \frac{\sigma^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}

其中 \sigma^{2} = \mathrm{Var}(\epsilon) 并且\epsilon_{i}\sigma^{2}没有协相关关系.

残差标准差为:

\normalsize \mathrm{RSE} = \sqrt{\frac{\mathrm{RSS}}{(n - 2)}}

其中\mathrm{RSS} 为残差方差之和.

标准差可以用来计算置信区间(在一定可信度下能够包含未知参数真实数值的区间)

简单的线性回归下 \beta_{1}的95% 置信区间可以估计为
\normalsize \hat{\beta_{1}} \pm 2 \times \mathrm{SE}(\hat{\beta_{1}}) .
相似的\beta_{0}可以估计为
\normalsize \hat{\beta_{0}} \pm 2 \times \mathrm{SE}(\hat{\beta_{0}}) .

当我们想计算单个响应值y = f(x) + \epsilon, 我们使用 预测区间;当我们想计算平均响应值f(x),我们使用置信区间

假设检验:

对于以下两种假设:
H_{0}: XY不相关
H_{1}: XY相关
我们可以采用T-检验进行估计
T-statistic 计算为:
\normalsize t = \frac{\hat{\beta}_{1} - 0}{\mathrm{SE}(\hat{\beta_{1}})}
如果XY无关, n - 2 自由度的t-分布将会获得。
那么我们可以计算当前模型得到的t计算数据对应的概率p-value,如果p-value足够小,我们就可以拒绝假设H_{0}.

使用R^{2}评估模型准确度

\normalsize R^{2} = \frac{\mathrm{TSS}-\mathrm{RSS}}{\mathrm{TSS}} = 1 - \frac{\mathrm{RSS}}{\mathrm{TSS}}

其中:

\normalsize \mathrm{RSS} = \sum_{i=1}^{n}(y_{i} - \hat{y}_{i})^{2}

\normalsize \mathrm{TSS} = \sum_{i=1}^{n}(y_{i} - \bar{y}_{i})^{2} .
R^{2}可以计算模型拟合后减少的数据的自由度,R^{2}越接近1,那么模型拟合的就越好,具体需要的R^{2}的数据需要依据实际情况进行判定。

协相关系数

\normalsize \mathrm{Cor}(X,Y) = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i} -\bar{x})^{2}}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}

多变量回归

形如:\normalsize Y = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \ldots +\beta_{p}X_{p} + \epsilon .

F检验

对多变量提出以下假设:
\normalsize H_{0}: \beta_{1} = \beta_{2} = \ldots = \beta_{p} = 0
H_{a}: at\ least\ one\ of B_{j} \ne 0 .
F-检验可以检测哪种假设为真

F-statistic计算为:

\normalsize \mathrm{F} = \frac{(\mathrm{TSS} -\mathrm{RSS})/p}{\mathrm{RSS}/(n - p - 1)} = \frac{\frac{\mathrm{TSS} -\mathrm{RSS}}{p}}{\frac{\mathrm{RSS}}{n - p- 1}}

如果为H_{a}成立,
\normalsize \mathrm{E}\{\frac{\mathrm{RSS}}{n - p - 1}\} = \sigma^{2}

相反如果H_{0}成立,

\normalsize \mathrm{E}\{\frac{\mathrm{TSS} - \mathrm{RSS}}{p}\} = \sigma^{2}即F检验的数据会接近1;相反, 如果H_{a}成立,F值会大于1 .

n 较大时, F-statistic稍大于1就很可能拒绝H_{0}. 如果n比较小, 则需要较大的F值才行。

定性预测

通过编码
\normalsize X_{i} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0 \ &\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.
获得模型
\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.
或者编码
\normalsize X_{i} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ A}\\ -1&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.
获得模型
\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} - \beta_{1}+ \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.

对于三变量的话:
\normalsize X_{i1} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ B}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ B} \end{array} \right.

\normalsize X_{i2} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ B}\\ 0 &\mathrm{if\ p_{i}\ \ne\ class\ B} \end{array} \right.

\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \beta_{2} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B}\\ \beta_{0} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ C} \end{array} \right. .

变量互作,非线性关系

形如
\normalsize \mathrm{Y} = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \beta_{3}X_{1}X_{2} + \epsilon
变量没有互作时:
\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \left\{ \begin{array}{cc} \beta_{2}&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.
加上互作后变为:
\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \left\{ \begin{array}{cc} \beta_{2} + \beta_{3}X_{1}&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.
等价于:
\normalsize y_{i} = \left\{ \begin{array}{cc} (\beta_{0} + \beta_{2}) + (\beta_{1} + \beta_{3})X_{1}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \beta_{1}X_{1}&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.

线性回归常见问题

  1. 非线性关系


    非线性关系

    左图为线性拟合的结果,右图加上了平方变量,显然右图更加符合标准

  2. 误差相关性(时间序列模型)


    误差相关性

    一图误差随机分布,二图则具有了一定的关联,在相近的地方,取值具有趋同性,这样误差皆为正或者负值,三图具有明显的时间序列模型的模式。

  3. 误差不为常量


    误差逐渐增大
  4. 离群值


    离群值
  1. 高杠杆率值


    高杠杆率值
  2. 共线性


    共线性

    共线性带来的数据预测区域过窄,如右图

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343