20190811各类算法模型归纳

一、回归模型

1、线性回归

1.1 模型解读

Y= $β_{0}+β_{1}X_{1}+β_{2}X_{2}+...+β_{p}X_{p}+ε$

X 自变量，形式不固定，可以是一次项，也可以是多次项，还可以是指数或对数；个数为1就是一元回归，个数是多个就是多元回归

$β_{1},β_{2},...,β_{p}$ 相关系数(一元叫斜率,多元叫偏回归系数) ，必须是一次项，否则就不是线性回归关系

$β_{0}$ 截距(是常数项)，不可省略

ε 随机误差，还可用u或e表示

Y 因变量，只能有一个

1.2 回归三种分析方法，通过估计出参数 $β_{0},β_{2},β_{2},...,β_{p}$ 达到某个值使得ε误差值最小

①、拟合方法：使用数据估计模型参数时所使用的方法

②、最大似然估计法：常用方法，但有争议

③、最小二乘法：常用方法，数据需满足一定假设条件

2、一元线性回归

2.1 模型 Y= $β_{0}+β_{1}X+ε$

2.2 $β_{0},β_{1}$ 的最小二乘估计公式

$\hat{β}_{1} =\frac{ \sum_{ }(y_{i}-\bar{y})\sum_{ }(x_{i}-\bar{x })}{\sqrt{\sum_{ }(x_{i}-\bar{x})^2} }$

$\hat{β}_{0}=\bar{y} -\hat{β}_{1}\bar{x}$

2.3 必须满足的6条假定(高斯马尔科夫假定)：

①、线性于参数，即β系数为线性系数

②、随机抽样，即样本是随机抽样得到的，残差无时间序列相关性，解决方法是把时间学列当作一个变量加入模型中。 $\lim_{h\to∞} [Cov(u_{t},u_{t-h})=f(h)]=0$ 表示残差时间序列相关

③、不存在完全共线性，即每列数据或每个变量任意两两组合不出现完全线性相关，微弱线性相关依据情况可以接受

④、误差(也叫残差)的条件均值为零，若遗漏重要变量会出现不为0.Cov(u,x)=E(u|x)=0

⑤、误差的同方差性，即残差值是恒定的。若残差散点图是左开口或右开口的喇叭状图形，或残差方差随自变量的变化成有规律性波动，则残差呈异方差性。解决方法是对y取ln

⑥、误差的正态性

2.4 假设检验，用t分布检验

2.4.1 假设设定零假设 $H_{0}$ : $β_{1}$ =0；备择假设 $H_{1} : β_{1} ≠ 0$

2.4.2 $β_{0} 和β_{1}$ 的无偏估计公式

Var( $\hat{β}_{0}$ )= $σ^2 [\frac{1}{n} +\frac{\bar{x}^2}{ \sum_{ } (x_{i}-\bar{x})^2} ]$

Var( $\hat{β}_{1}$ )= $\frac{σ^2}{ \sum_{ } (x_{i}-\bar{x})^2}$

2.4.3 $σ^2$ 的无偏估计

$\hat{σ} ^2 =\frac{\sum_{ } e_{i} ^2}{n-2} =\frac{\sum_{ } (y_{i} - \hat{y_{i}} )^2}{n-2}=\frac{SSR}{n-2}$ (SSR是残差平方和= $\sum_{ } (y_{i} - \hat{y_{i}} )^2$ ，n-2是自由度=样本观测个数-待估计的回归参数的个数)

2.4.4 标准误，即标准差的估计量

s.e.( $\hat{β_{0}}$ )= $\hat{σ} \sqrt{ \frac{1}{n} +\frac{\bar{x}^2}{ \sum_{ } (x_{i}-\bar{x})^2} }$

s.e.( $\hat{β_{1}}$ )= $\frac{\hat{σ}}{\sqrt{ \sum_{ } (x_{i}-\bar{x})^2} }$

$\hat{σ}=\sqrt{\hat{σ}^2}$

标准误越小估计精度越高

2.4.5 t检验方法

$t_{1}$ = $\frac{\hat{β_{1}-a}}{s.e.(\hat{β_{1}})}$ = $\frac{\hat{β_{1}-a}}{\frac{\hat{σ}}{\sqrt{ \sum_{ } (x_{i}-\bar{x})^2} } }$ = $\frac{(\hat{β_{1}}-a)\sqrt{ \sum_{ } ( x_{i}-\bar{х}) ^2}}{\hat{σ}}$ (a是 $H_{0}$ 假设等于的某个值)

当 $H _{0}$ 为真时， $t_{1}$ 服从自由度为 n-2 的学生氏 t分布；若| $t_{1}$ |≥t(n-2,α/2)或p(| $t_{1}$ |)≤α，则拒绝 $H_{0}$

2.5 预测

2.5.1 对于任意给定的 $x_{0}$ ，计算因变量 Y 的预测值, $\hat{y}_{0}=\hat{β}_{0}+\hat{β}_{1}x_{0}$ ，标志误 s.e.( $\hat{y}_{0}$ )= $\hat{σ} \sqrt{1+\frac{1}{n} +\frac{( x_{0}- \bar{x})^2}{ \sum_{ } (x_{i}-\bar{x})^2} }$ ,(1-α)×100% 的置信区间 $\hat{y}_{0}$ ± $t_{(n-2,α/2)}$ s.e.( $\hat{y}_{0}$ )

2.5.2 当 X = $x_{0}$ ，估计因变量的预测均值 $μ_{0}$ , $\hat{μ}_{0}$ = $\hat{β}_{0}+\hat{β}_{1}x_{0}$ ,标志误 s.e.( $\hat{μ}_{0}$ )= $\hat{σ} \sqrt{\frac{1}{n} +\frac{( x_{0}- \bar{x})^2}{ \sum_{ } (x_{i}-\bar{x})^2} }$ ,(1-α)×100% 的置信区间 $\hat{μ}_{0}$ ± $t_{(n-2,α/2)}$ s.e.( $\hat{μ}_{0}$ ）

2.5.3 评估标准

①、t检验

②、（X,Y）散点图和相关系数

③、（Y, $\hat{Y}$ ）散点图和相关系数

④、误差估计(即 R square,实际是用此方法),总离差平方和SST= $\sum_{ } (y_{i} - \bar {y} )^2$ ,残差平方和SSE= $\sum_{ } (\hat{y_{i}}-\bar {y} )^2$ (衡量X对Y的预测能力),解释平方和SSR= $\sum_{ } (y_{i} - \hat{y_{i}} )^2$ (衡量预测误差)

SST、SSR和SSE关系图示

2.5.4 决定系数 $R^2$ ,在 Y 的总变差中能被自变量 X 所解释的部分（所占的比例）,反映自变量对因变量的解释能力，范围[0,1]

$R^2$ = $\frac{SSE}{SST} =1-\frac{SSR}{SST}$ = $[Cor(Y,X)]^2$ = $[Cor(Y,\hat{Y})]^2$

3、多元线性回归

3.1 最小二乘法,估计方式

S( $β_{0},β_{1},β_{2},...,β_{p}$ )= $\sum_{i=1}^n ε_{i}^2$ = $\sum_{i=1}^n (y_{i}-β_{0}-β_{1}x_{i1}-...-β_{p}x_{ip})^2$

最小二乘回归方程 $\hat{Y}$ = $\hat{β}_{0}+\hat{β}_{1}X_{1}+\hat{β}_{2}X_{2}+...+\hat{β}_{p}X_{p}$

$y_{i}$ 的拟合值 $\hat{y}_{i}$ = $\hat{β}_{0}+\hat{β}_{1}X_{i1}+\hat{β}_{2}X_{i2}+...+\hat{β}_{p}X_{ip}$ (i=1,2,...,n)

普通最小二乘残差 $e_{i}$ = $y_{i}-\hat{y}_{i}$ (i=1,2,...,n)

3.2 偏回归系数

①、拟合 Y 对 $X_{1}$ 的一元线性回归模型。回归残差是 Y 中与 $X_{1}$ 没有线性关系的部分（经过 $X_{1}$ “调整”后的 Y）

②、拟合 $X_{2}$ 对 $X_{1}$ 的一元线性回归模型。残差是 $X_{2}$ 中与 $X_{1}$ 没有线性关系的部分（经过 $X_{1}$ “调整”后的 $X_{2}$ ）

③、拟合 $e_{Y\circ X_{1}}$ 对 $e_{X_{2}\circ X_{1}}$ 的一元线性回归模型。回归系数表示去掉 $X_{1}$ 对 Y 和 $X_{2}$ 的线性影响之后， $X_{2}$ 对 Y 的影响（即，经过 $X_{1}$ 调整后， $X_{2}$ 对Y的影响。）

3.3 评估

加入了修正的 $R^2$ (或叫调整的 $R^2$ ) $R^2_{a}$ = $1-\frac{SSR/(n-p-1)}{SST/(n-1)}$ 或 $R^2_{a}$ = $1-\frac{n-1}{n-p-1}(1-R^2)$

3.4 假设检验，统一的方法是F检验。常见的假设：所有自变量的回归系数均为 0(常常使用此 $H_{0}$ )；某些回归系数为 0；某些回归系数相等；回归系数满足某些特定的约束。

SSR(RM)= $\sum_{ } (y_{i}-\hat{y}_{i})^2$ ≥SSR(FM)= $\sum_{ } (y_{i}-\hat{y}_{i}^*)^2$

F= $\frac{[SSR(RM)-SSR(FM)]/(p+1-k)}{SSR(FM)/(n-p-1)}$ (p 为全模式下的待估参数个数，k为简化模型下待估参数个数)

或 F= $\frac{R_{p}^2/p}{(1-R_{p}^2)/(n-p-1)}$ (p 为自变量个数，n为样本数量， $R_{p}$ 样本的相关系数)

注：全模型(full model,FM) Y= $β_{0}+β_{1}X_{1}+β_{2}X_{2}+...+β_{p}X_{p}+ε$ ;简化模型(reduced model,RM)某些回归系数取指定值，简化模型中的待估参数的个数少于全模型中待估参数的个数

3.4 方差膨胀因子，衡量自变量之间的相关关系

令 $R_{j}^2$ 表示以 $X_{j}$ 为因变量，其余自变量作为自变量的回归模型中的多重相关系数的平方，则 $X_{j}$ 的方差膨胀因子定义为 $VIF_{j}=\frac{1}{1-R_{j}^2}$ ,j=1,2,...,p(p为自变量个数)。VIF∈[1,+∞)，[1,3]可以直接用来做变量；(3,7]数据需要稍微处理才能作为变量；(7,10]必须把数据处理后才能作变量;＞10 出现共线性，不能直接用作变量，需要改变变量

3.5 变量选择方法

前向选择方法

后向剔除方法

逐步回归法(现在常用的方法，让计算机自己跑即可)

最后编辑于：2019.08.11 14:48:33

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345

20190811各类算法模型归纳

推荐阅读更多精彩内容