20190811各类算法模型归纳

一、回归模型

       1、线性回归

             1.1 模型解读

                   Y=β_{0}+β_{1}X_{1}+β_{2}X_{2}+...+β_{p}X_{p}+ε

                    X 自变量,形式不固定,可以是一次项,也可以是多次项,还可以是指数或对数;个数为1就是一元回归,个数是多个就是多元回归

                    β_{1},β_{2},...,β_{p} 相关系数(一元叫斜率,多元叫偏回归系数) ,必须是一次项,否则就不是线性回归关系

                    β_{0} 截距(是常数项),不可省略

                    ε 随机误差,还可用u或e表示

                    Y 因变量,只能有一个

                1.2 回归三种分析方法,通过估计出参数β_{0},β_{2},β_{2},...,β_{p}达到某个值使得ε误差值最小

                        ①、拟合方法:使用数据估计模型参数时所使用的方法

                         ②、最大似然估计法:常用方法,但有争议

                          ③、最小二乘法:常用方法,数据需满足一定假设条件

       2、一元线性回归

             2.1 模型  Y=β_{0}+β_{1}X+ε

             2.2 β_{0},β_{1}的最小二乘估计公式

                   \hat{β}_{1} =\frac{ \sum_{ }(y_{i}-\bar{y})\sum_{ }(x_{i}-\bar{x })}{\sqrt{\sum_{ }(x_{i}-\bar{x})^2} }

                   \hat{β}_{0}=\bar{y} -\hat{β}_{1}\bar{x}

             2.3 必须满足的6条假定(高斯马尔科夫假定):

                        ①、线性于参数,即β系数为线性系数

                        ②、随机抽样,即样本是随机抽样得到的,残差无时间序列相关性,解决方法是把时间学列当作一个变量加入模型中。\lim_{h\to∞} [Cov(u_{t},u_{t-h})=f(h)]=0表示残差时间序列相关

                        ③、不存在完全共线性,即每列数据或每个变量任意两两组合不出现完全线性相关,微弱线性相关依据情况可以接受

                        ④、误差(也叫残差)的条件均值为零,若遗漏重要变量会出现不为0.Cov(u,x)=E(u|x)=0

                        ⑤、误差的同方差性,即残差值是恒定的。若残差散点图是左开口或右开口的喇叭状图形,或残差方差随自变量的变化成有规律性波动,则残差呈异方差性。解决方法是对y取ln

                        ⑥、误差的正态性

             2.4 假设检验,用t分布检验

                  2.4.1 假设设定 零假设  H_{0}:β_{1}=0; 备择假设 H_{1} : β_{1} ≠ 0

                  2.4.2 β_{0} 和β_{1} 的无偏估计公式

                            Var(\hat{β}_{0})=σ^2 [\frac{1}{n} +\frac{\bar{x}^2}{ \sum_{ } (x_{i}-\bar{x})^2} ]

                            Var(\hat{β}_{1})=\frac{σ^2}{ \sum_{ } (x_{i}-\bar{x})^2}

                  2.4.3 σ^2的无偏估计

                           \hat{σ} ^2 =\frac{\sum_{ }  e_{i} ^2}{n-2} =\frac{\sum_{ }  (y_{i} - \hat{y_{i}} )^2}{n-2}=\frac{SSR}{n-2}(SSR是残差平方和=\sum_{ } (y_{i} - \hat{y_{i}} )^2,n-2是自由度=样本观测个数-待估计的回归参数的个数)   

                  2.4.4 标准误,即标准差的估计量

                           s.e.(\hat{β_{0}})=\hat{σ}  \sqrt{ \frac{1}{n} +\frac{\bar{x}^2}{ \sum_{ } (x_{i}-\bar{x})^2}   }

                           s.e.(\hat{β_{1}})= \frac{\hat{σ}}{\sqrt{ \sum_{ } (x_{i}-\bar{x})^2} }

                            \hat{σ}=\sqrt{\hat{σ}^2}

                            标准误越小估计精度越高

                  2.4.5 t检验方法

                           t_{1}=\frac{\hat{β_{1}-a}}{s.e.(\hat{β_{1}})} =\frac{\hat{β_{1}-a}}{\frac{\hat{σ}}{\sqrt{ \sum_{ } (x_{i}-\bar{x})^2} }   }   =\frac{(\hat{β_{1}}-a)\sqrt{ \sum_{ } ( x_{i}-\bar{х}) ^2}}{\hat{σ}} (a是H_{0}假设等于的某个值)

                            当H _{0} 为真时,t_{1}服从自由度为 n-2 的学生氏 t分布;若|t_{1}|≥t(n-2,α/2)或p(|t_{1}|)≤α,则拒绝H_{0}

             2.5 预测

                   2.5.1 对于任意给定的x_{0} ,计算因变量 Y 的预测值,\hat{y}_{0}=\hat{β}_{0}+\hat{β}_{1}x_{0},标志误 s.e.(\hat{y}_{0})=\hat{σ}  \sqrt{1+\frac{1}{n} +\frac{( x_{0}- \bar{x})^2}{ \sum_{ } (x_{i}-\bar{x})^2}   },(1-α)×100% 的置信区间 \hat{y}_{0}±t_{(n-2,α/2)} s.e.(\hat{y}_{0})

                   2.5.2 当 X = x_{0},估计因变量的预测均值μ_{0},\hat{μ}_{0}=\hat{β}_{0}+\hat{β}_{1}x_{0},标志误 s.e.(\hat{μ}_{0})=\hat{σ}  \sqrt{\frac{1}{n} +\frac{( x_{0}- \bar{x})^2}{ \sum_{ } (x_{i}-\bar{x})^2}   },(1-α)×100% 的置信区间\hat{μ}_{0}±t_{(n-2,α/2)}s.e.(\hat{μ}_{0}

                   2.5.3 评估标准

                        ①、t检验

                        ②、(X,Y)散点图和相关系数

                        ③、(Y,\hat{Y})散点图和相关系数

                        ④、误差估计(即 R square,实际是用此方法),总离差平方和SST=\sum_{ }  (y_{i} - \bar {y} )^2 ,残差平方和SSE=\sum_{ }  (\hat{y_{i}}-\bar {y} )^2 (衡量X对Y的预测能力),解释平方和SSR=\sum_{ }  (y_{i} - \hat{y_{i}} )^2(衡量预测误差)

SST、SSR和SSE关系图示

                   2.5.4 决定系数R^2,在 Y 的总变差中能被自变量 X 所解释的部分(所占的比例),反映自变量对因变量的解释能力,范围[0,1]

                          R^2=\frac{SSE}{SST} =1-\frac{SSR}{SST}=[Cor(Y,X)]^2=[Cor(Y,\hat{Y})]^2               

       3、多元线性回归

             3.1 最小二乘法,估计方式

                     S(β_{0},β_{1},β_{2},...,β_{p})=\sum_{i=1}^n ε_{i}^2=\sum_{i=1}^n (y_{i}-β_{0}-β_{1}x_{i1}-...-β_{p}x_{ip})^2

                     最小二乘回归方程\hat{Y}=\hat{β}_{0}+\hat{β}_{1}X_{1}+\hat{β}_{2}X_{2}+...+\hat{β}_{p}X_{p}

                    y_{i}的拟合值 \hat{y}_{i}=\hat{β}_{0}+\hat{β}_{1}X_{i1}+\hat{β}_{2}X_{i2}+...+\hat{β}_{p}X_{ip}(i=1,2,...,n)

                     普通最小二乘残差 e_{i}=y_{i}-\hat{y}_{i}(i=1,2,...,n)

             3.2 偏回归系数

①、 拟合 Y 对 X_{1} 的一元线性回归模型。回归残差是 Y 中与X_{1} 没有线性关系的部分(经过X_{1}“调整”后的 Y)

②、拟合 X_{2}X_{1} 的一元线性回归模型。 残差是 X_{2} 中与 X_{1} 没有线性关系的部分(经过X_{1}“调整”后的 X_{2}

③、拟合 e_{Y\circ X_{1}}e_{X_{2}\circ X_{1}} 的一元线性回归模型。回归系数表示去掉 X_{1} 对 Y 和 X_{2} 的线性影响之后,X_{2}对 Y 的影响(即,经过X_{1}调整后,X_{2}对Y的影响。)

             3.3 评估

                   加入了修正的R^2(或叫调整的R^2)R^2_{a}= 1-\frac{SSR/(n-p-1)}{SST/(n-1)}R^2_{a}= 1-\frac{n-1}{n-p-1}(1-R^2)

             3.4 假设检验,统一的方法是F检验。常见的假设:所有自变量的回归系数均为 0(常常使用此H_{0});某些回归系数为 0;某些回归系数相等;回归系数满足某些特定的约束。

                 SSR(RM)=\sum_{ } (y_{i}-\hat{y}_{i})^2 ≥SSR(FM)=\sum_{ } (y_{i}-\hat{y}_{i}^*)^2

                  F=\frac{[SSR(RM)-SSR(FM)]/(p+1-k)}{SSR(FM)/(n-p-1)} (p 为全模式下的待估参数个数,k为简化模型下待估参数个数)

               或 F=\frac{R_{p}^2/p}{(1-R_{p}^2)/(n-p-1)} (p 为自变量个数,n为样本数量,R_{p}样本的相关系数)

                 注:全模型(full model,FM) Y=β_{0}+β_{1}X_{1}+β_{2}X_{2}+...+β_{p}X_{p}+ε;简化模型(reduced model,RM)某些回归系数取指定值,简化模型中的待估参数的个数少于全模型中待估参数的个数

             3.4 方差膨胀因子,衡量自变量之间的相关关系

                   令R_{j}^2表示以X_{j}为因变量,其余自变量作为自变量的回归模型中的多重相关系数的平方,则 X_{j}的方差膨胀因子定义为VIF_{j}=\frac{1}{1-R_{j}^2} ,j=1,2,...,p(p为自变量个数)。VIF∈[1,+∞),[1,3]可以直接用来做变量;(3,7]数据需要稍微处理才能作为变量;(7,10]必须把数据处理后才能作变量;>10 出现共线性,不能直接用作变量,需要改变变量

             3.5 变量选择方法

                   前向选择方法

                   后向剔除方法

                   逐步回归法(现在常用的方法,让计算机自己跑即可)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容