回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
相关分析主要研究变量之间的密切关联程度,一般用相关系数corr表示,处于[-1,1],两个变量同步(corr>0)或异步(corr<0)变化的程度。
回归则是有某一个或者某一些变量唯一确定另外一个变量的关系。还可通过回归方程进行预测和控制 。
在平时的工作中,并非每一个变量都有用,有时维度较多时,还要降维。筛选变量时,总是先看看他们的相关系数(corr)怎么样,太小的就过滤掉了。然后筛选出合适的变量,进行回归分析和预测。
一、一元线性回归
回归模型中只含一个自变量,它主要用来处理一个自变量与一个因变量之间的线性关系。简单线性回归模型为:
Y=a+bX+ε
式中,Y:因变量,X:自变量,a:常数项,是回归直线在纵坐标轴上的截距;b:回归系数,是回归直线的斜率;ε:随机误差,即随机因素对因变量所产生的影响。
1、最小二乘法
最小二乘法其实又叫最小平方法,是一种数据拟合的优化技术。实质上是利用最小误差的平方寻求数据的最佳匹配函数,利用最小二乘法可以便捷的求得未知的数据,起到预测的作用,并且是的这些预测的数据与实际数据之间的误差平方和达到最小。一般应用在曲线拟合的目的上。
2、拟合优度检验
度量拟合优度的统计量是可决系数(亦称确定系数)R²。R²最大值为1。R²的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R²的值越小,说明回归直线对观测值的拟合程度越差。
3、显著性检验
线性回归方差分析表的主要作用是通过F检验来判断回归模型的回归效果,即检验因变量与所有自变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当。主要有平方和(SS)、自由度(df)、均方(MS)、F(F统计量)、显著性(P值)五大指标。通常只需要关注F和显著性(P值)两个指标,其中主要参考显著性(P值),因为计算出F统计量,还需要查找统计表(F分布临界值表),并与之进行比较大小才能得出结果,而显著性(P值)可直接与显著性水平α(0.01,0.05)比较得出结果。
显著性(P值)是在显著性水平α(常用取值0.01或0.05)下F的临界值,一般我们以此来衡量检验结果是否具有显著性,如果显著性(P值)>0.05,则结果不具有显著的统计学意义;如果0.01<显著性(P值)<0.05,则结果具有显著的统计学意义;如果显著性(P值)<0.01,则结果具有极其显著的统计学意义。
二、多元线性回归
多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。
1、多重共线性
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。
2、变量选择与逐步回归
1、选择“最优”回归子集的方法
1)“最优”子集的变量筛选法
2)计算量很大的全子集法
3)计算量适中的选择法
2、变量选择的几个准则
(1)残差平方和Q愈小愈好或复相关系数R越靠近1越好
(2)剩余标准差s越小越好
(3)回归方程中包含的自变量的个数m越少越好
逐步回归基本步骤: