只要学习过数据分析,或者对数据分析有一些简单的了解,使用过spssau、spss、stata这些统计分析软件,都知道有回归分析。按照数学上的定义来看,回归分析指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。
其实说简单点就是研究X对于Y的影响关系,这就是回归分析。但是,这并不够呢,看下图,总共19种回归(其实还有不单独列出),这如何区分,到底应该使用哪一种回归呢,这19种回归分析有啥区别呢。为什么会这如此多的回归分析呢?
一、首先回答下:为什么会有如此多的回归分析方法?
在研究X对于Y的影响时,会区分出很多种情况,比如Y有的是定类数据,Y有的是定量数据(如果不懂,可阅读基础概念),也有可能Y有多个或者1个,同时每种回归分析还有很多前提条件,如果不满足则有对应的其它回归方法进行解决。这也就解决了为什么会有如此多的回归分析方法。接下来会逐一说明这19种回归分析方法。
二、回归分析按数据类型分类
首先将回归分析中的Y(因变量)进行数据类型区分,如果是定量且1个(比如身高),通常我们会使用线性回归,如果Y为定类且1个(比如是否愿意购买苹果手机),此时叫logistic回归,如果Y为定量且多个,此时应该使用PLS回归(即偏最小二乘回归)。
线性回归再细分:如果回归模型中X仅为1个,此时就称为简单线性回归或者一元线性回归;如果X有多个,此时称为多元线性回归。
Logistic回归再细分:如果Y为两类比如0和1(比如1为愿意和0为不愿意,1为购买和0为不购买),此时就叫二元logistic回归;如果Y为多类比如1,2,3(比如DELL, Thinkpad, Mac),此时就会多分类logistic回归;如果Y为多类且有序比如1,2,3(比如1为不愿意,2为中立,3为愿意),此时可以使用有序logistic回归。如果Y为两类时,有时候会使用二元Probit回归模型。
除此之外,如果Y为定量且为多个,很多时候会将Y合并概括成1个(比如使用平均值),然后使用线性回归,反之可考虑使用PLS回归(但此种情况使用其实较少,PLS回归模型非常复杂)。
三、深入说明线性因归模型
我们常见的回归分析中,线性回归和logistic回归最为常见。也是当前研究最多,并且使用最为普遍,以及最为人接受容易理解的研究方法。
尤其是线性回归,其使用最为成熟,研究最多,而且绝大多数生活现象均可使用线性回归进行研究,因而结合回归分析还会多出一些回归方法;同时回归分析模型会有很多假定,或者满足条件,如果不满足这些假定或者条件就会导致模型使用出错,此时就有对应的其它回归模型出来解决这些问题,因而跟着线性回归后面又出来很多的回归。如下图:
线性回归是研究X对于Y的影响,如果说有多个X,希望让模型自动找出有意义的X,此时就可以使用逐步回归。另外在很一些管理类研究中会涉及到中介作用或者调节作用,此时就可能使用到分层回归或者分组回归等。
在进行线性回归分析时,如果说模型出现共线性问题VIF值很大,此时就可以使用岭回归进行解决,岭回归的使用较为广泛,其实还有Lasso回归也可以解决共线性问题,但是使用非常少而已。
如果数据中有异常值,常见的解决办法是先把异常值去除掉,但有的时候确实无法去除掉异常值,此时可考虑使用稳健回归分析模型。
线性回归的前提是X和Y之间有着线性关系,但有的时候X和Y并不是线性关系,此时就有着曲线回归和非线性回归这两种回归出来供使用,曲线回归其实质上是将曲线模型表达式转换成线性关系表达式进行研究,而非线性回归较为复杂当然使用也非常少,其和线性回归完全不是一回事情。以及Poisson回归(泊松回归)是指Y符合泊松分布特征时使用的回归研究模型。
四、其它
除此之外,还有比如加权WLS回归等,使用较少,不单独说明。
最后特别说明的一种回归模型叫Cox回归,这是医学研究中使用较多的一种方法,是研究生存影响关系,比如研究抑郁症生存时间,癌症的死亡时间影响关系情况等。
综上所述,一次性将19种回归汇总,基本上都可以在SPSSAU上面找到,关于各类回归方法的使用,以及具体原理,可查看SPSSAU官网,以及可使用SPSSAU上面的案例数据,逐一进行操作分析。