描述性分析只能分析数据呈现出来的基本特征,不能挖掘变量之间深层次的关系,无法为后期模型的建立及预测做准备。这个时候就需要掌握推断性分析方法,第一个方法就是相关分析。
哲学告诉我们,世界是一个普遍联系的有机整体,现象之间客观上存在着某种有机联系,一种现象的发展变化必然受与之相联系的其他现象发展变化的制约与影响。在统计学上,这种依存关系可以分成相关关系和回归函数关系两大类。
相关分析
(1)相关关系
相关关系是指现象之间存在着非严格的、不确定的依存关系。这种依存关系的特点是:某一现象在数量上发生变化会影响到另一现象数量上的变化,而且这种变化在数量上具有一定的随机性。即当给定某一现象一个数值时,另一个现象会有若干个数值与之对应,并且总是遵循一定的规律,围绕这些数值的平均数上下波动,其原因是影响现象发生变化的因素不止一个。例如,影响销售的因素除了推广费用外,还有产品质量、价格、渠道等因素。
(2)回归函数关系
回归函数关系是指现象之间存在着依存关系。在这种依存关系中,对于某一变量的每一个数值,都有另一变量值与之相对应,并且这种依存关系可用一个数学表达式反映出来。例如,在一定条件下,身高和体重存在着依存关系。
相关分析可分为线性相关和非线性相关,线性相关也称为直线相关,非线性相关从某种意义来讲也就是曲线相关。
线性相关是最常用的一种,即当一个连续变量发生变动时,另一个连续变量相应地呈现线性关系变动,用皮尔逊(Pearson)相关系数R来度量。
皮尔逊相关系数R就是反映连续变量之间线性相关强度的一个度量指标,它的取值范围限于【-1,1】。R的正负号可以反映相关的方向,当R>0时表示线性正相关,当R<0时表示线性负相关。R的大小可以反映相关的程度,R=0表示两个变量之间不存在线性关系。通常相关系数的取值与相关程度如图:
相关分析一般通过散点图来研究,如果变量在二维坐标中构成的数据点分布在一条直线的周围,那么久说明变量间存在线性相关关系。
相关关系不等于因果关系,相关性表示两个变量同时变化,而因果关系是一个变量导致另一个变量变化。例如,一项统计研究显示游泳时溺水人数越高,冰淇淋销售就越多,也就是游泳溺水人数和冰淇淋销售量之间呈线性正相关。由此可以得出结论:吃冰淇淋就会增加游泳溺水的风险吗?显然,这两个事件都受夏天到了气温升高所影响。