在实际工作中,我遇到的很多情况是:虽然通过数据分析细致入微地了解了现状,但到锁定原因的阶段,却又用突兀的主观见解来代替客观事实。
“表示二者关系的“相关系数”
相关系数”可以表示相关程度,计算相关系数的方法叫作“相关分析”。相关系数的值介于-1 和+1 之间。
相关系数越接近 1,正相关的程度越高。也就是说,一方数据增加,另一方数据也会随之增加。二者完全成比例(如果一方增至 2 倍,另一方也随之变为 2 倍)时的相关系数最大,是 1。相关系数为 0,表示两个数据没有任何关联,互相独立。实际业务中使用的第一手数据,一般都不是 0 或者 1 所表示的完全不相关或者完全成比例相关,而是介于二者之间。
使用 CORREL 函数可以计算相关系数。在“=CORREL”后面的括号中指定两种数据的范围,并用逗号隔开,即可立即得出相关系数。在图 3-2 的例子中,相关系数为 0.84,可知二者高度相关。
如果两个数据不相关,散点图就会呈现出不规则分布。因此除了相关系数之外,用散点图从直观上展现两种数据之间的关系,有时也可以发挥重要的作用。尤其对下面 3 种情形来说,散点图会很有用。
①能够发现明显的离群值(出于某种原因,明显偏离其他数据的数据)。离群值可能会产生影响,导致整体的相关系数变低。如果能够合理去除离群值,那么其他数据的相关系数可能会有不同。
②相关系数能够体现两种数据之间的比例关系(线性关系),但并非所有数据之间都是比例关系,也可能是其他类型(曲线等)关系。这些其他类型的关系可以不依赖相关系数,从散点图中看到。
③借助散点图,对相关分析、相关系数一无所知的人也可以理解分析的结果。
锁定原因也需要“假设”
着手处理数据之前,应该首先确认目的或问题,在此基础上提出假设,这一点非常重要。在分析问题原因时,假设也同样有效。与原因有关的假设叫作 WHY 型假设。
但需要提防一些陷阱,防止受前例束缚的主观臆断,或者将视野限定在平时常见的数据范围之内。
(1)寻找接近结果的原因
(2)选择能够采取对策的原因
相关系数的四大优势
(1)能够立即得出答案
(2)简单易懂,更容易得到对方理解
(3)能够分析单位不同的数据
(4)为回归分析等进一步分析做铺垫
找到相关分析的着眼点
不要随便编故事
陷井 1 因果关系
相关关系并不一定就是因果关系,这一点非常重要。
陷井 2 疑似相关
任何情形都可以通过计算得出相关分析的结果(相关系数),但这个结果未必都是由“直接”相关关系导致的。
陷井 3 数据的范围
所有的数据分析都有一个共同点,就是分析所用的数据范围不同,会对结果带来很大差异。
一般情况下,可以用散点图将数据的相关关系直观地展现出来,然后再逐一探索应该从何处着眼,这也是一个关键。
陷井 4 离群值
离群值指由于某种原因,与其他数据差距比较大的数据。分析对象中是否包含离群值,会使相关系数产生很大差异。
如果可以随意删除数据,就有可能出现分析者操纵分析结果,导致分析丧失客观性和可信度的情况。所以,发现离群值时,首先要调查这个数据为什么会出现偏离。在此基础上,如果能找到合适的理由,则可以将其从对象中剔除,再进行分析。