隔壁老王为何频频出入我家?天天加班却为何从未加薪?孩子天天要交补习费成绩却从未提高?这一切的背后,是现实的无奈还是有着不可告人的秘密?看似不相关的两件事情背后到底有着怎样的黑幕?
欢迎观看《从零开始的AI学习》系列文章之皮尔逊相关值!
大家好,我是黄瀚星,今天挖一个新的坑,给大家分享人工智能的相关知识。
今天的主题是,皮尔逊相关系数,也叫简单相关系数,在统计分析上具有举足轻重的地位。
如果你是一个互联网产品经理,想知道什么样的内容用户会喜欢。
如果你是一个金融分析师,想知道国家政策与金融衍生品之间价格涨跌的关系。
如果你是一个创业者,想知道产品的销售量与广告投放效果之间的关系。
……
这些都可以用简单相关系数来进行分析,应用场景非常广泛。
别看它叫“简单”相关系数,但来头可一点也不小,发明者是英国数学家,数理统计学的创立者卡尔·皮尔逊(Karl Pearson。1857~1936),
他被誉为现代统计科学的创立者,代表作品是《科学入门》,而且这位大神不光有着牛逼的头脑,还有着英俊的外表,赶紧膜拜一下~
什么是皮尔逊相关值
那么什么是皮尔逊相关值呢?
皮尔逊相关值是相关分析的一种,简单来说,就是比较两组数据之间的是否具有强烈的关联性,如果数据A在增大的同时,数据B也在增大,那么数据A和数据B增大的比例关系,就可以用皮尔逊相关值来表示,他的公式为:
如果你看不懂这个复杂的公式也不要紧,只需要知道,皮尔逊相关系数的结果总是落在-1和1之间就可以了。
结果为正数时表示两个变量成正相关,即一个变量增大时另一个变量也增大,比如气温越高,冷饮的销量就越多,这是正相关关系;
结果为负数时两个变量呈负相关,即一个变量增大时另一个变量减小,例如海拔越高时,空气中的氧气含量就越少。
如果为0,则表示两个变量不为线性关系,有可能两者不相关,但也有可能两者有更加复杂的关系。
相关性的强弱大致可以按照如下分布来进行判定:
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
那么,我们要如何计算皮尔逊相关值呢?如果你的数据只有很少的一部分,或者身为学霸的你想深刻的了解公式的原理,可以用手工套用公式进行计算。
但如果数据量很大,或者刚刚开始接触数据挖掘的初学者,你可以选择更加简便的方式,一分钟快速算结果。
如何用SPSS计算皮尔逊相关值
我们可以使用IBM公司的专业数据分析工具SPSS来快速进行相关值计算,这里我用的是MAC版本的SPSS V23。
接下来我们举一个简单的例子,以某班级学生的考试成绩与平时做题量来分析,讲解一下SPSS计算皮尔逊相关值的操作,看看这两者之间的相关系数有多少。
1、首先,打开SPSS,在列表中的竖排输入需要计算相关性的变量。
2、在功能菜单中选择“分析”-“相关”-“双变量”
3、把变量从左边勾选到右边的窗口中,相关系数选择“皮尔逊”
4、点击确定就可以看到结果了,这里我们可以看到相关性为0.93,属于极强相关,看来题海战术还是有一定作用的。
5、如果要绘制图表的话,可以直接点击“图形”-“旧对话框”-“散点图”,再在弹出的对话框中选择“简单散点图”即可,因为我们的数据只有两个,所以二维的简单散点图非常适合。
6、点击“定义”之后,会弹出设置X和Y坐标的页面,我们把考试成绩作为Y轴,做题量作为X轴来进行显示,点击确定。
7、然后,SPSS就会自动生成散点图,你可以在这个窗口点击导出,把分析结果作为你的PPT内容的一部分。
使用皮尔逊相关值需要注意的点
任何工具都不是万能钥匙,无法解决所有的情况,皮尔逊相关值也是如此,在使用过程中,需要注意以下几点:
1、皮尔逊的结果只能说两者有相关关系,但不一定是因果关系
举例来说,哥哥和弟弟的身高有着近似的关系,哥哥的身高很高,那么弟弟的身高很高的可能性也很大,这两者用皮尔逊来计算会产生很高的相关性。
但并不意味着弟弟身材高大是因为哥哥,而是二者有着共同的父母,是父母的基因决定了哥哥和弟弟的身高。
2、皮尔逊相关值不适合数据量非常小的计算
假设我们想要计算的样本数据只有一例,那么很有可能得到不准确的结论,也就是说公式的分子和分母必须不为零,相关系数才有意义。
3、皮尔逊相关值不能计算所有的变量都一致的数据
道理和上面的一样,因为标准差需要大量不同的数据取取值,算出相关性,如果数据值一样就无法进行计算了。
皮尔逊相关值的应用场景举例
1、互联网领域应用——产品推荐算法
假设现在有3个用户对123三种产品的喜好程度,分别用-5~5来表示,最低为-5,最高为5,我们用皮尔逊计算三个用户之间的相似性。
计算之后得到如下结果
可以看出,用户1与用户2之间存在着显著相关的特点,即用户1喜欢的东西,用户2喜欢的可能性也很大,而用户1与用户3则完全是截然相反的类型,对产品的喜好完全不同。
那么,当你上架了一个新的商品时,用户1很快就购买并给出了4分的评价,而用户2和用户3都还没看到新上架的商品,这时候你知道应该把这个产品推荐给谁更有可能促成销售了吧。
2、金融领域应用——外汇货币对相关性分析
假设我们需要查看美元指数与欧元、英镑、日元之间在过去三个星期时间内的走势关联性,以此来作出买卖外汇的交易决策,就可以使用皮尔逊相关值进行分析。
输入过去15天内的价格涨跌幅
通过SPSS进行分析之后得到如下结论:
欧元与美元指数呈强烈的负相关关系,当美元指数涨时,欧元兑美元会下跌,反之亦然,而且可以看出涨的幅度与跌的幅度相近。也就是说,当美元指数下跌时,就可以买入欧元获利。
英镑与美元指数的关系为强负相关,英镑的走势与美元指数的涨跌也有一定的关联,但并不如欧元那么强烈。
日元与美元指数为中等程度的正相关,而与英镑的价格走势关系为0.99,几乎没有关联性。
最后说几句
皮尔逊相关值的应用场景远远不止这些,大家尽可以脑洞大开,把看似不想关的数据关联起来,查看关联性是否足够强。
比如,是时候搞清楚这个问题了,吃木瓜与丰胸之间到底有没有关联性,我们分析统计妹纸吃木瓜的数量与cup大小之间的关联性,如果真的是强关联的话,就可以嘿嘿嘿✧(≖ ◡ ≖)~
好了,今天的分享就到这里,想知道具体的数据结果吗?
赶紧点击关注啊!