【从零开始的AI学习】如何判断两个数据之间的相关性?

演示文稿1.jpg

隔壁老王为何频频出入我家?天天加班却为何从未加薪?孩子天天要交补习费成绩却从未提高?这一切的背后,是现实的无奈还是有着不可告人的秘密?看似不相关的两件事情背后到底有着怎样的黑幕?

欢迎观看《从零开始的AI学习》系列文章之皮尔逊相关值!

大家好,我是黄瀚星,今天挖一个新的坑,给大家分享人工智能的相关知识。

今天的主题是,皮尔逊相关系数,也叫简单相关系数,在统计分析上具有举足轻重的地位。

如果你是一个互联网产品经理,想知道什么样的内容用户会喜欢。
如果你是一个金融分析师,想知道国家政策与金融衍生品之间价格涨跌的关系。
如果你是一个创业者,想知道产品的销售量与广告投放效果之间的关系。
……

这些都可以用简单相关系数来进行分析,应用场景非常广泛。

别看它叫“简单”相关系数,但来头可一点也不小,发明者是英国数学家,数理统计学的创立者卡尔·皮尔逊(Karl Pearson。1857~1936),

他被誉为现代统计科学的创立者,代表作品是《科学入门》,而且这位大神不光有着牛逼的头脑,还有着英俊的外表,赶紧膜拜一下~


什么是皮尔逊相关值

那么什么是皮尔逊相关值呢?

皮尔逊相关值是相关分析的一种,简单来说,就是比较两组数据之间的是否具有强烈的关联性,如果数据A在增大的同时,数据B也在增大,那么数据A和数据B增大的比例关系,就可以用皮尔逊相关值来表示,他的公式为:


如果你看不懂这个复杂的公式也不要紧,只需要知道,皮尔逊相关系数的结果总是落在-1和1之间就可以了。
结果为正数时表示两个变量成正相关,即一个变量增大时另一个变量也增大,比如气温越高,冷饮的销量就越多,这是正相关关系;
结果为负数时两个变量呈负相关,即一个变量增大时另一个变量减小,例如海拔越高时,空气中的氧气含量就越少。
如果为0,则表示两个变量不为线性关系,有可能两者不相关,但也有可能两者有更加复杂的关系。

相关性的强弱大致可以按照如下分布来进行判定:
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

那么,我们要如何计算皮尔逊相关值呢?如果你的数据只有很少的一部分,或者身为学霸的你想深刻的了解公式的原理,可以用手工套用公式进行计算。
但如果数据量很大,或者刚刚开始接触数据挖掘的初学者,你可以选择更加简便的方式,一分钟快速算结果。

如何用SPSS计算皮尔逊相关值

我们可以使用IBM公司的专业数据分析工具SPSS来快速进行相关值计算,这里我用的是MAC版本的SPSS V23。

接下来我们举一个简单的例子,以某班级学生的考试成绩与平时做题量来分析,讲解一下SPSS计算皮尔逊相关值的操作,看看这两者之间的相关系数有多少。

1、首先,打开SPSS,在列表中的竖排输入需要计算相关性的变量。


2、在功能菜单中选择“分析”-“相关”-“双变量”


3、把变量从左边勾选到右边的窗口中,相关系数选择“皮尔逊”


4、点击确定就可以看到结果了,这里我们可以看到相关性为0.93,属于极强相关,看来题海战术还是有一定作用的。


5、如果要绘制图表的话,可以直接点击“图形”-“旧对话框”-“散点图”,再在弹出的对话框中选择“简单散点图”即可,因为我们的数据只有两个,所以二维的简单散点图非常适合。



6、点击“定义”之后,会弹出设置X和Y坐标的页面,我们把考试成绩作为Y轴,做题量作为X轴来进行显示,点击确定。


7、然后,SPSS就会自动生成散点图,你可以在这个窗口点击导出,把分析结果作为你的PPT内容的一部分。


使用皮尔逊相关值需要注意的点

任何工具都不是万能钥匙,无法解决所有的情况,皮尔逊相关值也是如此,在使用过程中,需要注意以下几点:

1、皮尔逊的结果只能说两者有相关关系,但不一定是因果关系
举例来说,哥哥和弟弟的身高有着近似的关系,哥哥的身高很高,那么弟弟的身高很高的可能性也很大,这两者用皮尔逊来计算会产生很高的相关性。
但并不意味着弟弟身材高大是因为哥哥,而是二者有着共同的父母,是父母的基因决定了哥哥和弟弟的身高。

2、皮尔逊相关值不适合数据量非常小的计算
假设我们想要计算的样本数据只有一例,那么很有可能得到不准确的结论,也就是说公式的分子和分母必须不为零,相关系数才有意义。

3、皮尔逊相关值不能计算所有的变量都一致的数据
道理和上面的一样,因为标准差需要大量不同的数据取取值,算出相关性,如果数据值一样就无法进行计算了。

皮尔逊相关值的应用场景举例

1、互联网领域应用——产品推荐算法

假设现在有3个用户对123三种产品的喜好程度,分别用-5~5来表示,最低为-5,最高为5,我们用皮尔逊计算三个用户之间的相似性。


计算之后得到如下结果


可以看出,用户1与用户2之间存在着显著相关的特点,即用户1喜欢的东西,用户2喜欢的可能性也很大,而用户1与用户3则完全是截然相反的类型,对产品的喜好完全不同。

那么,当你上架了一个新的商品时,用户1很快就购买并给出了4分的评价,而用户2和用户3都还没看到新上架的商品,这时候你知道应该把这个产品推荐给谁更有可能促成销售了吧。

2、金融领域应用——外汇货币对相关性分析

假设我们需要查看美元指数与欧元、英镑、日元之间在过去三个星期时间内的走势关联性,以此来作出买卖外汇的交易决策,就可以使用皮尔逊相关值进行分析。

输入过去15天内的价格涨跌幅


通过SPSS进行分析之后得到如下结论:


欧元与美元指数呈强烈的负相关关系,当美元指数涨时,欧元兑美元会下跌,反之亦然,而且可以看出涨的幅度与跌的幅度相近。也就是说,当美元指数下跌时,就可以买入欧元获利。

英镑与美元指数的关系为强负相关,英镑的走势与美元指数的涨跌也有一定的关联,但并不如欧元那么强烈。

日元与美元指数为中等程度的正相关,而与英镑的价格走势关系为0.99,几乎没有关联性。

最后说几句

皮尔逊相关值的应用场景远远不止这些,大家尽可以脑洞大开,把看似不想关的数据关联起来,查看关联性是否足够强。

比如,是时候搞清楚这个问题了,吃木瓜与丰胸之间到底有没有关联性,我们分析统计妹纸吃木瓜的数量与cup大小之间的关联性,如果真的是强关联的话,就可以嘿嘿嘿✧(≖ ◡ ≖)~

好了,今天的分享就到这里,想知道具体的数据结果吗?

赶紧点击关注啊!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容

  • 概述及标签体系搭建 1 概述 随着信息技术的迅速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,愈发带来很大...
    JinkeyAI阅读 22,751评论 10 241
  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 9,486评论 1 58
  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,869评论 6 13
  • 我追赶着这无边的夜晚 我追赶着他,我冲他呼唤 我追赶着杀死阳光的凶手 我追赶着万物停滞的根源 我被他含在梦里,但我...
    季梦VC_ETG阅读 430评论 1 8
  • 众所周知,在UI系统中进行一些耗时操作,都会导致卡顿现象,因为一次刷新在16ms,如果当次操作过了这个时间,那么用...
    草丛伦阅读 2,354评论 1 10