统计学方法:相关性分析实战

相关分析是分析两个变量间相互关系的分析方法,一般用在数据分析比较靠前的探索性数据分析阶段。

相关关系根据其分析方法和处理对象不同,可以分为简单相关分析、偏相关分析和非参数相关分析等。本文小编只讨论简单相关分析。
  
简单相关关系主要分析两个变量之间的相互依存的关系,可以通过主观观测和客观测度指标来衡量。主观观测指标之间的相关关系,主要是通过两个变量之间散点图的手段进行。客观测度主要是通过统计分析的方法,计算相关系数,利用相关关系数值的符号和大小来判定相关关系的方向和强弱。

在进行相关分析之前我们一般会用散点图的形式,观察两个变量是否存在着相关关系,也就是看散点图中点的分布是否趋近于某条直线。
本节我们讨论下人们的衣着与文教娱乐之间是否存在着相关关系。

理论

相关系数介绍

pearson correlation coefficient(皮尔逊相关性系数)

常用的相关系数求法,采用协方差cov(X,Y)/标准差的乘积(σX, σY)。

数据要求: 适用连续型数据。线性数据、连续且符合正态分布;数据间差异不能太大;变量准差不能为0,即两变量中任何一个值不能都是相同。

spearman correlation coefficient(斯皮尔曼秩相关性系数)

根据原始数据的排序位置进行计算。

数据要求:适用分析顺序型数据。用于解决称名数据和顺序数据相关的问题,适用于两列变量,而且具有等级变量性质具有线性关系的数据,能够很好处理序列中相同值和异常值。

kendall correlation coefficient(肯德尔相关性系数)

等级相关系数,适用于两个变量均为有序分类的情况

数据要求:适用类别型数据。肯德尔相关性系数,它也是一种秩相关系数,不过它所计算的对象是分类变量。

所以针对【连续、正态分布、线性】数据,采用pearson相关系数;针对【非线性的、非正态】数据,采用spearman相关系数;针对【分类变量、无序】数据,采用Kendall相关系数。一般来讲,线性数据采用pearson,否则选择spearman,如果是分类的则用kendall。

相关系数计算


其中r ∈ [ − 1 , 1 ]。为1则说明完全正相关,为-1则说明完全负相关,为0则说明完全不相关。

预分析

一般在进行相关分析之前使用散点图来进行主观观测。

sns.scatterplot(data_pca['衣着'], data_pca['文教娱乐'])

从图中我们可以知道衣着和文教娱乐存在着比较显著的正相关关系,那接下来我们分别使用SPASS工具和Python编程的两种方进行探讨。

Spass实战

  1. 依次分析 -> 相关 -> 双变量
  2. 依次将分析的两个变量”衣着“和“文教娱乐"两个变量选进变量框中,选择皮尔逊系数,选择双尾显著性检验
  3. 得到最终表,显著性主要看Sig值,查看皮尔逊系数查看相关关系。

如果sig值小于0.05我们拒绝原假设(两个变量不相关),认为两个变量相关。
进一步的查看皮尔逊系数,月接近1,说明相关性程度越大。

Python实战

注意:相关性系数在统计学中相当重要,不同的工具如Pandas, Scipy, numpy都对其进行了实现。

# 三种方式的显著性检验pearsonr,spearmanr,kendalltau。
# 显著性小于0.05.说明两个变量相关具有统计学支持基础。
# 返回的值是correlation, p_value
print(scipy.stats.pearsonr(data_pca['衣着'],data_pca['文教娱乐']))

# 方差齐性检验,如果不满足方差齐则不能使用皮尔逊系数。小于0.05,满足方差齐性。
print(scipy.stats.levene(data_pca['衣着'],data_pca['文教娱乐']))

# 计算两变量的相关系数
print(np.corrcoef(data_pca['衣着'],data_pca['文教娱乐']))
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容