【数据分析师必备】九大常用数据分析方法汇总（下）

五、相关分析

定义：

相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。

相关关系是一种非确定性的关系，例如，以X和Y分别记一个人的身高和体重，或分别记每公顷施肥量与每公顷小麦产量，则X与Y显然有关系，而又没有确切到可由其中的一个去精确地决定另一个的程度，这就是相关关系。

应用：

①确定现象之间有无相关关系以及相关关系的类型。对不熟悉的现象，则需收集变量之间大量的对应资料，用绘制相关图的方法做初步判断。从变量之间相互关系的方向看，变量之间有时存在着同增同减的同方向变动，是正相关关系;有时变量之间存在着一增一减的反方向变动，是负相关关系。从变量之间相关的表现形式看有直线关系和曲线相关，从相关关系涉及到的变量的个数看，有一元相关或简单相关关系和多元相关或复相关关系。

②判定现象之间相关关系的密切程度。通常是计算相关系数R及绝对值在0.8以上表明高度相关，必要时应对R进行显著性检验。

③拟合回归方程。如果现象间相关关系密切，就根据其关系的类型，建立数学模型用相应的数学表达式-----回归方程来反映这种数量关系，这就是回归分析。

④判断回归分析的可靠性。要用数理统计的方法对回归方程进行检验。只有通过检验的回归方程才能用于预测和控制。

⑤根据回归方程进行内插外推预测和控制。

图1 相关性分析图例

六、聚类分析

定义：聚类分析将个体或对象分类，使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。其目的在于使类内对象的同质性最大化和类与类间对象的异质性最大化。

聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、K-均值聚类法、模糊聚类法、有序样品聚类法、分解法、加入法、动态聚类法和有重叠聚类等。

应用：

①在商业上，聚类分析被用来发现不同的客户群，并且通过购买模式刻画不同的客户群的特征，常与用户画像相结合。聚类分析是细分市场的有效工具，同时也可用于研究消费者行为，寻找新的潜在市场、选择实验的市场，并作为多元分析的预处理。

②聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面，通过分组聚类出具有相似浏览行为的客户，并分析客户的共同特征，可以更好的帮助电子商务的用户了解自己的客户，向客户提供更合适的服务。

③ 在保险行业上，聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组，同时根据住宅类型，价值，地理位置来鉴定一个城市的房产分组。

④在生物上，聚类分析被用来动植物分类和对基因进行分类，获取对种群固有结构的认识。

图2 聚类分析谱系图示例

七、判别分析

定义：判别分析又称"分辨法"，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

其基本原理是按照一定的判别准则，建立一个或多个判别函数，用研究对象的大量资料确定判别函数中的待定系数，并计算判别指标。据此即可确定某一样本属于何类。

当得到一个新的样品数据，要确定该样品属于已知类型中哪一类，这类问题属于判别分析问题。

应用：

①给新用户打标签。在对已有用户分群归类的情况下，对于新进来的用户贴标签，便于后续对于新用户的运营。

②信息丢失。对于丢失的数据，可以依据整体的去判断填充。

②直接的信息得不到。

③预报。

图3 判别分析的逻辑步骤框图

八、因子分析

定义：因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性，一科成绩好的学生，往往其他各科成绩也比较好，从而推想是否存在某些潜在的共性因子，或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子，可减少变量的数目，还可检验变量间关系的假设。

应用：

①通过因子得分可以得出不同因子的重要性指标，而管理者则可根据这些指标的重要性来决定首先要解决的市场问题或产品问题。

②在对数据进行处理时，可对数据进行降维处理。

九、主成分分析

定义：主成分分析将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。其主要思想是降维，将n维特征映射到k维上（k<n），k维是全新的正交特征。这个k维特征称为主元，是重新构造出来的k维特征，而不是简单地从n维特征中去除其余n-k维特征。

主成分分析和因子分析的区别：

因子分析法与主成分分析法都属于因素分析法，都基于统计分析方法，但两者有较大的区别：主成分分析是通过坐标变换提取主成分，也就是将一组具有相关性的变量变换为一组独立的变量，将主成分表示为原始观察变量的线性组合；而因子分析法是要构造因子模型，将原始观察变量分解为因子的线性组合。通过对上述内容的学习，可以看出因子分析法和主成分分析法的主要区别为：

①主成分分析是将主要成分表示为原始观察变量的线性组合，而因子分析是将原始观察变量表示为新因子的线性组合，原始观察变量在两种情况下所处的位置不同。

②主成分分析中，新变量Z的坐标维数j(或主成分的维数)与原始变量维数相同，它只是将一组具有相关性的变量通过正交变换转换成一组维数相同的独立变量，再按总方差误差的允许值大小，来选定q个(q<p)主成分；而因子分析法是要构造一个模型，将问题的为数众多的变量减少为几个新因子，新因子变量数m小于原始变量数P，从而构造成一个结构简单的模型。可以认为，因子分析法是主成分分析法的发展。

应用：

①主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m＜p)，而低维的Y空间代替高维的x空间所损失的信息很少。即：使只有一个主成分Yl(即 m＝1)时，这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中，如果某个Xi的系数全部近似于零的话，就可以把这个Xi删除，这也是一种删除多余变量的方法。

②有时可通过因子负荷aij的结论，弄清X变量间的某些关系。

③多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形，多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而，经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，根据主成分的得分，画出n个样品在二维平面上的分布况，由图形可直观地看出各样品在主分量中的地位，进而还可以对样本进行分类处理，可以由图形发现远离大多数样本点的离群点。

④由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。

⑤用主成分分析筛选回归变量。回归变量的选择有着重的实际意义，为了使模型本身易于做结构分析、控制和预报，好从原始变量所构成的子集合中选择最佳变量，构成最佳变量集合。用主成分分析筛选变量，可以用较少的计算量来选择量，获得选择最佳变量子集合的效果。

欢迎前往关注数据宝典公众号，更多数据分析知识分享，以及案例总结分享~~

在数据分析道路上，学无止境，终身成长。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

【数据分析师必备】九大常用数据分析方法汇总（下）

五、相关分析

六、聚类分析

七、判别分析

八、因子分析

推荐阅读更多精彩内容