数据分析知识图谱- part1

在日常分析中，常会遇到不知道选择什么分析方法的尴尬情况出现，尤其是在面对几种相似的方法，不知道它们之间有什么差别，一念之差就会选错方法。相信这样的小盲点，依然困扰着不少人。

因此，SPSSAU整理了一份相似方法的对比目录，可以一目了然地比较出方法间的差异。由于方法较多，将分几部分整理出来。

1. 基本描述统计

基本描述统计-SPSSAU

频数分析是用于分析定类数据的选择频数和百分比分布。

描述分析用于描述定量数据的集中趋势、波动程度和分布形状。如要计算数据的平均值、中位数等，可使用描述分析。

分类汇总用于交叉研究，展示两个或更多变量的交叉信息，可将不同组别下的数据进行汇总统计。

2. 信度分析

信度分析的方法主要有以下三种：Cronbach α信度系数法、折半信度法、重测信度法。

Cronbach α信度系数法为最常使用的方法，即通过Cronbach α信度系数测量测验或量表的信度是否达标。

折半信度是将所有量表题项分为两半，计算两部分各自的信度以及相关系数，进而估计整个量表的信度的测量方法。可在信度分析中选择使用折半系数或是Cronbach α系数。

重测信度是指同一批样本，在不同时间点做了两次相同的问题，然后计算两次回答的相关系数，通过相关系数去研究信度水平。

3. 效度分析

效度有很多种，可分为四种类型：内容效度、结构效度、区分效度、聚合效度。具体区别如下表所示：

4. 差异关系研究

T检验可分析X为定类数据，Y为定量数据之间的关系情况，针对T检验，X只能为2个类别。

当组别多于2组，且数据类型为X为定类数据，Y为定量数据，可使用方差分析。

如果要分析定类数据和定类数据之间的关系情况，可使用交叉卡方分析

如果研究定类数据与定量数据关系情况，且数据不正态或者方差不齐时，可使用非参数检验。

5. 影响关系研究

相关分析用于研究定量数据之间的关系情况，可以分析包括是否有关系,以及关系紧密程度等。分析时可以不区分XY，但分析数据均要为定量数据。

回归分析通常指的是线性回归分析，一般可在相关分析后进行，用于研究影响关系情况，其中X通常为定量数据（也可以是定类数据，需要设置成哑变量），Y一定为定量数据。

回归分析通常分析Y只有一个，如果想研究多个自变量与多个因变量的影响关系情况，可选择路径分析。

6. 相关分析汇总

相关分析用于研究X和Y的关系情况，X、Y都为定量数据。

（1）简单相关分析是分析对两个变量之间的相关关系。

（2）当两个变量都与第三个变量相关时，为了消除第三个变量的影响，值关注这两个变量之间的关系情况，此时可使用偏相关分析。

（3）如果是研究两组变量之间的整体相关性，可用典型相关分析。

7. 线性回归汇总

线性回归用于研究X对于Y的影响，前提是因变量Y为定量数据。

如果X很多时，可使用逐步回归自动找出有影响的X；

如果需要研究多个线性回归的层叠变化情况，此时可使用分层回归；

如果数据中有异常值，可使用Robust回归进行研究。

8. Logistic回归汇总

Logistic回归用于研究X对于Y的影响，因变量Y一定为定类数据。

如果Y有两个选项时，可使用二元Logit回归。

如果Y的选项大于2个时，可使用多分类Logit回归。

如果Y为定类数据，且选项有顺序大小之分时，可使用有序Logit回归。

9. T检验汇总

T检验用于分析定类数据与定量数据之间的关系情况，且X的组别只限于为两组。

如果是对比单个变量与某个数字的差异，可用单样本T检验。

如果是对比两个变量之间（X定类，Y定量）的差异关系，可用独立样本T检验。

如果两个变量是配对数据，比如对一个群体用同一个工具前后测量了两次，可用配对T检验分析。

10. 方差分析汇总

方差分析用于分析定类数据与定量数据之间的关系情况，可分析两组或两组以上的变量差异。

如果X为一个，则使用单因素方差分析，即通用方法里的方差。

如果X的个数为2个，可使用双因素方差分析。

当X个数超过2个，可使用多因素方差分析。通常双因素方差分析与多因素方差分析多用于实验研究中。

事后检验是基于方差分析基础上进行，如果X的组别超过两组，可用事后检验进一步分析两两组别之间的差异。

如果研究中有干扰因素（控制变量），可使用协方差分析。

11. 多选题研究

多选题分析可分为四种类型包括：多选题、单选-多选、多选-单选、多选-多选。

“多选题分析”是针对单个多选题的分析方法，可分析多选题各项的选择比例情况

“单选-多选”是针对X为单选，Y为多选的情况使用的方法，可分析单选和多选题的关系。

“多选-单选”是针对X为多选，Y为单选的情况使用的方法。

“多选-多选”是针对X为多选，Y为多选的情况使用的方法。

12. 聚类分析

聚类分析以多个研究标题作为基准，对样本对象进行分类。

如果是按样本聚类，则使用SPSSAU的进阶方法模块中的“聚类”功能，系统会自动识别出应该使用K-means聚类算法还是K-prototype聚类算法。

如果是按变量（标题）聚类，此时应该使用分层聚类，并且结合聚类树状图进行综合判定分析。

13. 权重研究

权重研究是用于分析各因素或指标在综合体系中的重要程度，最终构建出权重体系。权重研究有多种方法包括：因子分析、熵值法、AHP层次分析法、TOPSIS、模糊综合评价、灰色关联等。

因子分析：因子分析可将多个题项浓缩成几个概括性指标（因子），然后对新生成的各概括性指标计算权重。

熵值法：熵值法是利用熵值携带的信息计算每个指标的权重，通常可配合因子分析或主成分分析得到一级权重，利用熵值法计算二级权重。

AHP层次分析法：AHP层次分析法是一种主观加客观赋值的计算权重的方法。先通过专家打分构造判断矩阵，然后量化计算每个指标的权重。

TOPSIS法：TOPSIS权重法是一种评价多个样本综合排名的方法，用于比较样本的排名。

模糊综合评价：是通过各指标的评价和权重对评价对象得出一个综合性评价。

灰色关联：灰色关联是一种评价多个指标综合排名的方法，用于判断指标排名。

14. 非参数检验

非参数检验用于研究定类数据与定量数据之间的关系情况。如果数据不满足正态性或方差不齐，可用非参数检验。

单样本Wilcoxon检验用于检验数据是否与某数字有明显的区别。

如果X的组别为两组，则使用MannWhitney统计量，如果组别超过两组，则应该使用Kruskal-Wallis统计量结果，SPSSAU可自动选择。

如果是配对数据，则使用配对样本Wilcoxon检验

如果要研究多个关联样本的差异情况，可以用多样本Friedman检验。

如果是研究定类数据与定量（等级）数据之间的差异性，还可以使用Ridit分析。

15. 数据分布

判断数据分布是选择正确分析方法的重要前提。

正态性：很多分析方法的使用前提都是要求数据服从正态性，比如线性回归分析、相关分析、方差分析等，可通过正态图、P-P/Q-Q图、正态性检验查看数据正态性。

随机性：游程检验是一种非参数性统计假设的检验方法，可用于分析数据是否为随机。

方差齐性：方差齐检验用于分析不同定类数据组别对定量数据时的波动情况是否一致，即方差齐性。方差齐是方差分析的前提，如果不满足则不能使用方差分析。

Poisson分布：如果要判断数据是否满足Poisson分布，可通过Poisson检验判断或者通过特征进行判断是否基本符合Poisson分布（三个特征即：平稳性、独立性和普通性）

卡方拟合优度检验：卡方拟合优度检验是一种非参数检验方法，其用于研究实际比例情况，是否与预期比例表现一致，但只针对于类别数据。

单样本T检验：单样本T检验用于分析定量数据是否与某个数字有着显著的差异性。

16. 模型研究方法

当需要研究多个变量之间的关系情况时，通常可构建统计模型用于分析及预测。

如果研究一个X或多个X对Y的影响关系，其中Y为定量数据，可使用线性回归分析，构建回归模型。

如果研究一个X或多个X对Y的影响关系，其中Y为定类数据，可使用Logistic分析，构建Logistic回归模型。

如果要分析1组X与一组Y之间的关系情况，可使用典型相关分析。

如果要分析多个X与多个Y之间的影响关系情况，且样本量较小（通常小于200），可使用PLS回归分析。

如需分析多个X对多个Y的影响关系，以及具体哪些X对哪些Y有影响如何影响，可使用路径分析。

还有一种方法称为结构方程模型，包含测量模型和结构模型。如果需要测量模型和结构模型，可使用结构方程模型。

17. 信息浓缩方法

当研究中包括有很多题目或很多变量时，可通过信息浓缩的方法，把数据浓缩成一个或多个变量，以便用于后续的分析。

主成分分析和因子分析都是信息浓缩的方法，即将多个分析项信息浓缩成几个概括性指标。如果希望进行将指标命名，SPSSAU建议使用因子分析。原因在于因子分析在主成分基础上，多出一项旋转功能，该旋转目的即在于命名。

平均值和求和也是信息浓缩的常用方法，比如要将多个题项合并成一个变量，可通过求平均值概括成一个题项。当数据不满足正态，存在极端值时，可用中位数代替平均值。

18. 一致性研究方法

一致性检验的目的在于比较不同方法得到的结果是否具有一致性。检验一致性的方法有很多比如：Kappa检验、ICC组内相关系数、Kendall W协调系数等。

Kappa系数检验，适用于两次数据（方法）之间比较一致性，比如两位医生的诊断是否一致，两位裁判的评分标准是否一致等。

ICC组内相关系数检验，用于分析多次数据的一致性情况，功能上与Kappa系数基本一致。ICC分析定量或定类数据均可；但是Kappa一致性系数通常要求数据是定类数据。

Kendall W协调系数，是分析多个数据之间关联性的方法，适用于定量数据，尤其是定序等级数据。

19. 配对数据研究方法

配对研究是一种医学上常见的研究设计，常见于单组样本前后对比研究，或者将样本分为实验组和对比组两组，针对干预措施进行研究。

如果配对样本数据为定量数据时，可使用配对样本T检验。

如果配对样本数据为定量数据，但配对样本的差值不符合正态分布，则考虑使用配对Wilcoxon检验

如果数据为定类数据，则使用配对卡方检验。

20. 多元统计研究

判别分析：用于在分类确定前提下，根据数据的特征来判断新的未知属于哪个类别。

对应分析：用于分析定类数据的分类情况，并结合图形展示。

曲线分析：如果想要研究X对Y的影响关系，且X和Y不满足线性关系（可通过散点图观察），而呈现出曲线关系，建议根据曲线拟合图结果，选择拟合程度较好的曲线进行曲线回归分析。

更多干货内容可登录SPSSAU官网查看

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345