因子分析定义是什么?因子分析法的特点有哪些?SPSS中因子分析的步骤是怎么样的?
因子分析定义
因子分析是研究从变量群中提取共性因子的统计技术,是将现实生活中多种相关和重叠的信息进行合作和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标的一种分析方法。通常是选出比原始变量个数少,能解释原来变量和综合指标的一种分析方法。
因子分析法的特点
1.因子变量的数量远少于原有的指标变量的数量,多音字变量的分析能减少分析中的计算工作量;
2.因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,它能反映原有变量大部分的信息;
3.因子变量之间不存在线性相关关系,对变量的分析比较方便;
4.因子变量具有命名解释性,即该变量是对某些原始变量信息的综合反映。
SPSS中的因子分析步骤
基本原理:
针对变量作因子分析,称为R型因子分析;对样本做因子分析,称为Q型因子分析。
基本步骤:
步骤1:确认待分析的原始变量之间是否存在较强的相关关系。可采用计算“相关系数矩阵”“巴特利特球度检验”“KMO检验”等方法检验候选数据是否适合采用因子分析。
“分析”——“降维”——“因子分析”——“描述”
因子分析——变量间相关性
步骤2:构造因子变量将原有变量综合成少数几个因子是因子分析的核心内容。根据样本数求解因子载荷阵,因子载荷阵的求解方法:“基于主成分模型的主成分分析法”“基于因子分析模型的主轴因子法”“极大似然法”“Alpha因子法”等。
“分析”——“降维”——“因子分析”——“抽取”
>need-to-insert-img
因子分析——因子载荷计算
步骤3:利用旋转方式使因子变量更具有解释性,将原有变量综合为少数几个因子后,如果因子的实际含义不清,则不利于后续分析。可通过因子旋转的方式使一个变量只在尽可能少的因子上有比较高的载荷,使得提取出的因子具有更好的解释性。
KMO检验用于检查变量间的相关性和偏相关性,取值在0~1之间。KMO统计量越接近于1,变量间的相关性越强,偏相关性越弱,因子分析的效果越好。实际分析中,KMO统计量在0.7以上时效果比较好;当KMO统计量在0.5以下,此时不适合应用因子分析法,应考虑重新设计变量结构或者采用其他统计分析方法。
如果变量间彼此独立,则无法从中提取公因子,也就无法应用因子分析法。Bartlett球形检验判断如果相关阵是单位阵,则各变量独立因子分析法无效。由SPSS检验结果显示Sig.<0.05(即p值<0.05)时,说明各变量间具有相关性,因子分析有效。
“分析”——“降维”——“因子分析”——“旋转”
因子分析—旋转
步骤4:计算因子变量得分。当因子确定后,便可计算各因子在每个样本的具体数值。以后的分析中就可以利用因子得分对样本进行分类或评价等研究,进而实现了降维和简化问题的目标。
“分析”——“降维”——“因子分析”——“得分”
>need-to-insert-img
因子分析—得分
分享一个网址,这上面讲的不错:SPSS在因子分析中的应用
因子分析适用条件:
(1)样本量不能太小,至少为变量数的5倍。
(2)各变量间应该具有相关性,如彼此独立,则无法提取公因子。通过Bartlett球形检验来判断。
(3)KMO检验:用于考察变量间的偏相关性,取值0~1之间;KMO统计量越接近1,变量间的偏相关性越强,因子分析效果越好。一般统计量在0.7以上为适应做因子分析。<0.5则不适宜做因子分析。
(4)因子分析中各公因子应该具有实际意义。
案列:对各省经济数据的进一步分析
在“描述”对话框中,选中“相关系数”选项组中的“KMO和Bartlett的球形度检验”复选框;在“抽取”对话框中,选中“输出”形式组中的“碎石图”复选框。
>need-to-insert-img
因子分析的相关性检验
>need-to-insert-img
碎石图
结果:
表1:KMO和巴特利特检验
>need-to-insert-img
可以看出显著性<0.05,拒绝各变量独立的假设,认为变量间具有较强的相关性。
表2:公因子方差
>need-to-insert-img
表示各变量中所含原始信息能被提取的公因子所表示的程度,即变量信息被提取的占比。
表3:总方差解释
>need-to-insert-img
>need-to-insert-img
碎石图
碎石图用于显示各因子的重要程度,横坐标是因子序号,纵轴表示特征根大小。坡度越斗,对应的特征根越大,作用越明显。一般选取特征根大于1的作为因子。
表4:成分矩阵表
>need-to-insert-img
为标化后的变量。
但上诉3个成分因子不能够很好的解释,成分因子的意义不明显,因而需要多因子进行旋转。
因子旋转
>need-to-insert-img
旋转
“旋转”对话框用来实现因子旋转功能,以便更好的解释提取的因子。
最常用的是:“方差最大正交旋转”,使各因子仍然保持正交的状态,但各因子的方差差异达到最大,即相对载荷平方和达到最大。
>need-to-insert-img
经“旋转”后,得到旋转成分矩阵。可以看出,第一公因子在GDP,工业总产值,固定资产投资,货物周转量有较大载荷系数,可定义为“总量因子”。第二公因子在职工平均工资和居民消费水平载荷系数较大,定义为“消费因子”;第三个公因子则在“居民消费价格指数”,商品价格指数上载荷系数较大,定义为“价格因子”。
因子的表达式
旋转成分矩阵中,因子结构表达式可以将各变量表示为公因子的线性形式。但我们需要公因子表达为各变量的线性形式。也称为得分因子函数。最常用的估计法为“回归法”。在“得分”复选框组中。
>need-to-insert-img
结果:
>need-to-insert-img
举例因子1的表达式:
SPSS在“保存为变量”的复选框中,会自动计算出各因子得分值为新变量。
保存公因子得分进行综合评价
3个因子分别从不同方面反映当地经济发展状况的总体水平,单独使用某一公因子很难做出综合评价,因此考虑按各公因子对应的方差贡献率比例为权数计算综合得分情况。
>need-to-insert-img
按照公式:
>need-to-insert-img
从而能计算出各地区的综合得分情况。并给出合理的解释。