看到很多数据分析书籍里面谈及到主成分分析和因子分析,我们常常会发现两种分析方法有很多相似的地方,然而,两种方法却截然不同,在网上看到了一篇文章将两种方法的区别介绍的很清楚,原文链接:
1. 主成分分析方法:
主成分分析主要是通过创建原始变量的线性组合,从而创建若干个新的变量代替原始变量。这里所说的若干个新的变量成为主成分。
下图即展示了主成分分析方法的概念,将四个变量Y1,Y2,Y3,Y4按照W1,W2,W3,W4的权重组成了主成分C。哪个Y的W越大,说明这个Y对于C的影响或者说重要性更大。用数学公式来表示:C = w1(Y1) + w2(Y2) + w3(Y3) + w4(Y4)
2. 因子分析法
因子分析分析方法更是为了找到各个变量背后的隐含力量(latent variable)。隐含力量这样的说法听起来比较抽象,也许可以将一些难以用数值衡量的因素理解为隐含力量,例如智商,社会性焦虑,土壤肥沃程度等等。进一步拿社会性焦虑来举例,我们可以通过一系列的变量来衡量这个指标,例如我们可以在问卷内容上设计一些问题:在人群之中,我感觉不是很舒适;和陌生人说话通常让我很紧张。有社会焦虑感很强的受众可能会给这些问题更高的打分。
下图展示中F代表了作用于Y1,Y2,Y3,Y4的隐含力量F,F对于Y的作用力度用b来表示,F对于变量不能解释的部分则用U来表示。写成数学公式如下:
Y1 = b1*F + u1
Y2 = b2*F + u2
Y3 = b3*F + u3
Y4 = b4*F + u4