PCA分析、PCoA分析,NMDS分析,CCA分析,RDA分析
16S测序和宏基因组测序中常用,用降维的思路对主要成分进行排序
1、只使用物种组成的数据进行非限制性排序,包括:
PCA(principal components analysis)主成分分析
CA(correspondence analysis)对应分析
DCA(detrended correspondence analysis)去趋势对应分析
PCoA(principal coordinate analysis)主坐标分析
NMDS(non-metric multi-dimensinal scaling)非度量多维尺度分析
比较下PCA和PCoA:
PCA分析是基于原始的物种组成矩阵所做的排序分析,而PCoA分析则是基于由物种组成计算得到的距离矩阵得出的。
PCoA分析中,计算距离矩阵的方法有很多种,例如Euclidean、Bray-Curtis、Jaccard、(un)weighted Unifrac等。
2、限制性排序,包括:
CCA(canonical correspondence analysis)典型相关分析
RDA(redundancy analysis)冗余分析
CCA
典型相关分析是研究两组变量之间关系的一种多变量统计分析方法,它可以反映两组变量之间的相互依赖的线性关系。设两组变量用x1,x2…xp,及y1,y2….yq表示,采用类似主成分分析的做法,在每一组变量中选择若干个具有代表性的综合指标(变量的线性组合),通过研究两组的综合指标间的关系来反映两组变量之间的相关关系。基本原理是:首先在每组变量中找出变量的线性组合,使其具有最大相关性,如此继续下去,直到两组变量之间的相关性被提取完毕。
RDA
多元回归分析的直接扩展,用于多变量响应数据建模
RDA基于线性模型,CCA则是基于单峰模型。一般我们会选择CCA来做直接梯度分析。但是,如果CCA排序的效果不太好,就可以考虑换做用RDA分析。RDA或CCA选择原则:先用species-sample资料做DCA分析,看分析结果中Lengths of gradient 的第一轴的大小,如果大于4.0,就应选CCA;如果在3.0-4.0之间,选RDA和CCA均可;如果小于3.0, RDA的结果要好于CCA。结果呈现,每个因子是一条箭头,射线越长表示该因子影响越大。因子之间的夹角为锐角时表示呈正相关关系,钝角时呈负相关关系。
目前CCA要比RDA用得更普遍。一是因为大部分情况下,两者的分析结果并差别并不大。其实,CCA非线性模型其实可以容纳线性模型,线性关系可以算是非线性模型的特例。所有用RDA可以做的,CCA也可以做,只不过在如果梯度比较短的话RDA要精确一点。但是,如果是非线性关系,用线性的RDA来分析,那个准确度就大大打折扣了。因为,本来点就不在同一条直线上,现在非得用直线去拟合,肯定不合适。这也是为什么SD小于3也可以用CCA,但是SD大于4,就不能用RDA的原因。二是因为大家都用CCA,用得多了,文献多了,大家为了方便比较,所有更多的选择是CCA,RDA自然就越来越少了。