差异代谢物分析
差异代谢物分析包括多元统计分析和单维统计分析,其中多元统计能捕捉到具有相互关联的差异性变量有利于代谢调控网络研究;单维的统计能独立分析单个变量的统计学意义,在数据分析中起到验证和补充的作用;因此代谢组学中使用多元统计和单维统计同时筛选到的差异变量应该是最重要和最值得关注的差异代谢物。
主成分分析(PCA)
主成分分析是一种无监督的多元统计分析方法,能从总体上反应各组样本之间的总体差异和组内样本之间的变异度大小。基本原理是利用数学的方法,将原来变量重新组合成新的互相无关的几个综合变量(即主成分),对所有因素按重要性排序,通常靠后的微小因素被忽略掉,通过降维,从而起到简化数据的作用。实际项目中,我们可以通过PCA找出离群样品、判别相似性高的样品簇等。
在模型计算时,首先找到一条直线使所有样品距离该直线的残差平方和最小,而投影在此数轴方向的矢量平方和最大,那么该直线方向也就体现了样品间最大差异,由此得到第一个主成分(PC1);在此基础上,沿着与前一个主成分直线垂直方向找到其次差异最显著的直线,得到第二个主成分(PC2),如此反复。判别PCA模型质量好坏的主要参数为R2X,该值代表降维后的数据对原始数据的解释率,该值越接近1越理想,一般认为R2X大于0.5说明模型效果较好。
偏最小二乘判别分析(PLS-DA)
PLS-DA(Partial Least Squares Discriminant Analysis)是基于经典的偏最小二乘回归模型的判别分析方法,其响应变量是一组反应统计单元间类别关系的分类信息,是一种有监督的判别分析方法,经常用来处理分类和判别问题。通过对主成分适当的旋转,PLS-DA可以有效的对组间观察值进行区分,并且能够找到导致组间区别的影响变量。PLS-DA作为一种有监督的分析方法,在分析时必须对样品进行指定并分组,这样分组后模型将自动加上一个隐含的数据集Y,这种模型计算的方法强行把各组分门别类,有利于发现不同组间的异同点。
对于组间差异不够明显的样品,采用PCA方法常常无法区分样品的组间差异,这种情况下采用PLS-DA模型可能更加有效。
正交偏最小二乘判别分析(OPLS-DA)
OPLS-DA(Orthogonal Partial Least Squares Discriminant Analysis)是PLS-DA的衍生算法,与PLS-DA相比,OPLS-DA是结合了正交信号矫正(OSC)和PLS-DA两个方法,能够将X矩阵信息分解成与Y相关和不相关的两类信息,通过去除不相关的差异,相关的信息就集中表现在第一个预测成分(predictive component)。
与PLS相比,OPLS的观测变量矩阵X中与预测变量矩阵Y中无关联的“噪音”变量会被滤除/忽略,即除去X数据变量中与Y变量无关或正交的变异因素。OPLS-DA根据数据表Y的差异将数据表X的差异分为两个部分,第一部分代表与Y相关的差异,第二部分代表与Y不相关(正交垂直)的差异,OPLS-DA可将这两部分差异进行区分。通过这种方式,OPLS-DA可以更好地区分组间差异,提高模型的有效性和解析能力。
模型质量评价
主成分个数的确定
R2X是用来评价PCA 模型对X变量差异的解释率。随着主成分的增加,R2X 值累加值也会增加,但是当主成分增加到一定的程度时,也就是累计解释率达到某一个阈值(0.5)时,主成分个数将不再增加。R2Y和Q2Y分别用来评价PLS和OPLS模型的建模能力和预测能力。随着建模主成分的增加,Q2值累加值也会增加,但是当主成分增加到一定的程度时,Q2值出现平台或开始下降,例如,当增加到第六个主成分时,建模的Q2开始下降,那么应该选择前5个主成分作为最终的建模所需数目。
七次循环交互验证(****7-fold cross validation****)
每次建立PLS-DA或OPLS-DA模型时,首先排除1/7的样本建模,然后利用建立的模型对这部分样本进行预测,一直循环到所有样本都排除过一次为止,最后建立的模型是综合建立的所有模型的结果。 模型的评价参数是R2X,R2Y和Q2,其中R2X 和R2Y分别表示对X矩阵和Y矩阵的解释率,Q2是通过交叉验证计算得出,表示模型的预测能力。这三个指标越接近于1,表示模型越稳定可靠。
置换检验(****response permutation testing****)
RPT一种用来评价PLS和OPLS模型准确性的随机排序方法,用来标识监督性学习方法获得分类不是偶然的。该方法固定X矩阵,将先前定义的分类Y矩阵的变量进行随机排列n次(一般100~1000次),每次排列组合后,构建新的PLS或OPLS模型,计算相应的模型累积的R2Y和Q2值。将原始分类的Y矩阵、n次不同排列的Y矩阵与R2Y、Q2进行线性回归,得到的回归直线与y轴的截距值作为衡量模型是否过拟合的标准。通常R2截距值应明显小于模型变量解释度,并小于0.3(越接近0越好),Q2截距值应明显小于模型变量预测度,并小于0.05。
差异显著性检验方法
1.多组比较
(1)单因素方差分析(One-way ANOVA),它适用于只研究一个试验因素的情况,目的在于正确判断该试验因素各处理的相对效果;用于检验多组样本的均值是否相同,比较物种、功能或基因在3组或3组以上样本组中的分布是否存在显著性差异,然后对有差异的物种、功能或基因进行post-hoc检验,找出多组中存在差异的样本组。
(2)post-hoc检验是指在进行多组检验之后进行的进一步检验,对有差异的多组的组别再进行两两比较,检测多组中存在差异的样本组,其检验方法包括“Games-Howell”,“Scheffe”,“Tukey-Kramer”,“Welch's (uncorrected)”,两两比较的显著性水平分别为:0.90、0.95、0.98、0.99、0.999。
Gameshowell
Gameshowell即成对比较检验。当方差和样本容量不相等时,适合使用此检验。当方差不相等且样本容量较小时,Tukey-Kramer法更合适。
Scheffe
各个水平试验次数不尽相同时可用scheffe法,简称S法。
Scheffe(最常用,不需要样本数目相同)为均值的所有可能的成对组合执行并发的联合成对比较。使用F取样分布。可用来检查组均值的所有可能的线性组合,而非仅限于成对组合。
Scheffe的应用指征:(1)各组样本数相等或不等均可以,但是以各组样本数不相等使用较多;(2)如果比较的次数明显地大于均数的个数时,Scheffe法的检验功效可能优于Bonferroni法和Sidak法。
Tukey-kramer (也称为Tukey法)
Tukey(最常用,需要样本数目相同)使用学生化的范围统计量进行组间所有成对比较,将试验误差率设置为所有成对比较的集合的误差率。
Tukey(1952,1953)以学生化极差为理论根据,提出了专门用于两两比较的检验(有时也称最大显著差检验)。当各组样本含量相等时,此检验控制MEER(最大试验误差率);当样本含量不等时,Tukey(1953)和Kramer(1956)分别独立地提出修正的方法。对Tukey- Kramer法控制MEER没有一般的证明,但Dunnett(1980)用蒙特卡洛法研究发现此法非常好。
Welch's (uncorrected)
(1)两组比较的样本的总体方差不相等的情况下,使用welch检验,计算统计量t。
(2)Kruskal-Wallis秩和检验,它是一种将两个独立样本的Wilcoxon秩和检验推广到多组(大于等于3)独立样本非参数检验的方法,该分析可以对多组样本的物种/功能进行显著性差异分析。
(3)多重检验校正,对P值进行多重检验校正的方法,包括:“holm”,“hochberg”, “hommel”, “bonferroni”,“BH”,“BY”,“fdr”,“none”。“none”即不校正,默认为“fdr”。
Bonferroni
通常把“至少有一个错误”的概率称为FWER(Family-Wise Error Rate)。
FWER = 1 - (1-α) m
假设我们做m个相互独立的检验,我们的目标是:FWER = 1- (1- α)m =0.05。
由于当α很小时,存在这一的近似关系 (1-α)m ≈ 1-mα,因此
1-(1-α)m = mα = 0.05,即α=0.05/m。
也就是说每一个检验的显著水平不再是0.05了,而应该是0.05/m。对于每一个检验的P值,有P<α=0.05/m,我们才能拒绝H0;
这样我们就校正了显著水平,当然我们也可以让α保持不变,去校正P值:P*m<α=0.05,我们才能拒绝H0;
也就是说,每一个检验做出来的P值,我们都要乘以m,叫做校正后的P值,然后去和0.05进行比较。
Fdr
一共有m个检验,其中最终选择接受原假设的有W个,拒绝的有R个,在拒绝的R个中,有V个是错误拒绝的,有S个是正确拒绝的。fdr(Falsely Discovery Rate)的定义为:
fdr = E(V/R)。
fdr也就是错误拒绝的检验个数占所有拒绝的检验个数的比,它只关注所有拒绝掉的检验中,错误拒绝的比例,fdr的目的就是要将这个比例降低到α。
原理:首先,对m个P值按从小到大的顺序进行排序,从P(1)开始,到P(2)、P(3) ...,挨个进行比较,直到找到最大的P(i)满足:
找到之后,拒绝之前所有的原假设H(i),i=1,2,3...i。
至此,完成fdr的校正。或者,保持α不变,将P值校正为mP(i)/i,这个值又称为Q值: Q-value(i) = m × P(i)/i < α。
分析软件:R的stats包和Python的scipy包。
2.两组比较
(1)Student's T检验(方差相等),在两组样本方差相等时可选择该检验。可用于检验两组样本的均值是否相同,通过此分析可以比较物种/功能在两组样本组中的分布是否存在显著性差异,并对P值进行多种方法的校正。
(2)Welch's T检验(方差不等),在两组样本方差不相等时可选择该检验。可用于检验两组样本的均值是否相同,通过此分析可以比较物种/功能在两组样本组中的分布是否存在显著性差异,并对P值进行多种方法的校正。
(3)Wilcoxon秩和检验,也叫曼-惠特尼U检验(Mann–Whitney U test),是两组独立样本非参数检验的一种方法。其原假设为两组独立样本来自的两总体分布无显著差异,通过对两组样本平均秩的研究来实现判断两总体的分布是否存在差异,该分析可以对两组样本的物种/功能进行显著性差异分析,并对P值进行多种方法的校正。
(4)Wilcoxon符号秩检验,主要用于两组配对样本的非参数检验,推断两组相关样本所来自的两个总体的中位数是否相等。其原假设为两组配对样本差值的中位值为0,通过对等级差值的绝对值从小到大编秩,根据差值标上正负符号,分别求正负秩次之和,进行假设检验, 从而判断两组总体的分布是否存在差异。该分析可以对两组样品的物种/功能进行显著性差异分析,并对P值进行多种方法的校正。
(5)多重检验校正,对P值进行多重检验校正的方法,包括:“holm”,“hochberg”, “hommel”, “bonferroni”,“BH”,“BY”,“fdr”,“none”。“none”即不校正,默认为“fdr”。
(6)单双尾检验,用于指定所求置信区间的类型,可选择双尾检验(求置信区间),左尾检验(求置信上限)和右尾检验(求置信下限)。
(7)CI计算方法,即计算置信区间的方法,包括“bootstrap”,“Student's inverted”和“Welch's inverted”,置信度可选择:0.90,0.95,0.98,0.99,0.999。
bootstrap算法对应Wilcoxon秩和检验和Wilcoxon符号秩检验。
Student's inverted对应Student's T检验。
Welch's inverted对应Welch's T检验。
分析软件:R的stats包和Python的scipy包。
3.两样本比较
(1)卡方检验,对两个样本间的物种/功能的丰度差异进行比较,通过此分析可获得物种/功能在两个对比样本中的差异显著性。适用条件:两个样本容量都大于20。
(2) Fisher's 精确检验,对两个样本间的物种/功能的丰度差异进行比较,通过此分析可获得物种/功能在两个对比样本中的差异显著性。适用条件:两个样本容量小于等于20。
(3)单双尾检验,单双尾检验,用于指定所求置信区间的类型,可选择双尾检验(求置信区间),左尾检验(求置信上限)和右尾检验(求置信下限)。
(4)多重检验校正,对P值进行多重检验校正的方法,包括:“holm”,“hochberg”, “hommel”, “bonferroni”,“BH”,“BY”,“fdr”,“none”。“none”即不校正,默认为“fdr”。
(5)CI计算方法,即计算置信区间的方法,方法包括:“Diff Between Prop Asymptotic CC”,“Diff Between Prop Asymptotic”,“Newcombe Wilson”。置信度可选择:0.90,0.95,0.98,0.99,0.999。
Diff Between Prop Asymptotic:即DP: Asymptotic,标准大样本法。
Diff Between Prop Asymptotic CC:即DP: Asymptotic with CC,基于连续校正的标准大样本法解释分布的近似离散性。
Newcombe Wilson:即DP: Newcombe-Wilson,该方法为Newcombe对比7种渐近方法后的推荐方法。
分析软件:R的stats包和Python的scipy包。