@(Dayueban)[靶向|非靶向|代谢组学数据分析]
导读
如今组学数据的产出量日益庞大。代谢组学数据也是如此,随着科技的创新和技术的变革,允许科研工作者们通过大样本数据去挖掘和解决人们关心的疾病和健康问题。然而大样本,大数据势必会对我们的分析手段提出挑战,因此,通过建立一套标准化,适合自己数据类型的分析方法显得尤为重要。那么在这里,我会花一段时间去重新回顾并总结我在代谢组学(血清样本)数据分析过程所用到的方法以及碰到的问题。
主要内容
那么在学习数据分析之前,我还是想和大家一起回顾一下什么叫代谢组学(Metabolomics)
和代谢组(Metabolome)
。
- 代谢组学,首先给出 维基百科 给出的解释:metabolomics is the "systematic study of the unique chemical fingerprints that specific cellular processes leave behind", the study of their small-molecule metabolite profiles.也就是说,代谢组学是一种研究手段。
- 代谢组:The metabolome represents the complete set of metabolites in a biological cell, tissue, organ or organism, which are the end products of cellular processes.而代谢组指的是通过一系列方法能检测到的所有的代谢物合集。
非靶向代谢组学
为什么非靶向代谢组学在生物学领域的位置越来越重要
在中心法则的指导下,基因组、转录组、蛋白组通常以信息流
的方式呈现,而代谢组被认为是新陈代谢的结果。但是,很多研究表明代谢物可以参与到生命有机体的生理学功能和稳态,比如:
- 氧化脂类(oxylipins),是一种被氧化的脂肪族代谢物,其生物活性包括与炎症反应和防卫系统相关;
- oncometabolites,因为新陈代谢改变而参与到肿瘤生成的一种代谢物;
- 有害代谢物,一类由酶错误或自发反应产生的化学反应性化合物,通常由损害控制系统调节;
- 微生物代谢物,由肠道菌群分泌并且可以影响宿主生理的一代代谢物;
- 最后,植物素,由植物产生并且对宿主代谢发挥多种生物学活性。
非靶向代谢组学技术基础
既然代谢组学是解密人体生理学基础的重要一环,那么它所用到的技术有哪些呢?
- 基于质谱(MS)的非靶向代谢组学使得代谢物的发现和分析化学的更新变得可能,信息学是阐明新的生理功能和生物学机制必不可少的工具。这里我们从非靶向代谢组学下机数据开始讲起,如下图所示:
质谱技术运用到的主要是液相色谱质谱联用和气相色谱质谱联用技术,根据分析的性质不同而定。那么非靶向代谢组学的测定平台主要是
ultra performance liquid chromatogram quadrupole-time of flight mass spectrometry(UPLC/q-TOFMS,超高效液相色谱四级杆飞行时间质谱)
或者two-dimensional gas chromatogram combined with time-of-flight mass spectrometry (GC * GC-TOFMS,全二维气相色谱飞行时间质谱)
以及linear ion trap quadrupole-Orbitrap-mass spectrometry(LTQ Orbitrap MS,线性离子肼四级杆轨道肼质谱)
-
通过上述仪器采集的原始质谱信号需要经过一系列的数据转换得到分析物的相对含量值表:具体为行名为样品名,列名为化合物保留时间/质荷比对,每个样品对应每个化合物的单元格则为该化合物在该样品的相对含量值。得到这个表的一系列步骤包括:
当然还有很多其它的软件也可以做这样的事情,比如MS-DIAL,MZmine,XCMS,OpenMS等软件,最终得到的表格如下图
数据前处理
这个小节的内容主要介绍得到化合物表后,正式统计分析前的数据前处理工作。包括校正测定批次(特别是成百上千的样品,测定周期少则几个星期,多则几个月的样品类型);数据转换——中心化或者标准化等处理(根据数据分析的目的决定)
1. 校正批次
- 针对大样本,多批次进行的实验,在质谱采集的过程中,势必会产生离子信号的偏移。不管是批次内还是批次之间,如下图:
[图片上传失败...(image-1d2c73-1544511793679)]
如果这些效应不去除的话,会严重影响数据的质量。那么代谢组学数据的校正方法主要有哪些呢?
1.1 内标校正:在样品中加入内标,然后对所有的峰都使用该内标进行校正。但是这种方法使用一个或者几个内标对所有的峰进行标准哈,并不可靠,因此用的不多。
1.2 基于样品本身:比如使用样品中所有峰的平均值、中位值或者总和对所有峰进行校正。另外还有比如PQN等等方法。
1.3 第三种在代谢组学数据中最为常见的标准化方法是基于QC(质量控制)样本的数据标准化。简单来说,就是将所要采集的所有样本取等量混合起来,组成QC样本,然后在采集数据的时候,每隔一定数量的样品,插入一针QC样本。因为QC样本都是一样的,因此可以用QC样本来模拟数据采集过程中信号的变化。得到数据之后,对每一个峰(peak),都将QC作为训练集,然后建立预测模型,预测信号变化,从而对样品中的信号进行校正。 -
那么现在一般都是基于QC样品作为数据标准化的首选方法,这里主要运用到的是上海朱正江课题组的博士生沈小涛博士开发的一个R包来做的,MetNormalizer,具体的用法请参考博文:http://shenxt.me/2018/05/16/metabolomics-data-normalization/
主要的流程为下图所示:
统计学分析
1. 数据标准化
数据经过测定批次的校正之后,便可以用于后续的统计学分析,那么在进行统计学分析之前还需要进行数据的转化,主要有如下几种
- Centering scaling:中心化,即减去每个变量的均值;
- Auto scaling:自动标度化,也叫UV scaling(univariate scaling,单变量标准化),也就是上一步中心化后除以该变量的标准差,也叫
Z-score
标准化; - Pareto scaling:
柏拉图标准化
,一般写成Par标准化,与UV scaling的不同之处就是对标准差开根号。
一般用的较多的是Z-score标准化
2. 数据分析
2.1 多元统计分析
- PCA分析
PCA分析主要是为了看数据的一个质量,也就是稳定性如何,QC样品如果比较集中,那么则反映数据的质量较好。另外可以直观的观察被分析样本有无天然的分组(适用于疾病-正常或者case-control研究中)
那么PCA分析可以由很多方法实现,包括桌面版的软件SIMCA-P
,在线分析软件Metaboanalyst
,以及R语言软件包(stats包里的prcomp()和princomp()函数,FactoMineR包的PCA()函数,ade4包的dudi.pca()函数,以及ExPosition包的epPCA()函数)
- (O)PLS-DA分析
主要是用来筛选对样本分类贡献较大的生物标记物,通常选择
VIP>1的代谢物
(需要注意的是,有监督模型建立之后需要进行模型的验证,如置换检验(permutation test,PLS-DA),交叉验证(cross-validation,OPLS-DA)等)(这里也可以参考一个用于分析代谢组学数据的R包 ropls 1.15.0)
另外补充一下,瑞典查尔默斯理工大学的施琳老师最近发表在bioinformatics上的一篇文章,介绍了一个用于多元统计分析(分类或者回归)的方法,并开发了一个R包MUVR
- 相关性分析
通过非靶向或者后期靶向鉴定到的代谢物,和表型做相关性分析,可以运用Spearman 相关性分析,如果需要校正其它的confounders或者modifiers,可以用Partial Spearman 相关性分析(R语言的ppcor包)
2.2 单变量统计分析
对上一步筛选出的潜在的生物标记物进行差异统计学分析,找出组间差异的代谢物(两组之间用Wilcoxon t-test,三组以上用kruskal-waillis检验或者方差检验);另外还可以结合fold-change(差异倍数)分析。
2.3 构建回归方程进行预测
- 表型是分类变量(如疾病-健康组)
case-control,则使用前面步骤分析得到的差异化合物作为分析变量来预测表型,这一步一般用到的是
逻辑回归
!
- 表型是连续变量(如BMI)
针对表型是连续变量,如BMI,可以用前面分析到的与表型相关的n个代谢物构建一个岭回归(ridge model,之所以运用岭回归是因为代谢物之间可能会存在较强的共线性,而一般普通的线性回归对于变量之间存在共线性会有不稳定的解。另外套索回归-lasso model也可以)
2.4 网络分析
挖掘到差异或者和表型强相关的代谢物后,还需挖掘和这些代谢物相关的代谢通路。这里一般用的多的是Metaboanalyst里的两个模块
- 富集分析(Enrichment analysis)
- 通路分析(Pathway analysis):通路分析中添加了通路的拓扑分析(
topology analysis
,会计算代谢物在网络中的一个中心位置),会输出通路在整体网络中的重要性(impact),重要性越大,可能意味着在整个通路中的地位越核心,那么从impact值也可以反映出来。
参考
[1] Advances in computational metabolomics and databases deepen the understanding of metabolisms