本文为以下文献的笔记:Michels K B, Binder A M, Dedeurwaerder S, et al. Recommendations for the design and analysis of epigenome-wide association studies[J]. Nature methods, 2013, 10(10): 949-955.
https://www.nature.com/nmeth/journal/v10/n10/full/nmeth.2632.html
Abstract
Epigenome-wide association studies (EWAS) 提供了强有力的工具来研究环境及生活方式对疾病的影响。它可以发现大量的CpG位点,但是从背景噪音中分离信号是具有挑战性的工作。合适的实验设计,详细的分析计划和验证实验可以减少假阳性结果,增加重复性。同质的细胞群体可以增加我们对位点甲基化的认识,排除疾病和年龄的影响。这个review总结了EWAS的强大之处,包括组织样本的选择及分析,变异的来源,系统偏倚,分析步骤等。
EWAS的标准刚开始建立,不像GWAS已经有标准的流程,许多国际组织如US National Institutes of Health Roadmap Epigenomics Initiative2, the International Human Epigenome Consortium (IHEC)3 and BLUEPRINT (a BLUEPRINT of Hematopoietic Epigenomes)4致力于标准化流程建立,但是他们在实验设计,数据分析和解释上贡献很小。
DNA甲基化的测量可以认为是数量性状,因为在单个位点是二进制的,但是在组织水平测量的成千上万的copy。因此测量的是百分比。为了解释生物变异,GWAS需要收集足够量的样本来发现case和control之间的差异,而不是群体里的其他变异。
截止到2013年EWAS研究统计。The primary analysis for nearly every study focused on the variable of interest (for example, cancer, smoking or aging) and site-specific DNA methylation, with ~30% adjusting for additional covariates.The majority of these studies applied some form of correction for multiple testing. 样本数在6-2442之间,平均为46.1/3的研究在独立样本中验证。大部分研究在他们的原样本中进行验证。
Figure 2 | Steps toward a successful EWAS. Exposure (e.g., smoking, drug exposure or aging) or outcome (e.g., diseases or onset of puberty) one chooses to study define the research question, the study population, the choice of the tissue and the biologic variability.
design of an ewas
1、提出一个好的假说来解释甲基化与疾病的关系,或者是疾病的因或者果,或者间接因素如环境导致了甲基化和疾病风险的变化;假说不仅决定了实验设计,也决定了人群及细胞类型的选择;
2、Control for population structure and biological variability. 表观变异与群体特征密切相关。如果这些特征与疾病表型相关,就会引入混杂因素(自己理解如年龄是与心血管发病率相关的)。选择群体的时候要保证这些特征的同质性(如年龄匹配),或者有足够大量的样本来阻止人群分层可以用统计方法矫正混杂因素。大样本对于实验结果的可信性是必要的。本review收集的文章样本数都很小,很少有统计效能计算。理解DNA甲基化中变异是位点特异性的可以计算统计效能。因为变异影响甲基化,EWAS的研究样本比GWAS要更多。
3、Choose an appropriate epigenome-wide DNA methylation
protocol.The Illumina Infinium HumanMethylation450 BeadChip (450K array)最常用,可以评估50万位点,基因组的2%CpG位点。因为芯片易受批次效应影响,他们需要合适的实验设计和分析方法。缺点是需要大量的DNA(500ng)。另一个缺点是不能识别没有的位点和特异性甲基化的位点。
DNA甲基化测序-RRBS Reduced Representation Bisulfite Sequencing(RRBS)比芯片覆盖度更高,但是在CG富集区效果不好。优点是高灵敏性和高通量,可以使用SNP call的方法来处理,因为它用的是亚硫酸氢盐处理的。
其他如MeDIP-seq和methyl-CpG binding domain protein sequencing (MBD-seq)是富集甲基化或去甲基化DNA片段,缺乏内部对照。因为甲基化特异性富集反应是量化的,受许多因素影响如空气湿度,室温等。这些技术很难保证标准化,在不同的时间可能结果不一样。实验步骤可能改变甲基化状态,但是亚硫酸氢盐处理可能会改变测序覆盖度,但是不会改变甲基化状态。但是由于成本的下降和统计上标准化数据和去除批次效应的影响还是应用很广泛。
批次效应是最普遍的引起假阳性的原因,特别是对于环境敏感的实验,如PCR。这可以通过实验设计来避免:case和control在芯片上平衡分布以及处理时间和其他相关的技术上的改变。样本在同一时间处理,遵循严格的标准条件,还要保证每批次有相同数量并随机挑选的case和control。芯片实验推荐在同一plate或批次中设置10%的样本作为内参样本,如重复样本和50%甲基化的样本,用来计算变异相关系数,评估批次效应。有几个质量评估的包:lumi
4、Verify and validate results 芯片本身是不精确的有噪音的,标准的验证实验需要单位点验证,如甲基化测序和massarray。生物上的重复包括不同样本和不同技术的重复。验证实验用不同的技术是必要的,因为技术 问题或者统计方法问题会导致相同的偏倚。但是在着手费时费力的验证实验时,至少一些验证实验是需要的来排除技术错误如杂交探针或者不能识别的SNP位点。
5、Infer causation with caution. 当前的EWAS是探索性的,报道的EWAS应该有严格的实验设计,分析和解释来确信实验结果。尽管EWAS实验内在不能去掉偶然因素,实验设计时排除混杂因素、选择偏倚、错误分类等偏差将会增加关联分析的可信性。
analysis and interpretation of ewas data
1、Statistical analysis: site-by-site analysis.
最基本的分析是单变量分析,看C位点甲基化与表型的关系,然后加上多重矫正,如FDR矫正。典型性分析用CpG甲基化的平均水平来做线性回归,用混杂因素来矫正批次效应。
2、Statistical analysis: regional changes.
不像GWAS中SNP的数据,EWAS中DNA甲基化水平是连续的当测量一堆细胞的时候。并且甲基化很容易测量错误并且有很复杂的层次关系。甲基化水平在整个基因组是有关联的,可以借助邻近位点的测量增加power。另外报道的功能相关的发现都是与一段基因组区域相关的,如CpG岛,基因组block,或者1000bp碱基。
3、Statistical analysis: preclustering or grouping CpG sites.
Unsupervised clustering approaches用来降维,有利于找出生物学上的关联。但是虽然这些方法提供了有效的统计效力,但是是一个粗略的关联,或许会丢失特异性的CpG位点。除了不同的甲基化位点,不同的甲基化变异位点也是有生物学意义的。
4、Identifying relevant DMRs.
GWAS中最常用的方法是计算每个位点的p值,控制假阳性如bonferroni,这个方法忽略了effect size,对EWAS来说是有问题的,因为存在微小的系统误差如批次效应或者组织成分不同。另一方面甲基化考察的是一个区域作为单位,没有优先成分,GWAS方法就不能使用。当用区域作为单位时,就不能用位点数作为多重矫正了。另外,EWAS作为探索性分析,矫正应该保守点,有些假阳性是可以接受的。当effect size小的时候,获得极端小的p值是可能的。effect size应该根据功能及生物学意义来评估。
推荐记录更多的混杂因素如年龄,性别,民族,样本操作等并在设计和分析时考虑到。
DNA甲基化一般考虑与基因表达相关,甲基化沉默表达,去甲基化开启表达,另外还有改变染色体结构等影响表达。
5、Functional and gene set enrichment analyses.
富集分析-基因功能,通路,gene set
tools have been developed for assessing differences in the genomic composition, evolutionary conservation and distribution of predicted regulatory regions (EpiGRAPH51) as well as for discovering significantly enriched binding motifs (MEME52) and exploring such differences on a genome-wide scale (EpiExplorer33).