ewas实验设计（文献阅读）

本文为以下文献的笔记：Michels K B, Binder A M, Dedeurwaerder S, et al. Recommendations for the design and analysis of epigenome-wide association studies[J]. Nature methods, 2013, 10(10): 949-955.
https://www.nature.com/nmeth/journal/v10/n10/full/nmeth.2632.html

Abstract

Epigenome-wide association studies (EWAS) 提供了强有力的工具来研究环境及生活方式对疾病的影响。它可以发现大量的CpG位点，但是从背景噪音中分离信号是具有挑战性的工作。合适的实验设计，详细的分析计划和验证实验可以减少假阳性结果，增加重复性。同质的细胞群体可以增加我们对位点甲基化的认识，排除疾病和年龄的影响。这个review总结了EWAS的强大之处，包括组织样本的选择及分析，变异的来源，系统偏倚，分析步骤等。

EWAS的标准刚开始建立，不像GWAS已经有标准的流程，许多国际组织如US National Institutes of Health Roadmap Epigenomics Initiative2, the International Human Epigenome Consortium (IHEC)3 and BLUEPRINT (a BLUEPRINT of Hematopoietic Epigenomes)4致力于标准化流程建立，但是他们在实验设计，数据分析和解释上贡献很小。

DNA甲基化的测量可以认为是数量性状，因为在单个位点是二进制的，但是在组织水平测量的成千上万的copy。因此测量的是百分比。为了解释生物变异，GWAS需要收集足够量的样本来发现case和control之间的差异，而不是群体里的其他变异。

Paste_Image.png

截止到2013年EWAS研究统计。The primary analysis for nearly every study focused on the variable of interest (for example, cancer, smoking or aging) and site-specific DNA methylation, with ~30% adjusting for additional covariates.The majority of these studies applied some form of correction for multiple testing. 样本数在6-2442之间，平均为46.1/3的研究在独立样本中验证。大部分研究在他们的原样本中进行验证。

Paste_Image.png

Figure 2 | Steps toward a successful EWAS. Exposure (e.g., smoking, drug exposure or aging) or outcome (e.g., diseases or onset of puberty) one chooses to study define the research question, the study population, the choice of the tissue and the biologic variability.

design of an ewas

1、提出一个好的假说来解释甲基化与疾病的关系，或者是疾病的因或者果，或者间接因素如环境导致了甲基化和疾病风险的变化；假说不仅决定了实验设计，也决定了人群及细胞类型的选择；

2、Control for population structure and biological variability. 表观变异与群体特征密切相关。如果这些特征与疾病表型相关，就会引入混杂因素（自己理解如年龄是与心血管发病率相关的）。选择群体的时候要保证这些特征的同质性（如年龄匹配），或者有足够大量的样本来阻止人群分层可以用统计方法矫正混杂因素。大样本对于实验结果的可信性是必要的。本review收集的文章样本数都很小，很少有统计效能计算。理解DNA甲基化中变异是位点特异性的可以计算统计效能。因为变异影响甲基化，EWAS的研究样本比GWAS要更多。

3、Choose an appropriate epigenome-wide DNA methylation
protocol.The Illumina Infinium HumanMethylation450 BeadChip (450K array)最常用，可以评估50万位点，基因组的2%CpG位点。因为芯片易受批次效应影响，他们需要合适的实验设计和分析方法。缺点是需要大量的DNA（500ng）。另一个缺点是不能识别没有的位点和特异性甲基化的位点。

DNA甲基化测序-RRBS Reduced Representation Bisulfite Sequencing（RRBS）比芯片覆盖度更高，但是在CG富集区效果不好。优点是高灵敏性和高通量，可以使用SNP call的方法来处理，因为它用的是亚硫酸氢盐处理的。

其他如MeDIP-seq和methyl-CpG binding domain protein sequencing (MBD-seq)是富集甲基化或去甲基化DNA片段，缺乏内部对照。因为甲基化特异性富集反应是量化的，受许多因素影响如空气湿度，室温等。这些技术很难保证标准化，在不同的时间可能结果不一样。实验步骤可能改变甲基化状态，但是亚硫酸氢盐处理可能会改变测序覆盖度，但是不会改变甲基化状态。但是由于成本的下降和统计上标准化数据和去除批次效应的影响还是应用很广泛。

批次效应是最普遍的引起假阳性的原因，特别是对于环境敏感的实验，如PCR。这可以通过实验设计来避免：case和control在芯片上平衡分布以及处理时间和其他相关的技术上的改变。样本在同一时间处理，遵循严格的标准条件，还要保证每批次有相同数量并随机挑选的case和control。芯片实验推荐在同一plate或批次中设置10%的样本作为内参样本，如重复样本和50%甲基化的样本，用来计算变异相关系数，评估批次效应。有几个质量评估的包：lumi

4、Verify and validate results 芯片本身是不精确的有噪音的，标准的验证实验需要单位点验证，如甲基化测序和massarray。生物上的重复包括不同样本和不同技术的重复。验证实验用不同的技术是必要的，因为技术问题或者统计方法问题会导致相同的偏倚。但是在着手费时费力的验证实验时，至少一些验证实验是需要的来排除技术错误如杂交探针或者不能识别的SNP位点。

5、Infer causation with caution. 当前的EWAS是探索性的，报道的EWAS应该有严格的实验设计，分析和解释来确信实验结果。尽管EWAS实验内在不能去掉偶然因素，实验设计时排除混杂因素、选择偏倚、错误分类等偏差将会增加关联分析的可信性。

Paste_Image.png

analysis and interpretation of ewas data

1、Statistical analysis: site-by-site analysis.
最基本的分析是单变量分析，看C位点甲基化与表型的关系，然后加上多重矫正，如FDR矫正。典型性分析用CpG甲基化的平均水平来做线性回归，用混杂因素来矫正批次效应。

2、Statistical analysis: regional changes.
不像GWAS中SNP的数据，EWAS中DNA甲基化水平是连续的当测量一堆细胞的时候。并且甲基化很容易测量错误并且有很复杂的层次关系。甲基化水平在整个基因组是有关联的，可以借助邻近位点的测量增加power。另外报道的功能相关的发现都是与一段基因组区域相关的，如CpG岛，基因组block，或者1000bp碱基。

3、Statistical analysis: preclustering or grouping CpG sites.
Unsupervised clustering approaches用来降维，有利于找出生物学上的关联。但是虽然这些方法提供了有效的统计效力，但是是一个粗略的关联，或许会丢失特异性的CpG位点。除了不同的甲基化位点，不同的甲基化变异位点也是有生物学意义的。

4、Identifying relevant DMRs.
GWAS中最常用的方法是计算每个位点的p值，控制假阳性如bonferroni，这个方法忽略了effect size，对EWAS来说是有问题的，因为存在微小的系统误差如批次效应或者组织成分不同。另一方面甲基化考察的是一个区域作为单位，没有优先成分，GWAS方法就不能使用。当用区域作为单位时，就不能用位点数作为多重矫正了。另外，EWAS作为探索性分析，矫正应该保守点，有些假阳性是可以接受的。当effect size小的时候，获得极端小的p值是可能的。effect size应该根据功能及生物学意义来评估。
推荐记录更多的混杂因素如年龄，性别，民族，样本操作等并在设计和分析时考虑到。
DNA甲基化一般考虑与基因表达相关，甲基化沉默表达，去甲基化开启表达，另外还有改变染色体结构等影响表达。

5、Functional and gene set enrichment analyses.
富集分析-基因功能，通路，gene set
tools have been developed for assessing differences in the genomic composition, evolutionary conservation and distribution of predicted regulatory regions (EpiGRAPH51) as well as for discovering significantly enriched binding motifs (MEME52) and exploring such differences on a genome-wide scale (EpiExplorer33).

最后编辑于：2017.12.11 02:58:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,937评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,503评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,712评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,668评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,677评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,601评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,975评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,637评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,881评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,621评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,710评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,387评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,971评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,947评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,189评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,805评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,449评论 2赞 342

ewas实验设计（文献阅读）

Abstract

design of an ewas

analysis and interpretation of ewas data

推荐阅读更多精彩内容