于文强(复旦大学生物医学研究院教授)
GPS:Guide Positioning Sequencing:导航定位测序
转自:深读 | 给 DNA 甲基化检测装上 GPS,看肿瘤细胞如何变花样
以下引用内容转自甲基化芯片入门学习-基础知识(一)
什么是DNA甲基化?
DNA甲基化是表观遗传学的中最为常见的一种修饰,其主要形式包括:5-甲基胞嘧啶 (5-mC)、少量的N6-甲基腺嘌呤 (N6-mA) 以及7-甲基鸟嘌呤(7-mG)。目前常说的DNA甲基化一般指CpG岛甲基化,即在DNA甲基化转移酶(DNMTs)的作用下使CpG二核苷酸5’端的胞嘧啶转变为5’甲基胞嘧啶。哺乳动物体细胞的DNA胞嘧啶甲基化主要发生在CpG岛;CpG岛(CpG islands)指CpG序列密度相比整个基因组来说是特别高的富集区域,一般位于启动子附近,5’端非翻译区或第一个外显子;一般CpG岛序列长度在500bp以上,GC含量高于55%以及CpG出现比率大于0.65,40%的启动子区域含有CpG岛。CpG shores and shelves分别是指距CpG岛边缘2kb与4kb的区域,哺乳动物中的非CpG甲基化主要是发生在胚胎发育阶段和脑组织中。基因组中60%-90%的CpG都被甲基化,未甲基化的CpG形成CpG岛,位于结构基因启动子的核心序列和转录起始点。
DNA甲基化的作用?
一般来说,DNA甲基化主要作用在于调控基因的表达,即基因启动子区域CpG岛的甲基化水平越高,其对应基因的表达水平就相对越低;DNA甲基化受到甲基化酶(如DNMT3A)和去甲基化酶(TET2)的调控。在转录水平的抑制机制一般存在以下几点:
1.DNA胞嘧啶甲基化后改变了DNA的空间构想,导致转录因子无法正常地与DNA结合,从而导致转录水平下降
2.甲基化DNA与MeCP家族结合,改变了染色质的结构,抑制基因转录的发生
3.CpG岛的异常甲基化导致一些组蛋白发生去乙酰化,从而改变了染色质的结构(使空间高度螺旋化),失去转录活性
除了对转录水平抑制外,在一些肿瘤研究中发现DNA甲基化会导致一些癌基因表达量上升;在正常人基因组中,CpG岛中的CpG通常是非甲基化的,而CpG岛外的CpG则一是被甲基化的;当肿瘤发生后,CpG岛局部发生高甲基化以及基因组则呈现DNA低甲基化;前者会导致抑癌基因表达量下降,从而使得癌细胞形成以及存活效率上升,后者则会导致癌基因甲基化水平降低而活化,以及一些转座子的活化进而导致染色体稳定性下降,最终导致恶性肿瘤的发生。
除了CpG岛的甲基化水平的变化会导致肿瘤的发生外,CpG shores and shelves的异常甲基化也会导致其基因转录水平的抑制。
DNA甲基化检测方法?
DNA甲基化测序技术按照不同原理及方法,有很多选择,具体可查看:DNA甲基化研究方法(测序法)
但是平时听得最多的还属DNA甲基化芯片技术(illumina的450k/850K芯片)和全基因组甲基化测序(WGBS)
WGBS(全基因组甲基化测序),MAP率低(29%);解决方案:GPS。
2008 年美国 NIH 启动了“表观基因组的路线图计划(RoadMap Epigenome Project)”,计划用 5 年的时间绘制 50 种人类正常组织的表观基因组图谱,而预算的经费居然高达 6.6 亿美元。欧洲的“千人表观基因组计划(1000 Epigenome Project)”,拟用 10 年时间花费 3900 万欧元完成 1000 人的表观基因组图谱。为什么会花费这么多钱,因为构成生物体基因组仅仅由 A、T、C、G 四个碱基构成,当 DNA 被<亚硫酸盐>
处理后,没有甲基化的 C 转变成了 T,构成 DNA 的序列就剩下了 A、T、G 三个碱基,其复杂度大幅降低,当测序完成后,你就会发现大部分序列没法与人类参考基因组比对(Map),通俗的讲就是“找不到家门”,DNA 甲基化计算无从谈起,而确定重复序列区域的 DNA 甲基化状态更是全基因组 DNA 甲基化检测者的噩梦。最早的全基因组 DNA 甲基化检测的 Map 率只有** 29%**。既然 DNA 甲基化最主要的问题是比对的问题,我们就将重心放在如何提高比对率和准确性上。含有 4 个碱基的基因组比对没有问题,借用双端测序的优势,让<双端测序>
的一端是基因组原序列,另一端是转化后表观序列,将这种全基因组 DNA 甲基化检测方法命名为 GPS(Guide Positioning Sequencing),即“导航定位测序”,目前已经获得国内和国际专利。
DNA甲基化检测:重亚硫酸盐测序 (Bisulfite-sequencing)
实验原理:以重亚硫酸盐处理基因组DNA,发生甲基化的胞嘧啶不变,而未甲基化的胞嘧啶会变成尿嘧啶,经过PCR扩增,原本的C/G就变成T/A,可以通过测序区分。该方法检测精确,分辨率最高,但耗时耗力,通量有限。 实验目的:一般以下情况可以用此方法:精细定量检测目标区段的DNA甲基化情况;结合高通量测序检测全基因组DNA甲基化情况。
关于转-NGS测序的几个基本概念-插入片段等如下:在进行测序的时候,需要将DNA打断,构建library,这些fragment需要接上adaptor,好进行扩增,illumina的测序,可以有single end和paired end两种,分别从一端和两端进行测序。
虽然adaptor不会被测序,但如果fragment太短,被读通了,则另一端的adaptor就会被测到。
GPS:5MC-dNTP:一边定位,一边甲基化
既然 DNA 甲基化最主要的问题是比对的问题,我们就将重心放在如何提高比对率和准确性上。我们知道,含有 4 个碱基的基因组比对没有问题,我们何不借用双端测序的优势,让双端测序的一端是基因组原序列,另一端是转化后表观序列,那问题不就迎刃而解了。我们将这种全基因组 DNA 甲基化检测方法命名为 GPS(Guide Positioning Sequencing),即“导航定位测序”,目前已经获得国内和国际专利。 <T4 DNA 聚合酶>
,在反应体系中没有 dNTP 的情况下,可以发挥 3'-5' 外切酶的活性,当有反应体系中存在 dNTP 的时候可以发挥 5'-3' 聚合酶的活性,不过在反应体系中,我们将 dCTP 换成甲基化的 dmCTP 就可以了。这样一来,所有的 DNA 片段 3’ 端在亚硫酸盐处理后还保持基因组序列,可用来定位;而 5’ 端就可以用来计算甲基化了。
T4 DNA 聚合酶:T4DNAPolymerase,即T4DNA聚合酶,是一种模板依赖的DNA聚合酶,可以在结合有引物的单链DNA模板上,从5'→3'方向催化DNA合成反应。T4DNAPolymerase具有3'→5'外切酶活性,但不具有5'→3'外切酶活性。特点:T4DNAPolymerase由于同时具有5'→3'DNA聚合酶活性和3'→5'DNA外切酶活性,可以用于将5'端突出末端补平或3'端突出末端削平。T4DNAPolymerase的3'→5'DNA外切酶活性对于单链DNA要比双链DNA活性更高,即单链DNA要比双链DNA中的非配对链部分更容易被T4DNAPolymerase所消化。T4DNAPolymerase的3'→5'外切酶活性比KlenowFragment要高约200倍。
GPS 优势
1)GPS 检测 DNA 甲基化的精确性
使用 BSMAP 进行序列比对,其比对率仅为 66.2%,而 GPS 的比对率高达 82.3%,接近于用 Bowtie2 进行基因组的比对率 86.3%。
2)GPS 具有较高的比对率
在肝细胞中,GPS 方法覆盖到了 54,853,393 个 CpG 位点,覆盖率高达 97%,同时也覆盖到了 1,123,233,333 胞嘧啶位点,覆盖率为 96%。
3)GPS 甲基化检测成本低
主要基于 GPS 方法的比对率高,同时 GPS 测序数据比对只要超过 5 层,就能够比较精准的计算出 DNA 甲基化。而 WGBS 的精准检测甲基化一般情况下需要超过 30 层。目前 GPS 方法对一个样本的检测大约需要 200G 左右的测序数据,在 10X Illumina 测序平台上大约相当于 2 条 Lane 的测序数据,测序成本大约在 1.5 万元左右。况且你可以同时获得了基因组和表观基因组数据,一举两得。
4)GPS 检测甲基化没有序列偏好性
通过比较 GPS 测序和人类基因组功能区的分布情况,很清楚地看到,GPS 检测到的 DNA 甲基化位点在启动子区域和功能基因组元件上没有分布偏好性。与 WGBS 相比,GPS 对于重复序列、CpG 岛以及 GC-rich 区域(如启动子区域)的检测具有更高的效率。这些优势对全基因组的 DNA 甲基化精准检测非常重要,可以有效避免测序偏差导致结论的不确定性。例如,肿瘤细胞存在全基因组的 DNA 低甲基化现象,而偏偏 WGBS 倾向于检测 DNA 的高甲基化区域,而依靠 WGBS 来评估肿瘤细胞的全基因组 DNA 甲基化状态就会高估肿瘤细胞的 DNA 实际的甲基化水平,我们的结果也证明了这一点。
5)GPS 可以同时检测表观基因组和基因组学变异
适用于精准检测等位基因特异性的甲基化(Allele-Specific Methylation, ASM),而 ASM 检测可以有助于回答许多表观遗传调控的关键基础问题。例如,使用相同的数据量,GPS 鉴定了 1820 个 ASM,而 WGBS 只鉴定了 135 个。MeGDP,肿瘤免疫新框架和新靶标。肿瘤的发生与免疫功能紊乱以及代谢异常密切相关,但表观遗传因素在这里发挥了什么作用不得而知。在肝癌细胞中,因 MeGDP 降低导致表达下调的基因主要富集在免疫与刺激反应以及代谢途径相关基因,而且 P 值非常低。
DNA 甲基化差值(MeGDP, Methylation of Genebody Difference to Promoter)与基因的表达进行相关性分析
MeGDP 与基因表达之间的相关性高达 0.67,提示 MeGDP 可以用来预测基因表达的情况。而如果利用 WGBS 测到的数据进行计算,得到相关系数仅为 0.33。
众所周知,肿瘤发生与免疫系统紊乱有极大的关系,免疫监视系统失衡是肿瘤发生的重要原因。这里面重要的概念就是肿瘤与免疫监视系统的相互作用(tumor-immune surveillance network)并且包含两层意思,一个是肿瘤细胞自身,一个是人体的免疫系统,到目前为止肿瘤如何逃避免疫系统还是一个谜。一般的理解,肿瘤与免疫监视系统相互作用的重点是会发在免疫系统上面,也就是肿瘤中的各种淋巴细胞异常,比如最近火热的免疫治疗正是针对这些不作为的免疫细胞。这让我这个免疫学的外行比较纳闷,研究肿瘤免疫,大家居然主要关注的是免疫系统,而不是肿瘤细胞自身;近来有些研究去寻找肿瘤新生抗原如 Neoantigen,理论很高大上,可是实际可应用的并不多。这里,我认为有必要重新认识并深入理解肿瘤免疫,尤其是从肿瘤细胞自身来重新诠释肿瘤免疫。站在表观遗传的角度,任何细胞都可能是“免疫细胞”,或具有免疫细胞的特性,所以肿瘤细胞自身免疫相关基因的调控也是肿瘤免疫调控的重要组成部分。换一句话说,肿瘤免疫我们不仅要关注免疫系统,更需要关注肿瘤细胞内在的天然免疫系统基因的调控,而肿瘤细胞中内在的免疫相关基因的甲基化异常导致的基因沉默也许是肿瘤免疫逃逸的重要原因。
由于 MeGDP 导致的甲基化异常,肿瘤细胞中内源性的免疫相关基因被异常甲基化所沉默,导致肿瘤细胞对外界的各种治疗或免疫治疗没有反应。据此,我们推测,肿瘤的免疫耐受与免疫系统中的淋巴细胞也许没有必然的关系,而由肿瘤细胞自身的表观遗传学异常这个内因决定。在这个新的肿瘤免疫框架下,寻找预测肿瘤免疫治疗的新靶标就不会再“山穷水复疑无路”,而一定会“柳暗花明又一村”。
摆在临床医生和广大患者面前的一个重要且迫切的问题就是找出一个能够预测 PD-1 治疗有效性的标志物。现在的一些标志物,比如 PD-L1 的表达量,可是在临床的验证中并不好用。你也许会说肿瘤突变负荷(TMB)不错,但我要说 TMB 并不是免疫治疗特有预测标志物,也可以预测其他治疗方案的效果。总而言之,目前的预测免疫治疗的有效标志物,临床医生不满意,患者更不满意。近期 Cell 杂志报道,在黑色素瘤病人中,免疫监控相关的干扰素 IFNG 通路基因的突变或拷贝数丢失使得抗-CALA4 反应失效。可惜的是,仔细查看文章发现IFN通路上 60 多个基因突变的概率太低,虽然很有意义,但确实临床应用十分有限。怎么办,该轮到我们的 MeGDP 粉墨登场了。我们通过对 IFN 通路 60 多个基因的 MeGDP 与基因表达分析发现,MeGDP 异常在肝癌细胞中确实可以导致 IFN 通路中的大多数基因表达下调(图 10 左中图),进而可能用于 PD-1 治疗效果的预测。如果想进一步破解 PD-1 治疗不佳的魔咒,我们认为 DNA 甲基化抑制剂有可能派上用场,而且已有研究证明,5AZA 确实与肿瘤细胞自身的免疫激活有关。我们也发现,在 5-AZA 处理后,免疫相关基因 EDNRB、ACP5 以及 BST2 都上调大约 2~75 倍(图 10 右图)。此外,我们也有理由推测肝癌细胞中的 MeGDP 的异常模式导致的免疫相关基因沉默也许是目前肝癌药物和其他疗法不佳的重要因素。
MBS(Methylation Boundary Shift)甲基化边界漂移
1)MBS 与组蛋白修饰离不得,见不得。与 H3K4me3 离不得,很清楚 MBS 所在区域与 H4K3me3 高度重叠;相反MBS 与 H3K36me3 却是见不得,因为 MBS 与 H3K36me3 富集是互斥的。
2)MBS 与基因表达有关。我们的结果表明 MBS 向基因体方向的的漂移与基因的高表达密切关联。MYC 基因就是一个典型的例子,肿瘤细胞中 MYC 基因高表达,但其调控机制五花八门,而我们在这里清楚地看到 MYC 基因的启动子区域存在显著的甲基化边界漂移,说明 MBS 至少在一定程度上与肿瘤细胞中 MYC 基因的表达上调有关。
既然 MBS 与基因表达有关,那么 MBS 是否有肿瘤的发生相关呢?通过对肝癌细胞中异常的 MBS 模式及相关基因表达进行分析后发现,这些基因富集在核糖体和细胞周期相关的通路。作为曾经的血液内科临床医生,我知道白血病细胞与正常造血祖细胞的形态学鉴定,很重要的一条标准就是细胞核中核仁的数量,核仁数量越多,是白血病细胞的可能性就越高,而核仁的增多离不开核糖体相关基因的高表达。如果按照传统的甲基化调控理论,你会认为 rRNA 基因不受表观遗传学调控,因为所有 rRNA 基因的启动子均是低甲基化。而 MBS 的发现告诉你,DNA 甲基化的边界漂移居然与肿瘤中 rRNA 的高表达有关,是不是有点脑洞大开的感觉。进一步分析发现,在 60 多个核糖体相关基因中,有 48 个核糖体基因的表达调控与 MBS 相关,而应用 WGBS 只发现了 7 个,再一次印证了 GPS 检测甲基化的精准性。可以想象,如果甲基化的检测准确性存疑,甲基化边界的漂移鉴定就变成了一项不可能完成的任务,或者你比较幸运,偶尔在 WGBS 数据中发现了 MBS,但因为在下一个样本中没法重复,也很难得到规律性的结论。我们在两个乳腺癌细胞系 MCF-10A 以及 MCF-10A-1H 中进行 GPS 测序,同样发现 MBS 及相似的调控规律,说明 MBS 调控具有普遍性。
MBS与增强子
人类基因组中有数百万的增强子元件,其中 H3K27ac 是活性增强子的标签。既然启动子区域存在明显的 MBS,我们自然会想到,作为与启动子类似的顺式调控元件,增强子是否也受到 MBS 的调控。我们的答案是“Yes”。在肝细胞和肝癌细胞中,H3K27ac 的峰宽也与 MBS 高度重叠(图 13 左),提示 MBS 与 H3K27ac 具有相关性,进而对基因表达产生影响。与正常肝细胞相比,肝癌细胞的 MBS 发生了显著的变化,进而引起增强子活性的选择性丢失或重新获得,这些增强子变化可导致相应的基因表达发生变化。我们惊讶地看到许多基因与细胞的身份相关,如肺发育、免疫细胞激活或其他组织特异性的基因。我们有理由相信,正是由于 MBS 异常模式导致肿瘤细胞增强子边界和活性变化,进而促使组织特异性基因表达上调或下调,引起细胞身份的“得”与“失”,而这一切也许在肿瘤发生和转移过程中与肿瘤细胞特性的形成密切相关。肿瘤转移学说
“同化共生”,是我们基于我们的研究结果提出的有关肿瘤转移的一个新概念。肿瘤细胞通过改变身份与特异性转移的器官相互适应,进而在转移的组织器官中与新的环境“同化共生”,可能是肿瘤转移的新机制。物以类聚,人以群分,肿瘤的发生和转移也一样。肿瘤转移是肿瘤治疗失败的重要原因之一,而肿瘤特异性的器官转移机制并不清楚。例如肝癌容易发生肺转移,我们通过分析肝癌细胞 97L 和肝癌特异性转移到肺的 LM3 细胞的 DNA 甲基化模式和基因表达情况,发现肝细胞特异性的基因表达显著降低,而肺细胞特异性的基因表达上调,我们认为肝细胞身份丢失和肺细胞身份的获得是肝癌发生肺转移的重要原因。在肝癌发生和转移过程中,伴随异常的 DNA 甲基化介导的细胞身份的丢失和获得,使肺特异性基因表达增加,从而使肝癌细胞获得了肺细胞的身份,这有助于肝癌细胞在肺的环境中适应和生存,而这也许是肿瘤转移最重要的原因。简单的说,就是细胞换了个“马甲”,从而实现了“同化共生”。