ATAC-seq 全称是 Assay for Transposase-Accessible Chromatin with high-throughput sequencing 可以理解为借助转座酶对开放染色质区域进行高通量测序。参见下面示意图,它的主要原理是 Tn5 转座酶可以对染色质开放区域DNA切割并添加测序接头,然后进行高通量测序就取得了开放染色质区域的测序数据。与其他技术比较(DNase-Seq, FAIRE-Seq) ATAC-seq 需要的细胞数目更少,同时实验步骤更简单耗时更少,高通量也是一个优点一次性取得了所有的开放染色质区域。
文章 From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis 给出了完整的 ATAC-seq 分析流程,我这里做个缩减版搬运,文献很简单感兴趣的朋友建议看原文。同时部分图片和知识点来源于别的文献,在参考部分列出。
总体分析步骤见下图,主要包含三大部分。第一是数据前期处理,包含质控以及比对等;第二是各种相关的分析,其中最核心的是 Peak calling 也即分析有哪些区域是开放染色质的;第三是与其他技术数据的联合分析。
下面简单介绍一些步骤的分析内容,抑或是分析要求注意事项等。
质控
与常规高通量测序无异。
比对
要有 80% 以上比对率,于人种而言要进行开放染色质检测和差异分析,最低匹配 reads 数应是 50000000, TF footprinting 分析要求 200000000 。
比对后需要移除 线粒体和 ENCODE blacklist 区域。线粒体基因组因为无染色质结构是完全开放的会信号很强;ENCODE blacklisted 区域是高通量测序在人基因组一些异常、无信号或高信号区域,这些区域异常情况跟实验无关,应是技术问题,所以也要移除。
Here, we define the ENCODE blacklist- a comprehensive set of regions in the human, mouse, worm, and fly genomes that have anomalous, unstructured, or high signal in next-generation sequencing experiments independent of cell line or experiment. The removal of the ENCODE blacklist is an essential quality measure when analyzing functional genomics data.
Duplicated reads 也应进行移除。
除此之外,ATAC-seq 对 reads 长度分布有所要求,如下面两图所示。reads 长度分布应该是下降的,但是对应于无核糖体区域(nucleosome-free regions, NFR)、单、双、三(甚至更多)核小体长度(~ 200, 400, 600 bp)有凸起小峰。下面第三图展示NFR区域往往是TSS区域,而TSS侧翼往往是单核小体区域。最后,要注意因为转座酶导致的9BP的重复,reads应在正负链分别移动 +4 和 -5 bp.
Peak calling & Peak differential analysis
依据算法不同,文章将软件如下图分类,其中只有 MACS2 是专门为 ATAC-seq 开发软件,推荐使用 MACS2 和 HOMER 进行 Peak calling.
至于 Peak differential analysis 目前没有针对 ATAC-seq 专门开发的工具,对于那些借鉴 RNA-seq 差异基因分析的工具/方法,考虑到峰形状和分布也是非常重要的差异信息,作者认为如果有工具能够包含这点,应该能取得更好的结果。
Peak annotation
取得峰后进行 feature 注释,像基因、外显子、5'UTR、3'UTR等等。注释后也可以进行一些通路富集分析等。
Motifs
转录因子往往需要识别和结合在特定序列上,这些特定序列就叫 motif,结合的区域称为 TFBS(TF binding sites). ASPAR 就是个包含许多物种的 TFBS 数据库。有了 motif 数据库后就可以分析那些 peaks 是富集了 motifs 的,要注意的是这些分析都是基于 peak 区域的序列进行的,容易有假阳性。
Footprints
Footprints 是指在开放染色质区域有部分区域因为转录因子结合阻止了 Tn5 转录酶的结合切割,导致该区域的 reads 比同开放染色质其他区域少。寻找 Footprint 工具可以分为 de novo 和 motif-centric 2类,前者根据 reads 在 Footprint 区域减少的特征寻找出全部 Footprint,后者根据已有的 TFBS 数据,来分析相应 TFBS 是处于结合还是非结合状态。
[参考]
What is ATAC-Seq & How Does it Work?
Amemiya, H.M., Kundaje, A. & Boyle, A.P. The ENCODE Blacklist: Identification of Problematic Regions of the Genome. Sci Rep 9, 9354 (2019). https://doi.org/10.1038/s41598-019-45839-z
Yan, F., Powell, D.R., Curtis, D.J. et al. From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis. Genome Biol 21, 22 (2020). https://doi.org/10.1186/s13059-020-1929-3
Buenrostro, Jason D., et al. "Transposition of native chromatin for multimodal regulatory analysis and personal epigenomics." Nature methods 10.12 (2013): 1213.