文献分享：从原始数据开始一步一步分析ATAC-seq

最近在编写全新的ATAC-seq流程，看到一个非常好的文献《From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis》文献堪称是目前最全的ATAC-seq的pipeline教程，对比了很多软件，并给出了结论。笔者总结了一些关键点出来供大家共同学习

摘要

ATAC-seq广泛用于研究染色质生物学的研究，但是该实验得的相关分析工具还没有很好的总结。本文主要讨论ATAC-seq数据分析的主要步骤，包括质控和比对，peak calling和高级分析（peak差异分析和注释，motif富集，footprint分析，以及核小体定位分析）。作者还综述了利用多组学数据重建转录调控网络的过程，并进一步指出每个步骤当前面临的挑战。最后，阐述了未来单细胞ATAC-seq的潜力，和开发ATAC-seq特定分析工具以获得有生物学意义的深入理解的必要性。

前言

哺乳动物的DNA通过三个主要的层次尺度进行高度浓缩：第一层次是核小体，然后包装到染色质，再通向第三层次——染色体。染色质可以在转录活跃的常染色质和不活跃的异染色质之间进行动态切换。DNA压缩的三个尺度及其相互作用共同造就了基因的表达调控。
最近的基因调控研究集中在表观遗传学上。高通量测序技术的进步给我们提供了各种破译表观遗传学图谱的方法。其中包括测定染色质可及性的转座可接近的染色质测序（ATAC-seq），DNA酶I高敏位点测序（DNase-seq）和甲醛辅助隔离调控元件测序（FAIRE-seq）；其测量转录因子（TF）结合和组蛋白修饰的染色质免疫沉淀测序（ChIP-seq）；检测核小体定位和占位的微球菌核酸酶测序（MNase-seq）。自2013年发明以来，ATAC-seq在各种染色质可及性的检测方法中特别受欢迎。经过整理的ATAC-seq数据集和出版物呈指数增长，表明其在广泛的生物学问题中的价值，例如如描绘哺乳动物健康组织和细胞类型中的增强子图谱，研究正常造血和白血病之间的可及性变化，以及精神分裂症患者和癌症基因组图谱（TCGA）泛癌队列中的染色质状态。ATAC-seq利用Tn5转座酶，切割开放的染色质，留下9 bp的交错缺口，并将高通量测序接头连接到这些区域。在此过程中，切口被修复，留下了9-bp的重复序列。然后进行双端测序以使这些开放区域有更高的非重复比对率。
尽管ATAC-seq简单优秀，具有较好的重复性和信噪比，但它存在一个主要的障碍——专门为ATAC-seq数据开发的生物信息学分析工具很少。虽然ChIP-seq和DNase-seq中使用的分析工具也可以应用于ATAC-seq，但是这是基于它们数据特征相似的假设，然而此假设尚未得到系统地评估。

分析流程

质控

作者经过对比认为：在质控阶段，各种read过滤工具在有效去除低质量和污染接头序列的性能方面通常表现差不多。

比对

过滤后，可以再次执行FastQC，以检查接头和低质量碱基是否已成功移除。然后将过滤的read比对到参考基因组。BWA-MEM和Bowtie2对于短的双端read存储效率高且快速。两个比对工具的软限位策略允许在read的两端有突出碱基，这可以进一步提高unique mapping rate。作者建议，unique mapping rate达到80％以上时认为ATAC-seq实验成功。对于哺乳动物物种，基于经验和计算估计，建议染色质开放区域检测和差异分析至少需要5000万mapped read，TF footprinting至少需要2亿。

比对后质控

比对后，ATAC-seq可以和大多数DNA测序数据一样，可以使用Picard和SAMtools去duplicated。
去线粒体基因组
去ENCODE列入黑名单的区域，这些区域通常具有非常高的read覆盖度
ATACseqQC进行评估：成功的ATAC-seq实验应生成片段大小分布图，其具有递减的和周期性的峰，对应于无核小体区域（NFR）（<100 bp）和单核、双核和三核小体（〜200， 400，600碱基对）。NFR的片段应该在基因的转录起始位点（TSS）周围富集，而核小体结合区域的片段应该在TSS处被形成低谷，TSS周围的侧翼区域会稍微富集。
对于正链和负链，read应分别偏移 +4 bp和 -5 bp，以便实现TF足迹和基序的碱基对解析相关分析，因为Tn5转座酶对缺口进行DNA修复产生了9 bp重复。
作者建议流程：FastQC➔trimmomatic➔BWA-MEM➔ATACseqQC

peak calling

MACS2是ENCODE ATAC-seq的流程中的默认call peaks工具。然而，专门针对ATAC-seq开发的call peak工具只有HMMRATAC。其他都是ChIP-seq和DNase-seq中的工具。与ChIP-seq不同，ATAC-seq通常没有input control（Tn5转座酶随机切割没有蛋白结合的DNA），因为获得与样本相同覆盖率的input control测序成本较高。因此，需要input control的call peak工具对于ATAC-seq是不切实际的。此外，来自ATAC-seq的双端片段的直接堆积代表了无核小体区（NFR）和核小体结合区。开放染色质区可以通过NFR的短片段堆叠来检测，或使用一个移位延伸的方法，尝试对通过延伸尺寸来平滑化的切割事件进行计数。
HMMRATAC是ATAC-seq独有的call peak工具。它采用三态半监督隐马尔可夫模型（HMM），分别将基因组分割为信号强度高的开放染色质区域，信号强度适中的核小体区域和信号强度低的背景区域。尽管HMMRATAC在计算上更加密集，但其性能优于MACS2和F-seq，并同时提供核小体位置信息。
综上，作者建议使用积极维护的工具（例如MACS2和HOMER）进行call peak。但是如果计算资源足够，HMMRATAC不失为ATAC-seq进行call peak最佳选择。

这里插一嘴，这个HMMRATAC确实比较耗费资源，占用内存巨大。通常ATAC-seq的bam文件达到5个G左右，使用HMMRATAC在48核CPU运算下大概需要一个晚上，内存在默认参数下至少需要250G。如果使用conda安装的HMMRATAC请手动在配置文件中调整Xmax，使用jar的用户则需要去指定Xmax不然基本都会出现内存溢出。

Peak差异分析

当前，尚未专门开发用于ATAC-seq数据分析的差分峰分析工具。一种简单的方法是找到候选区域（共有峰或分箱的基因组），进行归一化，对这些区域中的片段进行计数，并与其他条件进行统计学比较。作者建议csaw的edgeR进行差异分析。

Peak注释

获得峰集后，峰的注释可将染色质的可及性与基因调控联系起来。通常，峰会被注释到最接近的基因或调控元件。HOMER，ChIPseeker和ChIPpeakAnno被广泛用于将peak注释到最接近或重叠的基因、外显子、内含子、启动子、5'非翻译区（UTR），3'UTR和其他基因组特征。

Motif

尽管峰注释提供了功能解释，但它不能直接解释潜在的机制。开放染色质可以通过TF的影响转录，即TF通过识别并结合到DNA上的特定序列来促进转录。该序列称为基序（motif），结合位置称为TF结合位点（TFBS）。作者建议使用的数据库为：JASPAR，软件为HOMER、Bioconductor软件包TFBSTools和MEME。

Footprint

揭示TF调控的另一种方法是使用footprint。ATAC-seq中的足迹是指活性TF与DNA结合并阻止Tn5在结合位点切割的图式。作者认为HINT-ATAC是进行足迹分析的最佳软件，因为它具有ATAC-seq特异性的偏好校正。
核小体定位
核小体由组蛋白八聚体和大约147bpDNA组成，通过改变染色质开放性来影响TF结合。作者认为HMMRATAC和NucleoATAC是用于ATAC-seq核小体检测的两个有用且特异性的工具。

最后：如果想了解更多和生信或者精品咖啡有关的内容欢迎关注我的微信公众号：生信咖啡，更多精彩等你发现！

最后编辑于：2021.10.27 20:58:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345