【转】单细胞 ATAC 测序分析：从数据预处理到假设生成

Tips：

这一篇文章，类似单细胞RNA-seq 最佳实践教程，对每一步进行了具体介绍讨论。
目前技术和分析方法都出现了好多，看一些综述有一个整体把握。
Computational and Structural Biotechnology Journal--微信解读 2020.06

image.png

摘要

大多数与人类复杂性状相关的遗传变异都位于基因组非编码区，其中大部分元件都与基因表达调控息息相关，因此，想要了解从基因型到表型的全貌就需要了解基因组非编码区内元件的功能。

目前，ATAC-seq 是测定全基因组染色质开放区分布最可行且最高效的方法，scATAC-seq 技术则应用于研究异质细胞群体中特定细胞类型的染色质开放区。然而，由于 scATAC-seq 数据存在高噪声和高稀疏等特性，很难准确提取生物学信号并设计有效的生物学假设。

为了克服这些限制，近几年开发了很多算法和软件工具。但目前针对 scATAC-seq 数据分析的最佳方法尚无共识。本综述讨论了 scATAC-seq 技术和数据分析方法，从预处理到下游分析，并列举了涉及相关方法应用的已发表研究。希望本综述为如何适当使用软件工具和数据库研究单细胞分辨率下的染色质可及性提供指导。

1.简介

ATAC-seq 是检测全基因组染色质开放区的方法，高活性的 Tn5 转座酶可以在片段化染色质开放区 DNA 序列的同时进行标记，与其他方法相比，ATAC-seq 所需的样品制备时间更短，样本起始量更少。随着单细胞生物学的出现以及与其他组学技术测序技术相适应和发展，从单细胞水平进行染色质可及性研究成为可能，但 scATAC-seq 数据分析仍然具有挑战性。如果没有对 scATAC-seq 数据的充分了解，染色质开放区内各种潜在功能元件必定会增加 scATAC-seq 数据解析的复杂性。近几年开发了很多用于 scATAC-seq 数据分析的算法和软件工具，但是，必须仔细选择数据分析流程每个步骤的算法和参数，才能将染色质可及性信息可靠地转换为新的生物学假设。

本综述旨在详细阐述 scATAC-seq 数据分析从预处理到各种下游分析的流程。与其他 NGS 数据的分析相似，scATAC-seq 数据也需要进行预处理。一些软件工具广泛用于序列信息的质量控制，参考基因组比对以及候选染色质开放区域峰的鉴定。预处理后生成 cell-feature 矩阵的生成对于 scATAC-seq 数据分析至关重要，将预处理后的数据用于下游分析，以阐明顺式调控元件（例如启动子和增强子）和反调控元件（例如 TF）之间的网络。scATAC-seq 数据还可以进行基因活性和遗传变异的可及性等分析。此外，scATAC-seq 能与 scRNA-seq 数据及其他组学数据联合进行多组学研究。

image

图1. 经典的scATAC-seq数据处理流程示意图

2.scATAC-seq 技术

在 ATAC-seq 技术发展的两年内，引入了两种不同的单细胞适应策略：一是基于 split-and-pool 的原理为单个细胞标记上独特的 DNA barcode。例如 sci-ATAC-seq；另一个是微流体方法，例如使用 IFC。在 sci-ATAC-seq 中，将裂解的细胞核置于携有独特 barcode 转座酶的96孔板中，再混合在一起，然后使用 FACS 分配到第二个96孔板中，在扩增过程中引入第二个 barcode，通过识别两个 barcode 的独特组合识别单个细胞。sci-ATAC-seq 可以对约1500个细胞进行测序，中位读数为2500，碰撞率约为11％。而 IFC scATAC-seq 利用 Fluidigm C1 设备捕获单个细胞并在 IFC 上进行转座和PCR。尽管此方法每个细胞可以获得超过70000次读取，但最多只能并行处理96个细胞。最近，10x Genomics Chromium 装置基于微流体的方法，使用 GEM 捕获单个被转座的细胞核。GEM 的可扩展性和高通量与数据处理软件 Cell Ranger ATAC 相结合可以对大量细胞进行 scATAC-seq 研究，也使得该方法广受欢迎。

目前已有更多技术对上述单细胞技术进行改进。Pi-ATAC 与 DNA 转座平行的分析蛋白质表位，以量化同一单个细胞的蛋白质表达和染色质可及性。scip-ATAC-seq 提高了转座酶进入细胞核的效率，从而提高了文库的复杂性和分辨率。T-ATAC-seq 使用 ATAC-seq 对 T 细胞受体编码基因进行测序。Perturb-ATAC 在转座后添加 CRISPR sgRNA，并对 sgRNA 和 ATAC DNA 进行测序，以研究调节染色质可及性因素之间的关系。基于 Plate 的 scATAC-seq 促进了文库的复杂性，也使线粒体 DNA 的量更少，FRiP 的分数更高。dsciATAC-seq可以保持基于微流体的 scATAC-seq 的测序深度，同时并行提高细胞通量。μATAC-seq 采用 ICELL8 平台，以高通量和低文库制备成本提供单细胞测序。在选择 scATAC-seq 技术之前，重要的是要考虑实验设备的可用性及其与分析软件的兼容性、所需的测序深度、细胞通量以及研究的总体目的。

image

图2. scATAC-seq 文库生成的两种主要策略：（a）split-and-pool 的原理为单个细胞标记上独特的 DNA barcodes方法和（b）基于微流控技术方法以及（c）其修改方法。

3 数据处理

在通过下游分析生成生物学假设之前，为准确解析 scATAC-seq 数据必须进行数据预处理步骤。scATAC-seq 数据的预处理从测序文件的拆解和低质量细胞的删除开始，再仔细选择用于cell-feature 矩阵的基因组区域、数据转换方法、降维方法以及用于注释细胞类型的方法。此外，必要时须删除批次效应。由于数据分析中没有万能药，因此对多种方法与互补算法进行比较，才能从给定的数据集中获得最佳结果。表1总结了可用于 scATAC-seq 数据分析的13个软件包：ChromVAR、SCRAT、scABC、Cicero、Scasat、ciscisic、snapATAC、epiScanpy、Destin、SCALE、scATAC-pro、Signac 和 ArchR 。尽管下游分析的能力各不相同，但它们都包含独特的预处理步骤。

表1. scATAC-seq 分析软件包概况

image

3.1. 测序读段的处理

如果多个样品在一个反应中混合测序，则需要使用如 Illumina 的 bcl2fastq 等软件包根据 index 接头序列进行样品拆分。然后，使用 Bowtie2 或 Trimmomatic 修整接头序列和引物序列；使用 Bowtie2 或 BWA 将读段与基因组进行比对，并用 Samtools 进行排序。

3.2. 质量控制

低质量细胞或者多细胞将通过数据预处理去除。大多数单细胞测序技术的 QC 标准都基于每个细胞对应 barcode 的读段数目（测序深度）和特征数目，过低或者过高的数值可能是由于低质量细胞或者多细胞引起的。根据 scATAC-seq 数据的特性也响应产生了更丰富的 QC 指标，如 FRiP、启动子区域读段比例、blacklist 位点读段比例及 TSS 富集分数等。此外，没有显示出高质量 ATAC-seq 数据的核小体结合模式的细胞也可以被去除。除 barcode 外，位于 blacklist 区域或管家基因中的特征（如 peak）也可以被滤除。并非所有样品都符合绝对的 QC 标准。因此，必须根据样品的特征（如数据的整体结构、异质性、可能存在的细胞类型、批次或测序平台）仔细选择 QC 标准的组合。

3.3. cell-feature 矩阵构成

通过 QC 的 cell-feature 矩阵将被用于下游分析。原始 peak 或根据调控因子注释的 feature 使数据呈多元化。尽管大多数分析流程用定义和注释基因组区域作为单一组合，但某些流程针对下游分析的不同目的而适应各种合适的矩阵。基因组区域的定义可以根据样品的特定信息来分类，feature 注释可以随感兴趣的调控元件而改变。样本的特定信息包括利用公开数据中的bulk ATAC-seq的peak、scATAC-seq 数据中的集合或合并 peak。还可以根据样本来源或者初始细胞分群对细胞进行划分再使用 MACS2 进行 peak 识别。另一种方法是将基因组划分为特定大小的窗口，并统计每个窗口中读段丰度作为每个窗口的分值。通过定义peak、窗口、调控元件（TF motif 、TSS等）产生 cell-feature 矩阵。由于不同细胞类型存在特异的 TF 的 motif 或 k-mers 的信息，因此一些分析流程用此信息注释细胞类型。基因组区域可以用公共数据库（如cisBP、JASPAR、HOMER）的已知 TF motif进行注释，还能使用 motif 匹配 k-mers 进行无监督注释。此外，TSS 的可及性也可作为细胞类型特异的 feature。这些基因组 feature 会结合在一起形成一个集合以准确分析细胞异质性。一些工具简单地合并邻近 peak 或直接将它们用作生成的 feature，而无需注释基因组元素。

3.4. 批次校正和数据整合

当需要同时分析多批次的 scATAC-seq 数据时，一些非生物学因素（例如技术差异）可能会导致错误的生物学假设。批次效应的产生可能来源于实验人员、样品制备方案、样品获得时间、测序通道和测序技术的差异。scATAC-seq 数据的批次效应校正通常是在没有特定计算工具的情况下间接进行的，通过仔细检查可以去除批次特定的 feature。批处理效果通常在其他预处理步骤中得到纠正，例如选择高变 peak 或降维。使用基于非线性算法的数据集成方法可更系统地纠正单细胞组学数据的批次效应。这些方法假设所有批次至少共享一种细胞类型，且批次之间的差异小于细胞类型之间的差异。但这些方法也可能消除生物学差异，从而导致过度校正。因此，既要考虑批次消除的能力，又要考虑对生物学差异的保护。尽管没有用于集成 scATAC-seq 数据的指定工具，但可以使用为 scRNA-seq 开发的工具。对具有 atlas-level 的 scATAC-seq 数据集成工具进行的基准研究表明，大多数工具的性能较差，这可能归因于数据的稀疏性和二进制性质。Harmony ，Seurat v3 和 scVI 在批次去除和生物学差异保护之间表现出最佳的平衡性。用于批次校正的数据整合工具也可用于整合多组学单细胞数据（例如，整合从同一组织来源产生的 scRNA-seq 和 scATAC-seq 数据），后续将进一步介绍。

3.5. 数据转换

尽管尝试了各种实验技术增加测序输出，但据报道，从单个细胞读取的 peak 仅占 scATAC-seq 分析中总可检测 peak 的1〜10％。因此，使用数据转换代替初始 cell-feature 矩阵进行下游分析，可以补偿数据稀疏性带来的限制。由于 scATAC-seq 文件的二元性（对于单个细胞分别用1和0表示基因组区域的开放和不开放），topic 建模的经典文本挖掘方法可用于数据转换。用 TF-IDF 方法对 cell-feature 矩阵进行转换，使细胞群体中稀有 peak 有更大的权重，变换后的数据矩阵趋于捕获不同细胞类型特异 peak。还可以利用 Jaccard 距离衡量两个细胞间的差异。更高的测序深度可以为精确获取特征值提供帮助，有一些方法通过测序深度权衡每个细胞的特征。

3.6. 降维、聚类及可视化

经数据转换后 cell-feature 矩阵进行降维处理可以减少冗余信息、高维数据的潜在噪声、下游分析的计算时间。PCA 是一种广泛使用的线性降维技术，根据 scree 图分析或 Jackstraw 检验确定主成分数目。Topic 建模方法（例如cisTopic）基于潜在 LDA 生成的主题细胞分布来选择 Topic，从而减少矩阵的维数。虽然 LDA 较耗时，但它可以获得细胞类型特异的特征值以提高聚类的准确性。LSI 是通过使用 TF-IDF 后进行 SVD 进行降维。MDS 基于细胞之间的相似性来降维。Diffusion map 是降维处理的一种非线性方法，它倾向于对噪声进行排序。虽然一些数据分析流程省略了线性降维步骤，但其使用可改善下游分析的总聚类结果。这些降维方法的结果将用作可视化和聚类的输入。常使用非线性降维技术，例如 t-SNE 和 UMAP 可视化二维或三维空间中的数据，这些技术通常称为嵌入。UMAP 可视化倾向于更好地保留全局结构，而 t-SNE 可视化则倾向于保留局部邻域。单细胞分析中，目前关于用哪种降维方法仍存在争议，方法的选择通常取决于每个数据集的属性和所使用的数据预处理方法。因此，建议对给定的数据集应用多种可视化方法，再根据获得的结果进行选择。具有相似开放区的细胞可聚集成细胞群，scATAC-seq 数据分析常使用聚类方法：层次聚类，k-means，k-medoids 和 Louvain 算法。层次聚类对于理解细胞类群之间的整体关系很有用，结果常用树状图可视化显示捕获的层次关系。k-means 和 k-medoid 是需要预设聚类数目的算法，K-medoids 聚类对噪声的鲁棒性更强，但该方法也需更强的计算能力。Louvain 聚类是一种基于图的聚类方法，常以 KNN 方法的结果作为输入。一些分析工具可能具有首选的聚类方法，但大多数情况下，这些方法是可以互换的。最近对 scATAC-seq 数据进行聚类测试结果显示，用 Louvain 聚类的结果最为令人满意。

4 . 产生假设的下游分析

单细胞组学研究的主要目的是针对复杂混合的异质细胞群体的不同子集产生生物学假设。因此，下游分析从识别细胞群身份开始。通常对每个细胞群进行 peak calling 以识别不同细胞群的可及性染色质区域，然后对其进行统计检验，与各种预先定义的基因组特征（例如顺式和反式调控元件以及遗传变异）相关联，例如与疾病相关的SNP。下游分析的主要目的是发现新的调控元件，并以细胞类型特异性的方式了解其功能作用。此外，还可以在下游分析过程中研究细胞发育过程中染色质可及性的动力学。

4.1. 细胞身份注释

对于单细胞组学数据的分析，细胞群身份注释是初步的，但必须谨慎进行。错误的细胞身份信息可能会在 scATAC-seq 数据的下游分析期间导致错误的生物学假设。尽管有许多工具可以对 scRNA-seq 数据自动进行细胞类型注释，还可以从各种数据库中获得细胞类型特异性基因列表，但对于 scATAC-seq 数据仅有有限的工具和特定细胞类型染色质可及性的参考数据集。因此，对于 scATAC-seq 数据，必须结合使用补充方法进行细胞群注释。目前有两种方法进行细胞身份注释：第一个基于 ATAC peak 的特征注释，第二个是利用与参考 scRNA-seq 数据的整合进行注释。细胞聚类后，每个细胞群的差异可及性区域可能包含不同的调控元件。细胞身份注释的第一种方法使用细胞群特异性的 peak 进行注释，监督或手动注释细胞群身份需要参考数据库或有关细胞类型特定基因组特征（例如TF motif，增强子，启动子和TSS）的文献。基于细胞类型特异的基因列表，启动子和 TSS 被最广泛地用于细胞群注释。一些简易的方法通过启动子或 TSS 上游一定距离内 peak 的存在来定义细胞类型特异性基因的可及性，而高级的分析则考虑了远端和近端调控因子的影响。“基因活性分数”对与基因启动子区共开放元件给予不同权重，从而可以更准确地利用染色质可及性推断基因表达水平。与简单的使用启动子区可及性相比，基因活性分数能更好的表征基因表达。Garnett 软件利用基因活性分数和已知细胞类型的先验特征及标记基因对细胞类型进行监督分类。第二种方法的优势是使用了 scRNA-seq 数据去区分细胞类型。可将来自 scRNA-seq 数据的基因表达矩阵与来自相同细胞类型的 scATAC-seq 数据的基因活性矩阵整合在一起。将它们投影到最大相关维度后，使用 MNN 算法将细胞标记从 scRNA-seq 数据转移到 scATAC-seq 数据。尽管具有高度主导的细胞类型或与其他组学数据不匹配的细胞类型的样本显示出准确性方面的局限性，但细胞身份注释的总体结果与匹配的数据集一致。通过对 scATAC-seq 数据中的细胞群体进行半监督识别，现有的参考 scRNA-seq 和 bulk ATAC-seq 数据可用于生成 scATAC-seq 样本的网络，进而将标签进行转移。

4.2. 染色质可及性动力学研究

通过差异可及性区域分析、拟时序相关的变化、共可及性相关的各种基因组元件可以产生细胞发育调控的假设。差异可及性区域分析用于识别每种细胞类型特异的调控元件，通过将特定细胞群的染色质可及性与数据集中的所有其他细胞进行比较，来识别细胞类型特异的差异可及性区域，采用的统计检验包括二项式检验、负二项式广义线性模型、Wald 检验、Fisher 精确检验、不等方差 t 检验。用 Benjamini-Hochberg 或Bonferroni 进行信息获取的1％或5％ FDR 调整。单细胞轨迹分析利用细胞的拟时序来重建分化过程或细胞谱系。如果染色质可及性在细胞群内是连续变化的，轨迹分析将非常有用。Cicero 是 scATAC-seq 常用的轨迹分析软件，是 Monocle2 的扩展软件。Cicero 通过汇总邻近的 peak 克服数据稀疏性，选择差异可及性区域定义时间状态，利用 DDRTree 方法根据拟时序对细胞进行排序，可以描述选定基因组区域的染色质可及性动力学。STREAM 是可以处理转录组数据和表观基因组数据的轨迹分析工具，利用 scATAC-seq 数据中高变染色质可及性区域内 k-mer 得分矩阵构建拟时序轨迹。STREAM 的优势在于从未处理的原始数据文件开始的无偏见 end-to-end 流程。轨迹分析可用于鉴定与细胞从一种细胞类型发展到另一种细胞类型相关的细胞类型特异调控元件。例如，如果在分化过程中 TF motif 的可及性发生了显着变化，则可进一步分析其参与分化的激活或启动。不同基因组元件之间的相互作用对于理解调控网络非常重要，可通过不同基因组元件的共可及性分析互作关系。Cicero 对相似的细胞进行分组生成细胞可及性矩阵，计算重叠的基因组窗口中每对基因组元件之间的协方差得到共可及性关系，用于分析 TSS 与增强子，启动子和其他基因组元件之间的相互作用。

4.3. 基于 TF motif 的假设产生

TF 主要是基因表达的反式作用调控子。scATAC-seq 的分析可以识别异质性细胞群体中细胞类型特异的 TF，TF 高度参与了发育过程，因此对细胞间 TF 表达的变异进行分析将有助于了解它们在细胞分化过程中的作用。此外，scATAC-seq 可同时分析与相关 TF 活性相关的顺式调控元件。用 scATAC-seq 数据研究 TF 需软件包、数据库及TF 结合 motif。最初，主要是用已知的 TF motifs 进行 scATAC-seq 的分析。一些不是专为 scATAC-seq 开发的生物信息学工具，例如 Homer 和 FIMO，也可用于识别开放染色质区域内的 TF motif。chromVAR 是专为scATAC-seq 分析开发的软件包，用于计算 TF motif 和 k-mers 的校正偏差和 z-score。利用 ChromVAR 计算已得到免疫细胞、心脏祖细胞、神经元细胞等细胞类型相关的 TF。此外，可以将 TF motif 可及性与 scRNA-seq 数据的 TF 表达水平进行比较，使用如卷积神经网络和随机森林分类等模型，识别细胞类型特异的 TF 并根据这些 TF 预测细胞类型。

4.4. 基于基因的假设产生

scRNA-seq 用于异质性细胞群体的基因表达谱研究，而对于 scATAC-seq，基因表达可以通过 TSS、基因区域和其他调控元件的染色质可及性信息推断。活性基因的 TSS 和 TTS 位于染色质开放区或核小体耗竭区内，因此，TSS的可及性可用于scATAC-seq 数据基于基因的下游分析。UROPA 使用基因组注释数据库去注释 scATAC-seq peak 内的TSS，再用于比较 TSS 染色质的开放和闭合、计算 TSS 基因集偏差、根据已知的标记基因鉴定细胞类型和状态等下游分析。然而，仅考虑 TSS 的染色质状态可能无法完全表征基因表达，而计算“基因活性评分”还考虑到调控元件的影响，可以改善可及性信息向基因表达的转化。Cicero 基因活性评分考虑了基因TSS 近端和远端的可及性，并基于共可及性给予不同权重。基因活性评分已用于比较同一 scATAC-seq 数据的 TF motif 可及性和 TF 基因活性分数、根据细胞类型特异性标记基因注释细胞、将 scRNA-seq 数据集的细胞标签转移至匹配的 scATAC-seq 数据集。最后，Deeptools 和 MACS2 生成的 bigwig 文件，可以使用基因组浏览器（例如Gviz、IGV 和 UCSC）展示基因区域内染色质可及性。不同细胞群间基因集合的富集分析可用于识别与细胞身份相关的通路，GO 和KEGG 是最常用的数据库。基于细胞类型特异性可及性区域相关的基因分析与细胞群相关的通路分析，使用基因区域上游和下游延伸区域内的peak、TSS 区域内的 peak 或具有基因活性评分的peak 作为通路分析的输入数据。GREAT、clusterProfiler 等基因集富集工具都可用于 scATAC-seq 数据。

4.5. 基于增强子的假设产生

增强子是远离其调控靶基因的顺式调控元件。通过分析染色质的3D 结构，已鉴定出增强子与其他调节元件的近端或远端相互作用。增强子密集区被称为超级增强子，是细胞类型和状态特异的，并参与与疾病相关的调控节点。基于单细胞分辨率研究增强子可预测特定细胞类型，且比其他顺式调控元件和转录组具有更高的准确性。许多研究集中于鉴定细胞类型特异性增强子及其在发育过程中的作用。增强子分析的最常见类型包括识别特定细胞类型的远端和近端增强子和增强子活性的相对富集。VISTA、CAD、Redfly Enhancer 和 Vienna Tiles等数据库都可以用于这种分析。此外，在一些数据分析流程中还建议分析增强子与启动子或具有共可及性的基因的相互作用、配对的 scRNA-seq 数据、虚拟潜在空间、Activity-by-Contact模型。

4.6. 与疾病相关的遗传变异的假设产生

通过 GWAS 和 eQTL 分析检测到的与疾病相关的SNP，是了解疾病的基因组调控的有效方式。由于大多数 SNP 位于非编码区，可以预期许多 GWAS SNP 和 eQTL与顺式调控元件有关。因此，开放染色质区域的研究可用于确定这些变异位点的功能效应。此外，鉴定与疾病相关变异有关的细胞类型，对于深入了解这些变异至关重要。scATAC-seq 从单细胞水平鉴定 DNA 序列和调节元件的染色质可及性，将遗传变异与其细胞和功能靶标联系起来。尽管通过批量测序方法将表观遗传学特征与 GWAS 信号关联已经提供了有用结果，但单细胞分辨率分析使我们能够克服细胞类型异质性带来的局限性。实际上，一些研究已经证明了在细胞类型特异性 peak 中提供 GWAS SNP 富集谱的重要性。gchromVAR 为改良版的 chromVAR，对每个单细胞进行 GWAS 富集评分，以特定于细胞类型的方式鉴定基因组区域中的因果变异以及这些变异的推定靶基因。利用共可及性测定可以分析与 GWAS SNP 和 GTEx eQTL 重叠的互联 peak 与其他包含调控因子的 peak。GREGOR 还用于注释来自不同数据库的疾病相关 SNP 的富集。最近的一些研究还用深度学习和机器学习框架等更复杂模型来识别细胞类型特异的功能 SNP 和相关新功能基因。

5与单细胞转录组数据的整合分析

将单细胞基因表达和染色质可及性数据整合可以改善细胞身份注释。更重要的是，多模式数据的联合分析将有助于检测感兴趣细胞状态下反式和顺式调控元件之间的相关性。可以通过实验方法和计算方法对单细胞转录组和染色质可及性进行整合分析。

image

图3. 通过实验方法和计算方法将 scATAC-seq 数据与scRNA-seq 数据整合在一起。相同细胞类型的基因表达和染色质可及性的整合分析可用于确认细胞身份注释并促进生成基于调控元件的新假设。例如，鉴定 peak 与基因之间的相互作用可以推断出增强子与启动子之间的相互作用。比较基因的表达与拟时序中 TF 富集区域的可及性，可以揭示转录与调控区域之间的动力学关系。比较基因表达与跨细胞类型或样品组的 TF 富集区域的可及性，可以揭示细胞类型或亚群特异的表达基因和基因组可及性区域。

整合分析的实验方法侧重于同时从同一细胞获得转录组和表观基因组数据。多模式单细胞分析方法 sci-CAR 对 scRNA-seq和 scATAC-seq 都采用了组合索引方法提高通量。另一种方法是 scCAT-seq，将细胞质组分和细胞核分离，分别进行 scRNA-seq 和 scATAC-seq。SNARE-seq 利用链接 barcode 在单个液滴中捕获转座的 DNA 片段中的 gDNA 和细胞核中的 mRNA，从而对使用相同 barcode 的细胞进行平行测序。该方法用化学试剂固定细胞，然后对单个细胞分选进行批量转座，以降低成本并简化总体程序。使用多种模式的单细胞技术，可以将染色质的可及性直接与基因表达进行比较，以了解顺式/反式调控元件与相关基因表达之间的功能关系。目前有算法能够进行来源于不同样本组、不同实验甚至是不同技术的单细胞基因组数据的整合分析。基于 NMF 的方法，如 CoupledNMF 和 LIGER，已被用于多模式的单细胞数据整合分析。Seurat v3 是 scRNA-seq 和 scATAC-seq 整合分析的常用软件。Seurat v3通过将两个不同的数据集投影到由相关变量定义的子空间中，然后识别数据集之间的锚点，从而整合多模式单细胞数据。Harmony 是一种基于数据特异细胞群迭代校正的快速且可扩展的算法。最近报道了很多数据整合的算法，包括 MMD-MA 和 DC3。单细胞多组学整合已用于验证细胞身份，将差异表达基因与差异科技型区域连接起来推断增强子-启动子的相互作用。观察到 TF-motif 预测的增强子可及性在基因表达变化之前的趋势，并鉴定了跨细胞类型或样品组的染色质可及性和转录的保守性。

6 结论与展望

单细胞测序的高成本和数据的高复杂性可能会限制许多研究人员对单细胞生物学的可及性探究。科研人员付出了许多努力来改善包括 scATAC-seq 数据分析在内的单细胞组学的实验和计算方法。尽管尚未在数据分析流程中达成合理的共识，但近来有关 scATAC-seq 的数据生成技术和数据分析方法的文章数量呈指数型增长。使用不同方法进行数据生成和分析的基准研究将为建立 scATAC-seq 数据分析的最佳流程提供有用的信息。而且，与其他类型的单细胞和大量组学数据以及基因组变异数据的整合，将大大增强 scATAC-seq 在疾病相关复杂基因调控关系中的应用研究。特别是将 scATAC-seq 与其他表观技术（例如 ChIP-seq 和 Hi-C）整合在一起，将揭示3D染色质结构。这种综合的多模式分析将有助于识别与疾病进展有关的关键调节因子，这些调节因子通常是潜在的治疗靶标和诊断的生物标志物。未来，scATAC-seq 将促进表观遗传调控的整体发展，并参人类和其他多细胞生物的正常细胞发育和疾病研究。

欢迎评论交流~~😐

【转】单细胞 ATAC 测序分析：从数据预处理到假设生成

Tips：

摘 要

1.简介

2.scATAC-seq 技术

3 数据处理

3.1. 测序读段的处理

3.2. 质量控制

3.3. cell-feature 矩阵构成

3.4. 批次校正和数据整合

3.5. 数据转换

3.6. 降维、聚类及可视化

4 . 产生假设的下游分析

4.1. 细胞身份注释

4.2. 染色质可及性动力学研究

4.3. 基于 TF motif 的假设产生

4.4. 基于基因的假设产生

4.5. 基于增强子的假设产生

4.6. 与疾病相关的遗传变异的假设产生

5与单细胞转录组数据的整合分析

6 结论与展望

摘要