在过去约 2 年中开发了几种方法,可以同时测量单细胞中的 DNA 可及性和基因表达。对我来说,这些联合检测方法是单细胞生物学中最令人兴奋的前沿之一,并将开辟一系列研究基因调控的新方法。
这些新的单细胞共检测方法包括 sciCAR、scCAT-seq、SNARE-seq、Paired-seq、ASTAR-seq、SHARE-seq,以及 10x Genomics 最近发布的商业解决方案。在这篇文章中,我将概述每种方法,解释它们的工作原理,并对每种方法的优缺点发表一些评论。在查看这些方法时需要考虑的一些重要事项是灵敏度和细胞通量、有多少百分比的细胞获得了两种测定的可用测量值、实验工作流程的复杂性/难度以及它们是否使用细胞或细胞核作为输入。请记住,我自己没有运行任何这些协议,这里介绍的所有内容仅来自阅读论文,并且在某些情况下探索公开可用的数据集。
sci-CAR
https://www.science.org/doi/10.1126/science.aau0730
sci-CAR 方法是第一个发表的单细胞基因表达 DNA 可及性共测定方法(Cao et al. 2018)。它使用基于板的组合索引策略,基本上结合了 sciRNA-seq 和 sciATAC-seq。基本工作流程如下:
- 提取细胞核(固定或不固定)
- 分配到井中
- 使用具有良好特异性条形码和 UMI 的 oligo-dT RT 引物通过原位逆转录(核内 RT)添加 RNA-seq 索引
- 通过带有条形码的 Tn5 适配器(非常具体)的原位标记添加第一个 ATAC-seq 索引。在此阶段不要添加 SDS,因此 DNA 与 Tn5 集成保持完整。
- FANS 汇集和重新分配原子核
- 对 cDNA 进行第二链合成
- 裂解核
- 分成 ATAC 和 cDNA 部分
- 通过转座与未索引的 Tn5 对 cDNA 进行片段化
- 使用未条形码 Tn5 适配器手柄和 RT 引物特有的引物放大 cDNA 3' 标签。这包含了第二个特定于井的索引并提供了 RNA 库。
- 使用特定于条形码 Tn5 适配器的引物放大 ATAC 裂解物。这还添加了第二个特定于井的条形码。这给出了 ATAC-seq 库。
关于此协议,有几点需要注意。首先,我预计第一个 Tn5 转座也会导致一些整合事件到原位 PCR 产生的 RNA/DNA 异源双链中,因为 Tn5 可以整合到 RNA/DNA 异源双链中(Di et al. 2020). 这会降低 RNA 检测的灵敏度,因为它会干扰第二链合成,并可能导致一些 cDNA 分子进入 ATAC 文库并被误认为是开放的染色质区域。公平地说,我认为 2018 年 Tn5 可以整合到异源双链中并不广为人知。更好的策略可能是先进行标记,然后进行原位 RT。sciCAR 的 ATAC 检测灵敏度比标准 scATAC-seq 低约 10 倍。大多数细胞 (88-93%) 都有 RNA 和 ATAC 的测量值。
作者使用他们的共同分析数据集进行了一些有趣的分析,如果可以改进实验方法,他们确实能够突出这些类型的单细胞数据集的潜在效用。他们发现启动子可及性和基因表达之间的相关性较弱,尽管这很可能受到两种测量的低灵敏度的重大影响。许多基于 ATAC 的分析是使用精细聚类的“伪单元”执行的,以帮助减少数据稀疏性。使用 RNA 和 ATAC 测量,他们能够将峰与使用 LASSO 正则化回归可能调节的基因联系起来。
scCAT-seq
scCAT-seq 是一种基于低通量平板的双基因表达 DNA 可及性分析方法(Liu et al. 2019)。工作流程如下:
- 使用 FACS 将单个细胞分配到板中的孔中
- 使用温和裂解条件(10 mM NaCl、10 mM Tris-HCl、pH 7.5、0.2% IGEPAL CA-630)裂解细胞。IGEPAL 是一种非离子洗涤剂,与 Triton X-100 非常相似。
- 涡旋和离心机。目标是裂解细胞膜而不是细胞核。
- 提取上清液并转移到不同的板(mRNA 和细胞核的物理分离)。
- 在 RNA 分数上运行 Smart-seq2 协议。
- 在细胞核上运行 ATAC-seq(转座后添加的载体 DNA)。
尽管该方法的通量非常低,但就每个细胞检测到的基因和 DNA 片段的数量而言,数据质量似乎非常好。然而,使用 Smart-seq2 协议意味着没有用于基因表达测定的 UMI。您可以在此处运行任何基于板的 scRNA-seq 方法,因此更新到 Smart-seq3 协议(包括 5' UMI)不会成为问题(Hagemann-Jensen et al. 2020)。对于难以获得的小组织样本,例如人类胚胎(使用论文),这可能是一个好方法。
SNARE-seq
https://www.nature.com/articles/s41587-019-0290-0
SNARE-seq 是第一个基于液滴的 RNA/ATAC 联合检测方法,它使用一些巧妙的技巧使用标准 Drop-seq 珠子收集 DNA 和 RNA 信息(Chen、Lake 和 Zhang 2019)。与 sciCAR 和 scCAT-seq 相比的一个优势是它不需要通过 FANS 进行任何细胞分类。它使用以下工作流程:
- 从细胞中提取细胞核
- 批量标记核
- 使用 Drop-seq 仪器将细胞核封装在液滴中。一个特殊的夹板寡核苷酸被添加到跨越 Tn5 适配器序列突出和 Drop-seq 珠子上的寡核苷酸-dT 捕获序列的缓冲区中。
- 将珠子加热到 72ºC 以释放 Tn5 并释放标记的 DNA
- 多腺苷酸化 mRNA 与珠结合的 RT 引物退火
- 片段化的 gDNA 通过夹板寡核苷酸间接退火到珠结合的 RT 引物上,夹板寡核苷酸能够与 Tn5 接头突出序列和寡核苷酸-dT RT 引物序列退火
- 打破乳液并执行 RT 和连接,将珠子特异性条形码添加到 mRNA 和 gDNA 片段中。
- 执行 PCR 以从磁珠中扩增 cDNA 和 gDNA 文库
- 拆分为 cDNA 和 gDNA 文库
作者制作了 P0 和成年小鼠大脑的数据,与早期的 sciCAR 方法相比,RNA 和 ATAC 检测的灵敏度显着提高。P0 小鼠大脑数据集包含一些兴奋性神经元的发育轨迹,作者能够展示一些有趣的例子,其中染色质变化先于伪时间细胞排序中的转录变化。处理原始 SNARE-seq 数据的代码可在此处获得: https ://github.com/timoast/SNARE-seq 。
Paired-seq
https://www.nature.com/articles/s41594-019-0323-x
与 sci-CAR 一样,Paired-seq 是一种基于组合索引的联合分析方法(Zhu et al. 2019)。与 sciCAR 不同,它使用连接来构建细胞条形码(而不是 PCR),在这个意义上更类似于 SPLiT-seq (Rosenberg et al. 2018):
- 将原子核分配到八个管中
- 使用条形码 Tn5 标记核(每个管的条形码不同)
- 离心并洗涤沉淀,重悬于缓冲液中进行逆转录
- 将条形码 RT 引物添加到每个管中并执行逆转录
- 合并来自所有管的细胞核
- 添加连接混合物并分配到板中的孔中,每个孔中都有条形码寡核苷酸和阻断剂
- 孵化,然后再重复两次合并和重新分配步骤,再进行两轮条形码
- 裂解细胞核并提取 DNA
- 使用末端脱氧核苷酸转移酶 (TdT) 辅助 DNA 扩增来扩增 DNA。TdT 是一种聚合酶,可以将未模板化的核苷酸添加到 DNA 链中,因此可用于在 DNA 分子末端添加碱基以形成引物结合位点。
- 分成两部分用于 cDNA 和 ATAC 文库
- 在 cDNA 和 ATAC 文库中添加不同的限制酶。这将专门切割源自 RT 或标记的片段,具体取决于添加的 RE。
与早期方法相比,Paired-seq 大大增加了 RNA/ATAC coassay 的可扩展性。这是由于使用了组合索引策略,带有多轮条形码。我喜欢他们首先标记 DNA(在 RT 之前),防止任何可能的 DNA/RNA 异源双链标记。他们也不使用任何 FANS,这简化了工作流程。
然而,由于文库的构建方式,ATAC-seq 分析不是配对末端。读取 1 用于读取 gDNA 序列(标记 DNA 的一端)或用于 RNA 测定的 cDNA,读取 2 用于对一系列细胞条形码进行测序。对于 ATAC-seq,重要的信息是 Tn5 整合位点,因此仅对一个 gDNA 末端进行测序可将每个细胞测量的位点数量减少一半。您还会丢失片段长度信息,这对于 QC 或某些分析很有用。然而,我们知道每个测序的 ATAC 片段必须来自两个整合事件,因此能够精确地映射这两个事件中的一个并不完全等同于从检测返回的信息量减半。
作者使用他们的数据集展示了一些有趣的分析。特别是,他们展示了一种简单的联合聚类方法,该方法通过从每个分析(ATAC 或 RNA)中创建相邻图并获取相邻图的 Hadamard 乘积来整合来自两种数据模式的信息。Hadamard 乘积只是两个相同维度矩阵的元素乘积,因此当应用于两个图形时,它将删除仅存在于两个图形之一中的任何边。我不清楚去除一种分析所特有的边缘是否一定是一件好事,因为在一种模式中可能存在有趣的结构,而对第二种模式的分析并不那么明显。由 Yuhan Hao 领导的 Satija 实验室最近的工作,(Hao 等人,2020)。
与 sciCAR 工作类似,作者还使用 Pearson 相关性将峰与附近的相关基因联系起来,并根据 Jaccard 相似性将细胞“微簇”成小组,以减少数据稀疏性。在这里,他们更进一步,生成了 PLAC-seq 数据,以验证他们发现的一些峰值基因链接。
ASTAR-seq
单细胞转录组和可及区域分析(ASTAR-seq,巧合的是在新加坡的 ASTAR 开发)使用集成微流体芯片 (Fluidigm C1) 来划分细胞,类似于第一个 scATAC-seq (Xing et 2020 年;布恩罗斯特罗等人 2015 年)。然后在芯片内用 Tn5 标记细胞,然后用生物素化的引物对 RNA 进行逆转录和扩增。将生物素掺入 cDNAs 允许以后用链霉亲和素珠分离 ATAC 和 RNA 文库。值得注意的是,作者在论文中指出,他们尝试了一种在标记之前执行 RT 的方法,但没有成功。他们将此归因于 Tn5 消化单链 cDNA。我喜欢他们在论文中包含这些细节,因为没有*工作通常可以像工作一样提供信息,但通常不会在最终论文中报告。
ASTAR-seq 的通量相当低,因为它依赖于使用微流控芯片。与大多数低通量方法一样,灵敏度也往往更高。作者在论文中与 scCAT-seq 进行了比较,因为他们说这是最相似的已发表方法。阅读 scCAT-seq 论文时我没有注意到的一点是所需的巨大测序深度。为了比较 ASTAR-seq 和 scCAT-seq,作者在一个 HiSeq 4000 通道上对 40 个细胞进行了测序。他们的补充图 2E 显示了 SNARE-seq、sciCAR、Paired-seq、scCAT-seq 和 ASTAR-seq 之间的成本比较,非常引人注目。这些数字会略有变化,具体取决于不同实验室中检测的“好坏”程度(单个实验产生了多少高质量细胞),
SHARE-seq
同时高通量 ATAC 和 RNA 表达测序 (SHARE-seq) 是一种用于检测同一细胞中 mRNA 和 DNA 可及性的方法,于今年早些时候在 biorxiv 上发布,最近在 Cell 上发表(Ma et al. 2020)。它类似于 SPLiT-seq (Rosenberg et al. 2018)和 Paired-seq:
- 用 Tn5 制备和转置固定的、透化的细胞或细胞核
- 使用含有 UMI 和生物素标签的引物逆转录 mRNA。
- 细胞分布在孔中
- 与特异性良好的条形码寡核苷酸杂交。它们与 Tn5 接头和 RT 引物手柄杂交,允许 RNA 和 ATAC 分子获得相同的条形码集。
- 通过汇集和重新分配细胞来执行重复的几轮结扎条形码。在每次连接后添加与前一轮条形码互补的封闭寡核苷酸,以防止在随后的连接循环中掺入前一轮条形码。
- 通过与高盐孵育以释放带条形码的 gDNA 和 cDNA 分子进行反向交联。
- 通过链霉亲和素珠从 ATAC 分子中分离 cDNA。
- 准备单独的 ATAC 和 RNA 文库进行测序
SHARE-seq 方法有几个优点。它不需要专门的设备(没有液滴或 FACS),只需要一些板和移液器。它的通量也非常高,并且可以添加额外的几轮条形码,以进一步增加能够在单个实验中进行分析的细胞数量。重要的是,与 Paired-seq 相比,SHARE-seq 能够对 ATAC-seq 片段的两端进行测序,方法是使用超长的 99 循环索引 1 读取来对细胞条形码进行测序。请注意,大多数 Illumina 机器会限制软件中的索引周期数,如果用户想要将索引周期数扩展到 20 以上,则需要联系 Illumina 以获取自定义运行配方。作者将 SHARE-seq 的灵敏度与sciCAR、SNARE-seq、Paired-seq相比较,发现RNA和ATAC分析的灵敏度都有显著提高。
通过提高敏感性,并通过分析一些更有趣的组织类型(小鼠皮肤,包含经历发育轨迹的细胞),作者能够展示一些令人兴奋的新分析,突出这些类型数据集的价值,特别是对于研究发育中的细胞. 他们利用细胞核捕获更多未剪接的 RNA 来计算除 mRNA 丰度之外的 RNA 速度这一事实。这使他们能够按轨迹对细胞进行排序,并查看染色质状态、转录状态和 mRNA 丰度在细胞轨迹上的关系。正如预期的那样,染色质状态的变化(远端增强子的开放)先于转录速率的后期变化和剪接 mRNA 丰度的后期变化。
随着 RNA 和 ATAC 检测灵敏度的提高,作者还能够使用回归模型将峰与基因联系起来。这在许多以前的论文中已经完成,但该方法的准确性往往高度依赖于数据的质量。在这里,看起来数据开始达到可以识别可靠链接的水平,而无需像早期工作(例如 sciCAR 和 Paired-seq)那样将细胞池化为“微集群”。通过将峰与全基因组基因联系起来,他们将已知的超增强子(拉伸增强子)调节基因识别为比其他基因具有明显更多的关联 ATAC-seq 峰。确实需要将功能性非编码 DNA 元件与它们调节的基因联系起来,并且这种基于多模式回归的方法可能非常有用。Signac。
10x Genomics Multiome
10x Genomics 最近发布了他们的商业试剂盒,用于在同一细胞中进行双 RNA 和 ATAC 测量,他们称之为“Multiome ATAC + Gene Expression”试剂盒。他们的试剂盒使用标准的 10x 铬控制器将细胞封装在液滴中,与 scATAC-seq 试剂盒相似,您需要在将细胞核装入仪器之前对其进行批量提取和标记。这里需要注意的一个关键点是,与大多数其他 RNA + ATAC 方法一样,RNA 数据来自细胞核,因此更类似于 snRNA-seq 而不是 scRNA-seq。没有关于该方法如何工作的大量详细信息(10x 网站上的用户指南中有一些信息)。我们所知道的是,多组磁珠包含两种不同寡核苷酸的混合物,这些寡核苷酸含有相同的细胞条形码,但捕获序列不同,
10x 在他们的网站上有几个演示数据集(目前是人类 PBMC、人类大脑、小鼠大脑和患有 B 细胞淋巴瘤的人类淋巴结)。据我所见,这些数据的质量非常好,看起来与 SHARE-seq 数据相似。鉴于这些套件已在市场上销售,这几乎肯定会成为大多数希望生成这些多模式数据集的实验室的首选方法。