scATAC分析神器ArchR初探-简介(1)
scATAC分析神器ArchR初探-ArchR进行doublet处理(2)
scATAC分析神器ArchR初探-创建ArchRProject(3)
scATAC分析神器ArchR初探-使用ArchR降维(4)
scATAC分析神器ArchR初探--使用ArchR进行聚类(5)
scATAC分析神器ArchR初探-单细胞嵌入(6)
scATAC分析神器ArchR初探-使用ArchR计算基因活性值和标记基因(7)
scATAC分析神器ArchR初探-scRNA-seq确定细胞类型(8)
scATAC分析神器ArchR初探-ArchR中的伪批次重复处理(9)
scATAC分析神器ArchR初探-使用ArchR-peak-calling(10)
scATAC分析神器ArchR初探-使用ArchR识别标记峰(11)
scATAC分析神器ArchR初探-使用ArchR进行主题和功能丰富(12)
scATAC分析神器ArchR初探-利用ArchR丰富ChromVAR偏差(13)
scATAC分析神器ArchR初探-使用ArchR进行足迹(14)
scATAC分析神器ArchR初探-使用ArchR进行整合分析(15)
scATAC分析神器ArchR初探-使用ArchR进行轨迹分析(16)
2-使用ArchR进行双胞推断
单元格数据中的主要问题来源之一是“双胞”对分析的贡献。双胞是指接收单个条形码珠和一个以上核的单个液滴。这导致从多个单元读取的读数显示为单个单元,实际上是两个单元的平均值。我们将以计算方式删除这些内容,并在本章中深入描述此doublet删除过程。
2.1双重识别在ArchR中如何工作?
基本上在任何平台上生成的单细胞数据都容易出现双胞。双胞是指接收单个条形码珠和一个以上核的单个液滴。这将导致从多个单元格读取的数据显示为单个单元格。对于10倍,实际上是双胞的“细胞”总数的百分比与加载到反应中的细胞数成正比。即使在使用标准试剂盒导致双胞水平较低的情况下,也可能有超过5%的数据来自双胞,这对聚类产生了重大影响。这个问题在发育/轨迹数据的背景下变得特别成问题,因为双胞看起来像是两种细胞类型之间的混合物,并且这可能与中间细胞类型或细胞状态混淆。
为了预测哪些“单元格”实际上是双胞,我们通过混合来自数千个单个细胞组合的读数,从数据中合成计算机双胞。然后,我们将这些合成双胞投影到UMAP嵌入中,并确定它们的最近邻居。通过重复执行数千次此过程,我们可以识别数据中的“单元”,其信号看上去与合成双胞相似。
为了开发和验证ArchR的双重识别,我们从10种遗传上不同的细胞系的混合混合物中生成了scATAC-seq数据。在scATAC-seq空间中,这10个细胞系应形成10个不同的簇,但是当我们故意使10x Genomics scATAC-seq反应超载,每个反应靶向25,000个细胞时,我们会得到许多双胞。我们知道这些是双胞,因为我们使用Demuxlet识别包含两种不同细胞类型的基因型的液滴。
这个“基本事实”与上面所示的双胞预测非常强烈地重叠,显示出接收器工作特性曲线下的面积> 0.90。
在用ArchR计算移除这些双胞后,我们数据的整体结构发生了巨大变化,并符合我们对10种不同细胞类型的期望。
2.2使用 ArchR推断scATAC-seq双胞
默认情况下,ArchR使用ArchR手稿中描述的doublet参数。这可能是一个不错的起点,但我们鼓励所有用户检查双倍体去除前后的数据,以了解双倍体去除对细胞的影响。我们在下面显示一些主要的可调节功能,以说明如何针对给定应用定制此功能。
在ArchR中,使用可以在一个步骤中完成双胞删除addDoubletScores()
。这会将推断的双胞得分添加到每个Arrow文件中,每个教程数据样本大约需要2-5分钟。您始终可以尝试?addDoubletScores
查看有关用于doublet识别的参数(或与此相关的任何ArchR函数)的更多文档。
doubScores <- addDoubletScores(
input = ArrowFiles,
k = 10, #Refers to how many cells near a "pseudo-doublet" to count.
knnMethod = "UMAP", #Refers to the embedding to use for nearest neighbor search with doublet projection.
LSIMethod = 1
)
ArchR记录到:ArchRLogs / ArchR-addDoubletScores-e60f2395c3f7-Date-2020-04-15_Time-09-28-44.log
如果有问题,请使用logFile向github报告!
2020-04-15 09:28:44:批量执行w / safelapply !,已过去0分钟。
2020-04-15 09:28:44:scATAC_BMMC_R1(3之1):计算Doublet统计信息,已过去0.001分钟。
scATAC_BMMC_R1(3之1):UMAP投影R ^ 2 = 0.9736
scATAC_BMMC_R1(3之1):UMAP投影R ^ 2 = 0.9736
2020-04-15 09:31:15:scATAC_CD34_BMMC_R1(2之3 ):计算Doublet统计信息,已过去2.511分钟。
scATAC_CD34_BMMC_R1(2之3):UMAP投影R ^ 2 = 0.99046
scATAC_CD34_BMMC_R1(2之3):UMAP投影R ^ 2 = 0.99046
2020-04-15 09:32:40:scATAC_PBMC_R1(3之3):计算Doublet统计信息,已过去3.936分钟。
scATAC_PBMC_R1(3 of 3):UMAP投影R ^ 2 = 0.97507
scATAC_PBMC_R1(3 of 3):UMAP Projection R ^ 2 = 0.97507
ArchR成功登录到:ArchRLogs / ArchR-addDoubletScores-e60f2395c3f7-Date-2020 -04-15_Time-09-28-44.log
在上面的输出中,ArchR报告每个Arrow文件的UMAP投影的R 2值。如果这些R 2值低得多(即小于0.9),则通常表明Arrow文件中的单元格具有很少的异质性。这会使doublet调用的准确性变差,因为doublets的大多数将是“同型的”-或具有两个非常相似的单元的单个液滴。在这些情况下,我们建议跳过双胞预测。或者,您可以尝试设置knnMethod = "LSI"
并force = TRUE
在LSI子空间中执行投影;但是,您应该手动评估结果,并确保其效果符合预期。
添加双峰得分将在“ QualityControl”目录中创建图。此文件夹中的每个样本都有3个图:
- 双胞富集 -如果我们假设分布均匀,则表示与预期单元格相比,每个单个单元格附近模拟双胞的富集。
-
Doublet分数 -
-log10(binomial adjusted p-value)
如果我们假设分布均匀,则表示与预期相比,每个单元格附近模拟Doublet的显着性()。我们发现此值不如doublet富集一致,因此使用doublet富集进行doublet鉴定。 - 双峰密度 -表示模拟的双胞投影的密度。这样一来,您就可以直观地看到合成二重体在投影到二维嵌入物中后的位置。
对于BMMC:
对于CD34 BMMC:
对于PBMC: