双细胞是指由于实验原因,在单细胞微流控等流程中某个液滴中含有2个及以上的细胞,而在同一个液滴中的细胞在后续分析中带有相同的Cell Barcode,从而会被认为是一个细胞的伪细胞。这类伪细胞的主要特点是检测的UMI数和基因数往往比正常细胞要多一倍及以上,另外可能会带有不同细胞类型的经典marker基因,会给细胞类型鉴定待了阻碍
双细胞可以分为同型(相同细胞类型)或异型(不同细胞类型)
1.
DoubletFinder的原理:从现有的矩阵的细胞中根据我们预先定义好的细胞类型模拟一些双细胞出来(比如单核和T细胞的双细胞、B细胞和中性粒细胞的双细胞等等),将模拟出的双细胞和原有矩阵的细胞混合在一起,进行降维聚类,原则上人工模拟的doublets会与真实的doublets距离较近,因此计算每个细胞K最近邻细胞中人工模拟doublets的比例( pAN ),就可以根据pANN值对每个barcode的doublets概率进行排序。另外依据泊松分布的统计原理可以计算每个样本中doublets的数量,结合之前的细胞pANN值排序,就可以过滤doublets了。
DoubletFinder 可分为 4 个步骤:
1)从现有的 scRNA-seq 数据生成人工双联体
2)预处理合并的真实-人工数据
3)进行PCA,利用PC距离矩阵求出每个细胞人工k近邻的比例(pANN)
4)根据预期双联体数量排序和阈值 pANN 值
- DoubletFinder有几个比较重要的参数和概念:
1)pN:指生成的模拟双细胞的数量,以合并的真实-模拟数据的比例表示,一般这个值设置为25%
2)pK:指最近邻细胞之间比例。没有设置默认值,pK需要根据不同的数据进行调整,寻找最优pK也是DoubletFinder中很重要的一步。
3)Homotypic:同源双细胞的比例,是指由两个或多个相同类型的细胞融合而成的假阳性细胞,而我们真正需要去除的是异源双细胞。
4)nExp:表示预计的异源双细胞数量
1.1 加载包以及数据预处理
## 安装并加载所需的R包
## if(!require(DoubletFinder))
## remotes::install_github('chris-mcginnis-ucsf/DoubletFinder')
library(DoubletFinder)
library(tidyverse)
library(Seurat)
library(patchwork)
load("scRNA_harmony.Rdata") # 一个完全处理的 Seurat 对象(已完成 NormalizeData、FindVariableGenes、ScaleData、RunPCA 和 RunTSNE等)
1.2 确定最优pK值
# 对"scRNA_harmony"这个单细胞对象进行pN-pK参数扫描,以生成人工双细胞并计算每个细胞的pANN值
sweep.res.list <- paramSweep_v3(scRNA_harmony, PCs = 1:20, sct = T)
# 对参数扫描的结果进行汇总,计算每种pN和pK组合下的双细胞检测指标。这些指标可以用来评估不同参数下的双细胞检测效果,并选择最优的参数。参数GT表示是否提供了真实的双细胞标签,此处没有提供
sweep.stats <- summarizeSweep(sweep.res.list, GT = FALSE)
# 对汇总结果按照真实双胞胎比例(BCreal)进行升序排序,并显示排序后的数据框。这可以帮助我们找到双胞胎检测效果最好的参数组合
sweep.stats[order(sweep.stats$BCreal),]
# 根据汇总结果找到最优的pK参数。
bcmvn <- find.pK(sweep.stats)
# 提取出全局最优的pK值,储存于"pK_bcmvn"
pK_bcmvn <- as.numeric(bcmvn$pK[which.max(bcmvn$BCmetric)])
ꔷ 最高点所对应的pK就是全局最优pK
1.3 双细胞比例计算
# 估计的同源双细胞(由两个或多个相同类型的细胞融合而成的假阳性细胞,它们通常比异源双细胞更难以检测和去除)的比例
homotypic.prop <- modelHomotypic(scRNA_harmony$seurat_clusters)
# 计算总的双细胞数量(假设双细胞形成率为 7.5%)
nExp_poi <- round(0.075 *nrow(scRNA_harmony@meta.data))
nExp_poi.adj <- round(nExp_poi*(1-homotypic.prop)) # 计算异源双细胞数量
# 使用确定好的参数鉴定doublets
scRNA_harmony <- doubletFinder_v3(scRNA_harmony, PCs = 1:20, pN = 0.25, pK = pK_bcmvn,
nExp = nExp_poi.adj, reuse.pANN = F, sct = T)
1.4 可视化及去除双细胞
# 可视化
DimPlot(scRNA_harmony, reduction = "UMAP", group.by = "DF.classifications_0.25_33_9717", raster = FALSE)
# 将双细胞剔除后生成新的对象scRNA_harmony.singlet,便于我们后续分析
scRNA_harmony.singlet <- subset(scRNA_harmony, subset = DF.classifications_0.25_33_9717== "Singlet")
2.
scDblFinder包收集了用于检测和处理单细胞测序数据中的双细胞的各种方法,包括新颖的方法scDblFinder。这里包含的方法是通过多重样本中的细胞散列和 SNP 进行双联体检测的补充:而散列/基因型可以从两个样本中识别由相同类型的细胞(同型双联体)形成的双联体,这些双联体通常在转录上与真实细胞几乎无法区分(因此通常无法通过本包装识别),它无法识别由同一样品的细胞制成的双联体,即使它们是异型的(由不同细胞类型形成)。这里介绍的方法主要针对异型双联体的识别,这对于大多数目的来说也是最关键的。
scDblFinder的输入数据是SingleCellExperiment对象(空的drops已经移出),至少要包含counts矩阵(assay 'counts')。即sce对象都不应该包含空滴,但不应该经过非常严格的过滤(这会影响双细胞率的估计)
相较于DoubletFinder,scDblFinder 的运行代码更简单,运行时间更短
2.1 加载包以及数据预处理
# 安装并加载所需的R包
# if (!requireNamespace("BiocManager", quietly = TRUE))
# install.packages("BiocManager")
# BiocManager::install("scDblFinder")
# or, to get that latest developments:
# BiocManager::install("plger/scDblFinder")
library(scDblFinder)
load("scRNA_harmony.Rdata")
sce <- as.SingleCellExperiment(scRNA_harmony)
2.2 双细胞计算、可视化及去除
# 单样本(使用随机方法)
sce <- scDblFinder(sce, dbr=0.1)
# 使用基于集群的方法,只需额外提供clusters参数:
sce <- scDblFinder(sce, clusters="seurat_clusters")
# 多个样本(此处,采用这个)
library(BiocParallel)
sce <- scDblFinder(sce, samples="orig.ident", BPPARAM=MulticoreParam(3))
table(sce$scDblFinder.class)
## singlet doublet
## 122418 18187
scRNA_harmony <- as.Seurat(sce)
DimPlot(scRNA_harmony, reduction = "tsne", group.by = "scDblFinder.class", raster = FALSE)
ꔷ scDblFinder会向前缀为 'scDblFinder' 的 colData 添加许多列sce,其中最重要的是:
1)sce$scDblFinder.score:最终双细胞评分
2)sce$scDblFinder.class:分类(双细胞或单细胞)