单细胞数据分析笔记3: 双细胞去除（DoubletFinder, scDblFinder)

双细胞是指由于实验原因，在单细胞微流控等流程中某个液滴中含有2个及以上的细胞，而在同一个液滴中的细胞在后续分析中带有相同的Cell Barcode，从而会被认为是一个细胞的伪细胞。这类伪细胞的主要特点是检测的UMI数和基因数往往比正常细胞要多一倍及以上，另外可能会带有不同细胞类型的经典marker基因，会给细胞类型鉴定待了阻碍

双细胞可以分为同型（相同细胞类型）或异型（不同细胞类型）

1. $\color{green}{DoubletFinder}$

DoubletFinder-1

DoubletFinder的原理：从现有的矩阵的细胞中根据我们预先定义好的细胞类型模拟一些双细胞出来（比如单核和T细胞的双细胞、B细胞和中性粒细胞的双细胞等等)，将模拟出的双细胞和原有矩阵的细胞混合在一起，进行降维聚类，原则上人工模拟的doublets会与真实的doublets距离较近，因此计算每个细胞K最近邻细胞中人工模拟doublets的比例( pAN )，就可以根据pANN值对每个barcode的doublets概率进行排序。另外依据泊松分布的统计原理可以计算每个样本中doublets的数量，结合之前的细胞pANN值排序，就可以过滤doublets了。
DoubletFinder 可分为 4 个步骤：
1）从现有的 scRNA-seq 数据生成人工双联体
2）预处理合并的真实-人工数据
3）进行PCA，利用PC距离矩阵求出每个细胞人工k近邻的比例（pANN）
4）根据预期双联体数量排序和阈值 pANN 值

DoubletFinder-2

DoubletFinder有几个比较重要的参数和概念：
1）pN：指生成的模拟双细胞的数量，以合并的真实-模拟数据的比例表示，一般这个值设置为25%
2）pK：指最近邻细胞之间比例。没有设置默认值，pK需要根据不同的数据进行调整，寻找最优pK也是DoubletFinder中很重要的一步。
3）Homotypic：同源双细胞的比例，是指由两个或多个相同类型的细胞融合而成的假阳性细胞，而我们真正需要去除的是异源双细胞。
4）nExp：表示预计的异源双细胞数量

1.1 加载包以及数据预处理

## 安装并加载所需的R包
## if(!require(DoubletFinder))
## remotes::install_github('chris-mcginnis-ucsf/DoubletFinder')

library(DoubletFinder)
library(tidyverse)
library(Seurat)
library(patchwork)

load("scRNA_harmony.Rdata") # 一个完全处理的 Seurat 对象（已完成 NormalizeData、FindVariableGenes、ScaleData、RunPCA 和 RunTSNE等）

1.2 确定最优pK值

# 对"scRNA_harmony"这个单细胞对象进行pN-pK参数扫描，以生成人工双细胞并计算每个细胞的pANN值
sweep.res.list <- paramSweep_v3(scRNA_harmony, PCs = 1:20, sct = T)
# 对参数扫描的结果进行汇总，计算每种pN和pK组合下的双细胞检测指标。这些指标可以用来评估不同参数下的双细胞检测效果，并选择最优的参数。参数GT表示是否提供了真实的双细胞标签，此处没有提供
sweep.stats <- summarizeSweep(sweep.res.list, GT = FALSE) 
# 对汇总结果按照真实双胞胎比例（BCreal）进行升序排序，并显示排序后的数据框。这可以帮助我们找到双胞胎检测效果最好的参数组合
sweep.stats[order(sweep.stats$BCreal),]
# 根据汇总结果找到最优的pK参数。
bcmvn <- find.pK(sweep.stats) 
# 提取出全局最优的pK值，储存于"pK_bcmvn"
pK_bcmvn <- as.numeric(bcmvn$pK[which.max(bcmvn$BCmetric)])

DoubletFinder-3

ꔷ 最高点所对应的pK就是全局最优pK

1.3 双细胞比例计算

# 估计的同源双细胞（由两个或多个相同类型的细胞融合而成的假阳性细胞，它们通常比异源双细胞更难以检测和去除）的比例     
homotypic.prop <- modelHomotypic(scRNA_harmony$seurat_clusters) 
# 计算总的双细胞数量（假设双细胞形成率为 7.5%）
nExp_poi <- round(0.075 *nrow(scRNA_harmony@meta.data)) 
nExp_poi.adj <- round(nExp_poi*(1-homotypic.prop)) # 计算异源双细胞数量

# 使用确定好的参数鉴定doublets
scRNA_harmony <- doubletFinder_v3(scRNA_harmony, PCs = 1:20, pN = 0.25, pK = pK_bcmvn,
                                  nExp = nExp_poi.adj, reuse.pANN = F, sct = T)

1.4 可视化及去除双细胞

# 可视化
DimPlot(scRNA_harmony, reduction = "UMAP", group.by = "DF.classifications_0.25_33_9717", raster = FALSE)

# 将双细胞剔除后生成新的对象scRNA_harmony.singlet，便于我们后续分析
scRNA_harmony.singlet <- subset(scRNA_harmony, subset = DF.classifications_0.25_33_9717== "Singlet")

DoubletFinder-4

2. $\color{green}{scDblFinder}$

scDblFinder包收集了用于检测和处理单细胞测序数据中的双细胞的各种方法，包括新颖的方法scDblFinder。这里包含的方法是通过多重样本中的细胞散列和 SNP 进行双联体检测的补充：而散列/基因型可以从两个样本中识别由相同类型的细胞（同型双联体）形成的双联体，这些双联体通常在转录上与真实细胞几乎无法区分（因此通常无法通过本包装识别），它无法识别由同一样品的细胞制成的双联体，即使它们是异型的（由不同细胞类型形成）。这里介绍的方法主要针对异型双联体的识别，这对于大多数目的来说也是最关键的。
scDblFinder的输入数据是SingleCellExperiment对象(空的drops已经移出),至少要包含counts矩阵(assay 'counts')。即sce对象都不应该包含空滴,但不应该经过非常严格的过滤(这会影响双细胞率的估计)
相较于DoubletFinder，scDblFinder 的运行代码更简单，运行时间更短

scDblFinder-1

2.1 加载包以及数据预处理

# 安装并加载所需的R包
# if (!requireNamespace("BiocManager", quietly = TRUE))
#     install.packages("BiocManager")
# BiocManager::install("scDblFinder")

# or, to get that latest developments:
# BiocManager::install("plger/scDblFinder")
library(scDblFinder)

load("scRNA_harmony.Rdata")
sce <- as.SingleCellExperiment(scRNA_harmony)

2.2 双细胞计算、可视化及去除

# 单样本（使用随机方法）
sce <- scDblFinder(sce, dbr=0.1)

# 使用基于集群的方法，只需额外提供clusters参数：
sce <- scDblFinder(sce, clusters="seurat_clusters")

# 多个样本（此处，采用这个）
library(BiocParallel)
sce <- scDblFinder(sce, samples="orig.ident", BPPARAM=MulticoreParam(3))
table(sce$scDblFinder.class)
## singlet doublet 
##  122418   18187 

scRNA_harmony <- as.Seurat(sce)
DimPlot(scRNA_harmony, reduction = "tsne", group.by = "scDblFinder.class", raster = FALSE)

scDblFinder-2

ꔷ scDblFinder会向前缀为 'scDblFinder' 的 colData 添加许多列sce，其中最重要的是：

1）sce$scDblFinder.score：最终双细胞评分

2）sce$scDblFinder.class：分类（双细胞或单细胞）

最后编辑于：2024.03.28 12:08:24

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345