Seurat Tutorial 6：整合大型数据集的技巧

写在前面

学习一个软件最好的方法就是啃它的官方文档。本着自己学习、分享他人的态度，分享官方文档的中文教程。软件可能随时更新，建议配合官方文档一起阅读。推荐先按顺序阅读往期内容：
文献篇：
1.文献阅读：(Seurat V1) 单细胞基因表达数据的空间重建
 2.文献阅读：(Seurat V2) 整合跨越不同条件、技术、物种的单细胞转录组数据
 3.文献阅读：(Seurat V3) 单细胞数据综合整合
 4.文献阅读：(Seurat V4) 整合分析多模态单细胞数据
 5.文献阅读：(Seurat V5) 用于集成、多模态和可扩展单细胞分析的字典学习
教程篇：
1.Seurat Tutorial 1：常见分析工作流程，基于 PBMC 3K 数据集
 2.Seurat Tutorial 2：使用 Seurat 分析多模态数据
 3.Seurat Tutorial 3：scRNA-seq 整合分析介绍
 4.Seurat Tutorial 4：映射和注释查询数据集
 5.Seurat Tutorial 5：使用 reciprocal PCA (RPCA) 快速整合

官网教程：https://satijalab.org/seurat/articles/integration_large_datasets

对于非常大的数据集，标准的整合工作流程有时会在计算上非常昂贵。在此工作流程中，我们采用了两个可以提高效率和运行时间的选项：

Reciprocal PCA (RPCA)
Reference-based integration

主要的效率改进在 FindIntegrationAnchors()。首先，我们使用 reciprocal PCA (RPCA) 而不是 CCA，来确定一个有效的空间来寻找 anchors。当使用 reciprocal PCA 确定任意两个数据集之间的 anchors 时，我们将每个数据集投影到其他 PCA 空间中，并通过相同的相互邻域要求约束 anchors。所有下游整合步骤保持不变，我们能够“correct”（or harmonize）数据集。

此外，我们使用 reference-based integration。在标准工作流程中，我们识别所有数据集对之间的 anchors。虽然这在下游整合中赋予了数据集同等的权重，但它也可能成为计算密集型的。例如，当整合 10 个不同的数据集时，我们执行 45 种不同的成对比较。作为替代方案，我们在此介绍了将一个或多个数据集指定为综合分析的“reference”，其余指定为“query”数据集的可能性。在此工作流程中，我们不识别成对 query datasets 之间的 anchors，从而减少了比较次数。例如，当将 10 个数据集与一个指定为 reference 的数据集整合时，我们仅执行 9 次比较。Reference-based integration 可以应用于 log-normalized 或 SCTransform-normalized datasets。

此替代工作流程包括以下步骤：

创建要集成的 Seurat 对象列表
对每个数据集分别执行归一化、特征选择和标准化
对列表中的每个对象运行 PCA
整合数据集，进行联合分析

总的来说，我们观察到标准工作流程与此处演示的工作流程之间惊人相似的结果，计算时间和内存都大大减少。但是，如果数据集高度不同（例如，跨模态映射或跨物种映射），其中只有一小部分特征可用于促进整合，您可能会使用 CCA 观察到更好的结果。

对于这个例子，我们将使用来自人类细胞图谱的“Immune Cell Atlas”数据。

library(Seurat)

获取数据后，我们首先进行标准归一化和变量特征选择。

bm280k.data <- Read10X_h5("../data/ica_bone_marrow_h5.h5")
bm280k <- CreateSeuratObject(counts = bm280k.data, min.cells = 100, min.features = 500)
bm280k.list <- SplitObject(bm280k, split.by = "orig.ident")
bm280k.list <- lapply(X = bm280k.list, FUN = function(x) {
    x <- NormalizeData(x, verbose = FALSE)
    x <- FindVariableFeatures(x, verbose = FALSE)
})

接下来，选择下游整合的功能，并在列表中的每个对象上运行 PCA，这是运行替代 reciprocal PCA 工作流所必需的。

features <- SelectIntegrationFeatures(object.list = bm280k.list)
bm280k.list <- lapply(X = bm280k.list, FUN = function(x) {
    x <- ScaleData(x, features = features, verbose = FALSE)
    x <- RunPCA(x, features = features, verbose = FALSE)
})

由于此数据集包含男性和女性，我们将选择一名男性和一名女性（BM1 和 BM2）用于基于参考的工作流程。我们通过检查 XIST 基因的表达来确定供体性别。

anchors <- FindIntegrationAnchors(object.list = bm280k.list, reference = c(1, 2), reduction = "rpca", dims = 1:50)
bm280k.integrated <- IntegrateData(anchorset = anchors, dims = 1:50)

bm280k.integrated <- ScaleData(bm280k.integrated, verbose = FALSE)
bm280k.integrated <- RunPCA(bm280k.integrated, verbose = FALSE)
bm280k.integrated <- RunUMAP(bm280k.integrated, dims = 1:50)

DimPlot(bm280k.integrated, group.by = "orig.ident")

最后编辑于：2023.09.03 09:16:01

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,937评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,503评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,712评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,668评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,677评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,601评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,975评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,637评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,881评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,621评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,710评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,387评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,971评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,947评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,189评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,805评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,449评论 2赞 342

Seurat Tutorial 6：整合大型数据集的技巧

写在前面

推荐阅读更多精彩内容