10x Genomics PBMC(六):整合处理和对照组PBMC数据集以学习特定细胞类型筛选

Integrating stimulated vs. control PBMC datasets to learn cell-type-specific responses

clp

10 June, 2020

注意切换工作目录(文件夹5)

Reference

本教程介绍了来自Kang et al, 2017的两组PBMC的比对。本实验将PBMCs分为刺激组和对照组,刺激组给予β干扰素治疗。对干扰素的反应导致了细胞类型特异性基因表达的变化,这使得对所有数据的联合分析变困难了,细胞聚类既要考虑刺激条件,也要考虑细胞类型。在这里,我们展示了我们的分析策略,如 Stuart and Butler et al, 2018中所述,用于执行整合分析,以促进常见细胞类型的识别并进行比较分析。虽然此示例演示了两个数据集(条件)的整合,但这些方法可以扩展到多个数据集。详情请参阅提供整合了四个胰岛数据集的示例workflow

整合分析目标

下面的教程旨在让您了解一个概述:使用Seurat集成过程可以对复杂细胞类型进行的各种比较分析。在这里,我们讨论三个主要目标:

  • 鉴定两个数据集中存在的细胞类型
  • 获得在对照细胞和刺激细胞中都保守的细胞类型标记
  • 比较数据集以找出特定细胞类型对刺激的反应

工作流程摘要

我们将协调SCTransform输出的Pearson残差。如下所示,该工作流程由以下步骤组成:

  • 创建要集成的Seurat对象列表
  • 比较多个样本。因此,考虑到库大小因素,需要进行归一化
  • 为了更好地比较,还考虑了细胞周期评估
  • 对每个数据集分别执行SCTransform
  • 在对象列表上运行PrepSCTIntegration函数
  • 集成数据集,并进行联合分析

下载Kang et. al. 2017 Seurat原始数据 (Raw read count)

library(data.table)
library(ggplot2)
library(Seurat)

options(future.globals.maxSize = 4000 * 1024^2)

pkg <- "ifnb.SeuratData"
if( !is.element(pkg, .packages(all.available = TRUE)) ) {
    install.packages("https://seurat.nygenome.org/src/contrib/ifnb.SeuratData_3.0.0.tar.gz", repos = NULL, type = "source")
}
library(pkg,character.only = TRUE)

#load Kang data
data("ifnb")

预处理和归一化

  • 线粒体基因不存在于读取计数矩阵中,因此跳过了由线粒体污染引起的QC。
  • 建议在执行sctransform method方法之前检查细胞周期时相。由于细胞之间的计数需要具有可比性,并且每个细胞具有不同的UMI总数,因此我们通过除以每个细胞的总计数并取自然对数进行粗略归一化。这种方法不像我们最终将用来识别细胞簇的sctransform method那样准确,但是它足以探索我们数据中的变异源。
load('data/cycle.rda')

#split into the original samples
ifnb.list <- SplitObject(ifnb, split.by = "stim")
ifnb.list <- lapply(X = ifnb.list, function(seu) {
    message("This run will take 5+ min ...")
    seu <- NormalizeData(seu, verbose = TRUE) #the normalization result will be stored into .data slot.
    seu <- CellCycleScoring(seu, g2m.features=g2m_genes, s.features=s_genes)
    seu <- SCTransform(seu,verbose = FALSE)
    return(seu)
})

Feature Selection

下一步,整合好数据后进行features筛选,运行PrepSCTIntegration,确保计算出所有需要的Pearson残差。

sc.features <- SelectIntegrationFeatures(object.list = ifnb.list)

ifnb.list <- PrepSCTIntegration(object.list = ifnb.list,
                                anchor.features = sc.features,
                                verbose=FALSE)

Perform integration (经典的相关性分析)

整合(Integration)是一种强大的方法,它使用这些最大变异的共享来源来识别跨处理条件或数据集的共享子亚类[Stuart and Bulter et al. (2018)]。整合的目标是确保一个条件/数据集的细胞类型与其他条件/数据集的相同细胞类型对齐(例如,对照组巨噬细胞与刺激组的巨噬细胞对齐)。

具体地说,该integration方法期望在跨组的单细胞的至少一个子集之间进行“对应”或“共享”某生物状态。integration分析的步骤如下图所示:
image.png

Fig1. Stuart T and Butler A, et. al. Comprehensive integration of single cell data, bioRxiv 2018

进行经典的相关性分析(CCA):

  • CCA确定条件/组之间的共享变异源。它是主成分分析的一种形式,因为它识别数据中最大的变异源,但只有在条件/组之间共享或保守的情况下(使用来自每个样本的3000个最大变异的基因)。

  • 这一步使用最大的共享变异源粗略地对齐细胞。

注:使用共享的高可变基因是因为它们最有可能代表那些区分不同细胞类型的基因。

  • 跨数据集识别锚点或相互最近的邻居(MNN)(有时会识别不正确的锚点):MNN可以被认为是“最好的伙伴”(‘best buddies’)。对于一个条件下的每个细胞:

    • 在另一种情况下,细胞最接近的邻居是根据基因表达值确定的–它是最好的伙伴。
    • 执行倒数分析,如果两个细胞在两个方向上都是伙伴,则这些细胞将被标记为锚点,以便将两个数据集“锚定”在一起。
    • MNN对中的细胞之间的表达值的差异提供了批次效应的估计,通过对许多这样的配对信息进行平均可以使其更加精确。获得一个校正向量,并将其应用于表达值以执行批次校正。作者声明: [Stuart and Bulter et al. (2018)]。
  • 过滤锚点以移除不正确的锚点:通过锚点对在其本地邻区的重叠来评估锚点对之间的相似性(不正确的锚点的得分会很低)-相邻的细胞是否有彼此相邻的最好的伙伴?

  • Integrate the conditions/datasets:

    • 使用锚点和相应的分数来转换细胞表达值,从而允许整合数据集(不同的样本、数据集、模态)
    • 注意:每个细胞的转换使用每个锚点的两个细胞在数据集的锚点之间的加权平均值。权重由细胞相似性分数(细胞与k个最近锚点之间的距离)和锚点分数确定,因此同一邻域中的细胞应该具有相似的校正值。
    • 如果细胞类型存在于一个数据集中,但不存在于另一个数据集中,则这些细胞仍将显示为单独的样本特定簇。现在,使用我们的SCTransform对象作为输入,让我们执行跨条件的整合。

经典的整合方法(CCA integration will take 5+ min)耗时较久。

immune.anchors <- FindIntegrationAnchors(object.list = ifnb.list,
                                         normalization.method = "SCT",
                                         anchor.features = sc.features,
                                         verbose=FALSE)

immune.combined <- IntegrateData(anchorset = immune.anchors,
                                 normalization.method = "SCT",
                                 verbose=FALSE)
#> Warning: Adding a command log without an assay associated with it

整合后数据可视化(Visualization)

对集成数据集进行下游分析(即可视化、聚类)。您可以看到,整合后,细胞按两种条件分组(对照组和刺激组)。要显示的群集注释来自我们下载的数据。

#Let us delete ifnb.list to free up the memory space
rm(ifnb)
rm(ifnb.list)
rm(immune.anchors)

#Make sure that your default assay is 'integrated'
DefaultAssay(immune.combined) <- "integrated"

immune.combined <- RunPCA(immune.combined, verbose = FALSE)
immune.combined <- RunUMAP(immune.combined, dims = 1:20)
#> Warning: The default method for RunUMAP has changed from calling Python UMAP via reticulate to the R-native UWOT using the cosine metric
#> To use Python UMAP via reticulate, set umap.method to 'umap-learn' and metric to 'correlation'
#> This message will be shown once per session

# immune.combined <- FindNeighbors(immune.combined, reduction = "pca", dims = 1:20)
# immune.combined <- FindClusters(immune.combined, resolution = 0.5)

plots <- DimPlot(immune.combined, group.by = c("stim","seurat_annotations"), combine = FALSE)

plots <- lapply(X = plots, FUN = function(x) {
  p <- x + theme(legend.position = "top")
  p <- p + guides(color = guide_legend(nrow = 4, byrow = TRUE, override.aes = list(size = 2.5)))
  })

CombinePlots(plots)
#> Warning: CombinePlots is being deprecated. Plots should now be combined
#> using the patchwork system.
image.png

要并排可视化这两个条件,我们可以使用split.by参数来显示按示例着色的每个条件。


DimPlot(immune.combined, reduction = "umap", split.by = "stim", group.by = "seurat_annotations", label = TRUE) + NoLegend()
#> Warning: Using `as.character()` on a quosure is deprecated as of rlang 0.3.0.
#> Please use `as_label()` or `as_name()` instead.
#> This warning is displayed once per session.
image.png

保存R环境变量留待下次使用

wkd <- "out"
if (!file.exists(wkd)){dir.create(wkd)}
save(immune.combined, file = file.path(wkd,'01_immune_combined.rd'), compress = TRUE)

本节重点

  • Important R function and packages: lapply and ggplot2
  • CCA
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342