10.单细胞 RNA-seq：聚类分析

学习目标：

评估是否存在聚类过程产生的技术误差
使用 PCA 和 UMAP 图确定聚类质量，并了解何时重新聚类
评估已知的细胞类型标记与假设簇的细胞类型同一性

单细胞 RNA-seq 聚类分析

现在我们已经进行了整合，我们想知道我们的细胞群中存在哪些不同细胞类型。

image

目标：

*生成特定于细胞类型的簇，并使用已知的标记来确定簇的身份。
确定分群是否代表真实的细胞类型或由于生物或技术差异而形成的群集 ，例如处于细胞周期S期的细胞群集、特定批次的群集或高线粒体含量的细胞。

挑战：

识别每个分群的细胞类型
保持耐心，因为这可能是聚类和标记识别之间的高度迭代过程（有时甚至回到 QC 过滤或标准化）

建议：

对存在的细胞类型和这些细胞类型的几个标记基因有一个很好的预期。了解你所期望的是低复杂性的细胞类型还是高线粒体含量的细胞类型，以及这些细胞是否正在分化。
确定要删除的任何垃圾群。垃圾群可能是包含高线粒体含量和低UMIs/基因的那些。
如果未将所有细胞类型检测为单独的群，请尝试更改UMAP分辨率、用于分群的PC数量或使用的可变基因数量。

探讨质制指标

为了确定我们的分群是否可能是由于细胞周期阶段或线粒体表达等人为因素造成的，可视化探索这些指标以查看是否有任何簇表现出富集或与其他簇不同，这是很有用的。但是，如果观察到特定簇的富集或差异，它可以用细胞类型来解释，那就可以不必担忧。
为了探索和可视化各种质量指标，我们将使用来自Seurat的通用的DimPlot() 和FeaturePlot() 函数。

按样本分离聚类

我们可以从每个样本中每个簇的细胞分布开始：

# Extract identity and sample information from seurat object to determine the number of cells per cluster per sample
n_cells <- FetchData(seurat_integrated, 
                     vars = c("ident", "orig.ident")) %>%
        dplyr::count(ident, orig.ident) %>%
        tidyr::spread(ident, n)

# View table
View(n_cells)

image

我们可以使用 UMAP 对每个样本的每个簇的细胞进行可视化：

# UMAP of cells in each cluster by sample
DimPlot(seurat_integrated, 
        label = TRUE, 
        split.by = "sample")  + NoLegend()

image

一般来说，我们希望在所有条件下，大多数细胞类型簇都存在；然而，根据实验，我们可能会看到一些特定条件的细胞类型存在。这些簇在不同条件下看起来非常相似，这很好，因为我们预计在对照和刺激条件下都存在类似的细胞类型。

按细胞周期分离簇

接下来，我们将探索细胞是否会因不同的细胞周期阶段而出现聚集。当我们对无意义的变异源进行SCTransform归一化和回归时，并没有因为细胞周期阶段而使变异消退。如果我们的细胞簇在线粒体表达上表现出很大的差异，这预示着我们要重新运行SCTransform，并将 S.Score 和 G2M.Score 添加到我们的变量中以进行回归，然后重新运行其余步骤。
接下来，我们将探讨细胞是否会因不同的细胞周期出现阶段聚集。

# Explore whether clusters segregate by cell cycle phase
DimPlot(seurat_integrated,
        label = TRUE, 
        split.by = "Phase")  + NoLegend()

image

我们看不到细胞周期评分的太多聚类，因此我们可以继续进行 QC。

按照各种意义的变化来源分离聚类

接下来，我们将探索其他指标，例如每个细胞的 UMI 和基因数量、S 期和 G2M 期标记，以及 UMAP 的线粒体基因表达。查看各自的 S 和 G2M 分数可以为我们提供额外的信息来检查细胞周期因素的影响，就像我们之前所做的那样。

# Determine metrics to plot present in seurat_integrated@meta.data
metrics <-  c("nUMI", "nGene", "S.Score", "G2M.Score", "mitoRatio")

FeaturePlot(seurat_integrated, 
            reduction = "umap", 
            features = metrics,
            pt.size = 0.4, 
            order = TRUE,
            min.cutoff = 'q10',
            label = TRUE)

image

注：该order参数将在低表达细胞上方绘制高表达细胞，而min.cutoff参数将确定着色的阈值。 min.cutoff的 q10意味着基因表达最低的10%的细胞，不会表现出任何紫色阴影（完全灰色）

指标在整个群集中相对均匀，但nUMI和nGene在群集3、9、14和15中显示出更高的值，也许还包括群集17。我们将密切关注这些群集，看看细胞类型是否可以解释这种增加。

如果我们在此时看到与这些指标对应的差异，那么我们通常会注意到它们，然后在确定细胞类型标识后决定是否采取进一步的行动。

探索驱动不同集群的PC

我们还可以探索群集通过不同的PC分开的情况。我们希望定义的PC能够很好地区分细胞类型。要可视化这个信息，我们需要提取细胞的UMAP坐标信息及其对应的每个PC分数，以便通过UMAP查看每个PC。
首先，我们确定要从Seurat对象提取的信息，然后，可以使用 FetchData() 函数提取它。

# Defining the information in the seurat object of interest
columns <- c(paste0("PC_", 1:16),
            "ident",
            "UMAP_1", "UMAP_2")

# Extracting this data from the seurat object
pc_data <- FetchData(seurat_integrated, 
                     vars = columns)

注意：我们如何知道在FetchData()函数中包含UMAP_1以获取 UMAP 坐标？所述seurat的cheatsheet描述了该函数为能够从表达式矩阵，细胞的嵌入，或元数据中提取任何数据。

例如，如果您浏览seurat_integrated@reductions列表对象，第一个组件用于 PCA，并包含一个用于cell.embeddings. 我们可以使用列名（PC_1、PC_2、PC_3等）为每个 PC 提取与每个细胞对应的坐标或 PC 分数。

我们可以为 UMAP 做同样的事情：
# Extract the UMAP coordinates for the first 10 cells
seurat_integrated@reductions$umap@cell.embeddings[1:10, 1:2]
该FetchData()函数可以让我们更容易地提取数据。

在下面的 UMAP 图中，细胞按每个主成分的 PC 分数着色。

让我们浏览一下排名前 16 的 PC：

# Adding cluster label to center of cluster on UMAP
umap_label <- FetchData(seurat_integrated, 
                        vars = c("ident", "UMAP_1", "UMAP_2"))  %>%
  group_by(ident) %>%
  summarise(x=mean(UMAP_1), y=mean(UMAP_2))

# Plotting a UMAP plot for each of the PCs
map(paste0("PC_", 1:16), function(pc){
        ggplot(pc_data, 
               aes(UMAP_1, UMAP_2)) +
                geom_point(aes_string(color=pc), 
                           alpha = 0.7) +
                scale_color_gradient(guide = FALSE, 
                                     low = "grey90", 
                                     high = "blue")  +
                geom_text(data=umap_label, 
                          aes(label=ident, x, y)) +
                ggtitle(pc)
}) %>% 
        plot_grid(plotlist = .)

image

我们可以看到如何由不同的 PC 表示的集群。例如，PC_2基因在簇 6、11 和 17 中表现出更高的表达（在 15 中也可能更高一些）。我们可以回顾一下驱动这台 PC 的基因，以了解细胞类型可能是什么：

# Examine PCA results 
print(seurat_integrated[["pca"]], dims = 1:5, nfeatures = 5)

image

以 CD79A 和 CD74 基因以及 HLA 基因作为 PC_2的阳性标记，我们可以假设簇6、11 和17 对应于 B 细胞。这只是暗示了集群身份可能是什么，集群的身份是通过 PC 的组合来确定的。

为了真正确定集群的身份以及resolution是否合适，探索一些已知的预期细胞类型的基因标记是有帮助的。

探索已知的细胞类型标记

随着细胞的聚集，我们可以通过寻找已知的标记来探索细胞类型的身份。显示了带有簇标记的 UMAP 图，然后是预期的不同细胞类型。

DimPlot(object = seurat_integrated, 
        reduction = "umap", 
        label = TRUE) + NoLegend()

image

细胞类型	标记
CD14+ 单核细胞	CD14, LYZ
FCGR3A+ 单核细胞	FCGR3A、MS4A7
常规树突状细胞	FCER1A, CST3
浆细胞样树突状细胞	IL3RA、GZMB、SERPINF1、ITM2C
B细胞	CD79A、MS4A1
T细胞	CD3D
CD4+ T 细胞	CD3D、IL7R、CCR7
CD8+ T 细胞	CD3D、CD8A
自然杀伤细胞	GNLY、NKG7
巨核细胞	PPBP
红细胞	HBB、HBA2

seurat的FeaturePlot()函数可以使用存储在 Seurat 对象中的基因 ID 轻松可视化少数基因。我们可以在 UMAP 可视化之上轻松探索已知基因标记的表达。让我们通过并确定集群的身份。为了访问所有基因的标准化表达水平，我们可以使用存储在RNA检测槽中的标准化计数数据。

注意： SCTransform 归一化仅对 3000 个最易变的基因执行，因此我们感兴趣的许多基因可能不存在于该数据中。

# Select the RNA counts slot to be the default assay
DefaultAssay(seurat_integrated) <- "RNA"

# Normalize RNA data for visualization purposes
seurat_integrated <- NormalizeData(seurat_integrated, verbose = FALSE)

注意： Assay 是在 Seurat 对象中定义的一个插槽，其中有多个插槽。在给定的检测中，counts槽存储非标准化的原始计数，data槽存储标准化的表达数据。因此，当我们运行NormalizeData()上述代码中的函数时，归一化数据将存储在dataRNA 分析的槽中，而counts槽将保持不变。

根据我们感兴趣的标记，它们可能是特定细胞类型的阳性或阴性标记。我们选择的少数标记的组合表达应该让我们了解一个集群是否对应于特定的细胞类型。

对于此处使用的标记，我们正在寻找阳性标记和标记在整个集群中的表达一致性。例如，如果一种细胞类型有两个标记，而一个簇中只有其中一个被表达——那么我们不能可靠地将该簇分配给细胞类型。

CD14+ 单核细胞标志物

FeaturePlot(seurat_integrated, 
            reduction = "umap", 
            features = c("CD14", "LYZ"), 
            order = TRUE,
            min.cutoff = 'q10', 
            label = TRUE)

image

CD14+ 单核细胞似乎对应于簇 1、3 和 14。我们不会包括簇 9 和 15，因为它们不高度表达这两种标记。

FCGR3A+ 单核细胞标志物

FeaturePlot(seurat_integrated, 
            reduction = "umap", 
            features = c("FCGR3A", "MS4A7"), 
            order = TRUE,
            min.cutoff = 'q10', 
            label = TRUE)

image

FCGR3A+ 单核细胞标记明显突出了簇 9，尽管我们确实在簇 1、3 和 14 中看到了一些不错的表达。我们希望在执行标记识别时看到 FCGR3A+ 细胞的其他标记出现。

巨噬细胞

FeaturePlot(seurat_integrated, 
            reduction = "umap", 
            features = c("MARCO", "ITGAM", "ADGRE1"), 
            order = TRUE,
            min.cutoff = 'q10', 
            label = TRUE)

image

我们没有看到我们的标记有太多重叠，因此似乎没有与巨噬细胞对应的簇；也许细胞培养条件对巨噬细胞进行了负面选择（更高的粘附性）。

常规树突状细胞标志物

FeaturePlot(seurat_integrated, 
            reduction = "umap", 
            features = c("FCER1A", "CST3"), 
            order = TRUE,
            min.cutoff = 'q10', 
            label = TRUE)

image

对应于常规树突细胞的标记物识别簇 15（两个标记物始终显示表达）。

浆细胞样树突状细胞标志物

FeaturePlot(seurat_integrated, 
            reduction = "umap", 
            features = c("IL3RA", "GZMB", "SERPINF1", "ITM2C"), 
            order = TRUE,
            min.cutoff = 'q10', 
            label = TRUE)

image

浆细胞样树突状细胞代表簇 19。虽然这些标记的表达存在很多差异，但我们看到簇 19 始终强烈表达。

锻炼

假设表中每个不同集群对应的集群：

细胞类型	集群
CD14+ 单核细胞	1, 3, 14
FCGR3A+ 单核细胞	9
常规树突状细胞	15
浆细胞样树突状细胞	19
巨噬细胞	-
B细胞	?
T细胞	?
CD4+ T 细胞	?
CD8+ T 细胞	?
自然杀伤细胞	?
巨核细胞	?
红细胞	?
未知	?

注意：如果任何集群似乎包含两种不同的细胞类型，则提高我们的集群分辨率以正确地对集群进行子集化是有帮助的。或者，如果我们仍然无法使用增加的分辨率分离出簇，那么可能我们使用的主成分太少，以至于我们没有分离出这些感兴趣的细胞类型。为了告知我们对 PC 的选择，我们可以查看与 UMAP 图重叠的 PC 基因表达，并确定我们的细胞群是否被包含的 PC 分开。

现在我们对大多数集群对应的细胞类型有了一个不错的想法，但仍然存在一些问题：

集群 7 和 20 的细胞类型标识是什么？
对应于相同细胞类型的簇是否具有生物学意义的差异？是否存在这些细胞类型的亚群？
通过识别这些簇的其他标记基因，我们能否对这些细胞类型身份获得更高的可信度？

标记识别分析可以帮助我们解决所有这些问题！！

下一步将是进行标记识别分析，这将输出聚类之间表达显着差异的基因。使用这些基因，我们可以确定或提高对集群/亚群群识别的信心。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345

10.单细胞 RNA-seq：聚类分析

学习目标：

单细胞 RNA-seq 聚类分析

探讨质制指标

按样本分离聚类

按细胞周期分离簇

按照各种意义的变化来源分离聚类

探索驱动不同集群的PC

探索已知的细胞类型标记

推荐阅读更多精彩内容