单细胞RNA-seq生信分析全流程——第十一篇：拟时序分析

11.1 前言

单细胞测序分析提供生物组织的高分辨率测量。因此，此类技术可以帮助破译和理解细胞异质性和生物过程的动态。相应的研究包括量化细胞命运以及识别驱动该过程的基因。然而，由于在经典单细胞 RNA 测序(scRNA-seq)方案中进行测序时细胞会被破坏，因此无法跟踪它们的发育情况，例如随时间变化的基因表达谱。因此，需要根据测量的快照snapshot数据来估计底层动态过程。

尽管传统上样品是从单个实验时间点采集的，但仍可以观察到多种细胞类型。这种多样性源于生物过程的异步性质。因此，可以观察到一系列的发育过程。重建发展过程是该领域的轨迹推断（trajectory inference，TI）的目标。这项任务是通过根据发育过程对观察到的细胞状态进行排序来实现的。通过将离散注释映射到连续域（即所谓的伪时间），状态沿着发展方向对齐。

伪时间根据细胞在发育过程中各自的阶段对细胞进行相对排列。不太成熟的细胞分配较小的值，成熟的细胞分配较大的值。例如，在研究骨髓样本时，造血干细胞被指定为低伪时间，而红细胞被指定为高伪时间。对于单细胞RNA测序数据，分配是基于细胞的转录组图谱。此外，构建通常需要指定整个过程开始的初始或等效的根细胞。

11.2 拟时序的建立

伪时间构建通常遵循一个常见的工作流程：第一步，将超高维单细胞数据投影到较低维的表示上。这一过程通过观察动态过程在低维流形上进展而得到证实。在实践中，伪时间方法可能依赖于主成分或扩散成分（例如扩散伪时间 (DPT) 。接下来，伪时间是根据以下原则之一构建的。

首先对观察结果进行聚类，然后确定这些聚类之间的连接。可以对簇进行排序，从而构建伪时间。今后，我们将这种方法称为集群方法。经典的聚类算法包括k-means，Leiden或层次聚类。簇可以基于相似性或通过构建最小生成树（MST）来连接。
图方法graph approach首先找到观测值的低维表示之间的联系。此过程定义了一个图表，基于该图表定义了集群，从而定义了排序。例如，PAGA将图划分为Leiden簇并估计它们之间的连接。直观上，这种方法保留了数据的全局拓扑，同时以较低的分辨率进行分析。因此，提高了计算效率。
基于流形学习的方法Manifold-learning based approaches与集群方法类似。然而，簇之间的连接是通过使用主曲线或图形来估计基础轨迹来定义的。主曲线找到一条连接高维空间中的细胞观察结果的一维曲线。这种方法的一个著名代表是Slingshot。
概率框架将转移概率分配给有序的细胞对。每个转移概率都量化参考细胞是另一个细胞的祖先的可能性。这些概率定义了用于定义伪时间的随机过程。例如，DPT被定义为随机游走的连续状态之间的差异。相比之下，Palantir将轨迹本身建模为马尔可夫链。虽然这两种方法都依赖于概率框架，但它们需要指定根细胞。伪时间本身是相对于该细胞计算的。

TI是一个经过深入研究的领域，提供了丰富的方法。要应用适当的方法来分析单细胞数据集，首先需要了解生物过程本身。这种理解尤其包括该过程的性质，即，例如，它是否是线性的、环状的或支化的。类似地，同一数据集中的正交过程限制了适用的TI方法。为了帮助识别合适的工具，dynguidelines[Deconinck et al., 2021]提供了算法及其特征的详尽概述。

11.3 下游任务及展望

尽管TI和伪时间已经可以提供有价值的见解，但它们通常充当更细粒度分析的垫脚石。例如，识别终态是一个可以研究的经典生物学问题。同样，可以根据TI和伪时间来识别谱系分歧和驱动命运决定的基因。可以回答哪个问题以及如何找到答案通常是特定于方法的。例如，Palantir将终端状态识别为其构建的马尔可夫链的吸收状态。

轨迹推断的成功有据可查，因此，人们提出了许多方法。然而，随着测序技术的进步，新的信息来源变得可用。例如，ATAC-seq、CITE-seq和 DOGMA-seq可测量转录组以外的其他模式。谱系追踪和代谢标记甚至提供给定细胞的（可能的）未来状态。因此，未来的TI工具将能够包含更多信息来更准确、更稳健地估计轨迹和伪时间，并允许回答新问题。例如，RNA velocity是一种使用未剪接和剪接mRNA来推断超越经典静态信息的定向动态信息的技术。

11.4 推断成人骨髓的伪时间

为了展示如何构建伪时间并比较不同的伪时间，我们研究了成人骨髓的数据集[Setty et al., 2019]。

11.4.1 环境设置

from pathlib import Path

import scanpy as sc

11.4.2 常规设置

DATA_DIR = Path("../../data/")
DATA_DIR.mkdir(parents=True, exist_ok=True)

FILE_NAME = DATA_DIR / "bone_marrow.h5ad"

11.4.3 数据加载

adata = sc.read(
    filename=FILE_NAME,
    backup_url="https://figshare.com/ndownloader/files/35826944",
)
adata

AnnData object with n_obs × n_vars = 5780 × 27876
    obs: 'clusters', 'palantir_pseudotime', 'palantir_diff_potential'
    var: 'palantir'
    uns: 'clusters_colors', 'palantir_branch_probs_cell_types'
    obsm: 'MAGIC_imputed_data', 'X_tsne', 'palantir_branch_probs'
    layers: 'spliced', 'unspliced'

要构建伪时间，必须对数据进行预处理。在这里，我们过滤掉仅在少数细胞（此处至少20个）中表达的基因。值得注意的是，稍后的伪时间的构造对于阈值的精确选择是稳健的。在第一次基因过滤之后，细胞大小被归一化，并计数log1p转换以减少异常值的影响。像往常一样，我们还识别和注释高度可变的基因。最后，构建一个最近邻图，我们将在此基础上定义伪时间。主成分的数量是根据解释的方差来选择的。

sc.pp.filter_genes(adata, min_counts=20)
sc.pp.normalize_total(adata)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata)

sc.tl.pca(adata)
sc.pp.neighbors(adata, n_pcs=10)

由细胞类型注释着色的二维t-SNE表示表明细胞类型很好地聚集在一起。此外，分化层次是可见的。

sc.pl.scatter(adata, basis="tsne", color="clusters")

11.4.4 拟时序构建

为了计算扩散拟时间(diffusion pseudotime，DPT)，首先需要计算相应的扩散图。

sc.tl.diffmap(adata)

骨髓中的分化层次是众所周知的。然而，我们只知道发育过程以造血干细胞的形式开始，但不知道我们数据集中相应簇中的具体细胞是哪个细胞。为了识别假定的初始细胞，我们研究了各个扩散成分。我们识别出在一维（在我们的例子中为 3 维）中具有最极端扩散成分的干细胞。

# Setting root cell as described above
root_ixs = adata.obsm["X_diffmap"][:, 3].argmin()
sc.pl.scatter(
    adata,
    basis="diffmap",
    color=["clusters"],
    components=[2, 3],
)

adata.uns["iroot"] = root_ixs

sc.tl.dpt(adata)

不同的伪时间方法给出不同的结果。有时，一个伪时间可以更准确地捕捉潜在的发展过程。在这里，我们将刚刚计算的DPT与预先计算的Palantir伪时间进行比较。比较不同伪时间的一种选择是对数据的低维嵌入（此处为 t-SNE）进行着色。在这里，与所有其他细胞类型相比，CLP簇中的DPT极高。相比之下，Palantir假时间随着发育成熟而不断增加。

sc.pl.scatter(
    adata,
    basis="tsne",
    color=["dpt_pseudotime", "palantir_pseudotime"],
    color_map="gnuplot2",
)

我们可以研究分配给每个细胞类型簇的伪时间值的分布，而不是对数据的低维表示进行着色。该表示再次表明CLP簇在DPT情况下形成异常值。此外，HSC_1和HSC_2等簇包含多个伪时间增加的细胞。这些夸大的值与我们先前的生物学知识形成鲜明对比，即这些簇构成了发育过程的开始。

sc.pl.violin(
    adata,
    keys=["dpt_pseudotime", "palantir_pseudotime"],
    groupby="clusters",
    rotation=45,
    order=[
        "HSC_1",
        "HSC_2",
        "Precursors",
        "Ery_1",
        "Ery_2",
        "Mono_1",
        "Mono_2",
        "CLP",
        "DCs",
        "Mega",
    ],
)

考虑到这些观察和关于骨髓发育的先验知识，我们认为可以继续使用Palantir拟时间。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,772评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,458评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,610评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,640评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,657评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,590评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,962评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,631评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,870评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,611评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,704评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,386评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,969评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,944评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,179评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,742评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,440评论 2赞 342