作者,追风少年i
随着单细胞测序技术的飞速发展和相应分析工具的大量出现,单细胞测序的应用逐渐走向成熟,能解决的生物学问题也越来越广泛。而其中,轨迹分析(拟时分析)是单细胞分析中重要的一环,细胞轨迹分析可以通过构建细胞间的变化轨迹来重塑细胞随着时间的变化过程,帮助研究者从单细胞水平推断细胞之间的演化及分化过程,尤其在组织发育、疾病免疫细胞演化方面的研究起到了至关重要的作用。
轨迹分析的分析基础
拟时序分析,即根据不同细胞亚群基因表达量随时间的变化情况,构建细胞谱系发育,但这里的时间并不是真时间,而是一个虚拟的时间,是指的细胞与细胞之间的转化和演替的顺序和轨迹。机体为响应各种应激,其细胞会从一种功能“状态”转变为另一种功能“状态”;当细胞在不同状态之间转变时,往往会经历转录重组,导致一些基因被沉默,一些基因被重新激活,但纯化这些瞬态细胞进行研究是很困难或不可能的,而单细胞数据完美解决了这个问题。理论上当研究若干种细胞亚型,其潜在的细胞分化轨迹路径有7种(如下图)。包括环形(cycle)、线性(linear),分叉(bifurcation)、多分叉(Multifurcation),树型(Tree),以及更复杂的连接图(相当于树结构内部又形成了回路)、分离图(图形连接中存在断点)。
其中通常做的单细胞或多样本的单细胞数据,轨迹分析大部分符合上图第七种分化轨迹,即分离图,但是轨迹分析的方法很多并不能识别这种具有多种分化轨迹的分化结果,典型如monocle[1],构建的树形图会把免疫细胞和组织细胞混合在一起,这样的结果明显是错误的。因而其实做轨迹分析最大的基础,就是首先通过细胞注释识别具有分化关系的细胞类型。
轨迹分析的主流分析思路
轨迹分析主要基于以下3个步骤:
(1)基因筛选:寻找以“拟时”(即不只是嘈杂)方式变化的基因,并利用这些基因来构造数据。
(2)降低维度:一旦选择了用于细胞排序的基因,就会对数据进行降维处理。
(3)pseudotime对细胞排序:通过将表达数据投影到较低维空间,构建细胞间的分化轨迹。
基因筛选
构建的轨迹分析首先是要选择用于构建轨迹的基因,当然,选择轨迹分析时用到的基因有很多方法。
(1)离散度高的基因(monocle自带的方法,默认前1000):缺点是a、基因是否与发育相关不清楚;b、不同细胞类型的发育选取的基因数量不可能一致;c、基因断层(即基因并不是连续变化);d、软件并不能依据轨迹基因来判断细胞是否具有多种分化路径。
(2)Seurat[2]本身挑选高变基因的三种方法(vst、mean.var.plot、dispersion):因为Seurat降维聚类的关系,Seurat选择的高变基因也可以用于做轨迹分析,但缺点也很明显a、基因是否与发育相关不清楚;b、不同细胞类型的发育选取的基因数量不可能一致;c、基因断层;d、Seurat本身挑选的高变基因基于样本整体,没有分化关系的也纳入了分析。
(3)如果背景很强,最好的解决方式是根据生物学背景选取发育的相关基因(例如采取多样本、多时间点的策略推断发育基因,a、对比不同时间相同细胞类型的基因变化关系。b、挑选表征分化关系的基因进行轨迹分析),缺点很明显,难度特别大。
(4)寻找细胞类型之间具有连续变化的基因,理论上这是最优的选择。下图为monocle软件分析得到的轨迹分析基因变化图。
降低维度
降维方法除了在基础分析篇提到的线性降维PCA与非线性降维TSNE、UMAP之外,针对轨迹分析会有独特的降维方法。来了解一下轨迹分析软件用到的主流降维方式。
ICA(independent component analysis,独立成分分析)
ICA是找出构成信号的相互独立部分(不需要正交),对应高阶统计量分析。ICA理论认为用来观测的混合数据阵X是由独立元S经过A线性加权获得。
类似于PCA,ICA也是找到一个特征空间,数据的处理就都需要映射到新空间中去,但是不同于PCA,ICA是将数据解构,从混杂的信号中分离原始的多个生物信号。
ICA与PCA一样,是一种线性降维方法,常用于评估数据的原始组成,在ICA中,这些信号被认为是相互独立的。
DF (Diffusion Maps)扩散映射
Diffusion Maps是一种非线性降维的方法,如果两个点的距离较近,则从一个点行走到另一个点的概率就大,反之,如果两个点的距离较远,则从一个点行走到另一个点的概率就小。Diffusion Maps就是将两个点之间的距离转换成他们之间能够产生随机行走的概率,并用这个随机行走的过程去捕获数据的“邻居”结构,从而将高维数据展开,用低维表示。如下图:
反向图嵌入(DDRTree)降维
Monocle在对数据进行降维时采用DDRTree方法,这种方法会将细胞位点拟合到“树”形结构上,这种方法也最为大多数人所接受,基础这种降维,衍生了PAGA[3],Slingshot、TSCAN等分析方法。
PHATE降维方法
PHATE降维方法1、通过局部相似性对局部数据信息进行编码;2、使用潜在距离编码数据中的全局关系;3、将潜在距离信息嵌入低维以进行可视化(先考虑局部,再纵观全局,最后低维展示的优化)。这种方法的优势在于以所需的维数提供数据集的局部和全局结构的准确、去噪表征,而无需对数据结构强加任何强假设,下图是PHATE降维示意图。
当然,除了上述介绍的方法,还有很多其他的方式,下面是对软件降维方法的总结:
软件 | 降维方法 |
---|---|
Monocle | DDRTree,ICA, tSNE, SimplePPT, L1-graph, SGL-tree |
Monocle3、Vector | UMAP |
Scanpy(PAGA)、URD | Diffusion Maps,dpt |
PHATE | PHATE |
...... | ...... |