作者,Evil Genius
最近见到了很多研究者,真的是不把单细胞轨迹分析当回事,拿到样本不定义直接跑monocle,这能对么?我看了都着急,基本理论要多多学习啊~~~,网上那么多教程,有甄别的看,不要盲目跑代码。
单细胞个性化分析之轨迹分析篇
理论知识不是本篇重点,简单介绍一下
轨迹分析主要基于以下3个步骤:
(1)基因筛选:寻找以“拟时”(即不只是嘈杂)方式变化的基因,并利用这些基因来构造数据。
(2)降低维度:一旦选择了用于细胞排序的基因,就会对数据进行降维处理。
(3)pseudotime对细胞排序:通过将表达数据投影到较低维空间,构建细胞间的分化轨迹。
基因筛选
构建的轨迹分析首先是要选择用于构建轨迹的基因,当然,选择轨迹分析时用到的基因有很多方法。
(1)离散度高的基因(monocle自带的方法,默认前1000):缺点是a、基因是否与发育相关不清楚;b、不同细胞类型的发育选取的基因数量不可能一致;c、基因断层(即基因并不是连续变化);d、软件并不能依据轨迹基因来判断细胞是否具有多种分化路径。
(2)Seurat[2]本身挑选高变基因的三种方法(vst、mean.var.plot、dispersion):因为Seurat降维聚类的关系,Seurat选择的高变基因也可以用于做轨迹分析,但缺点也很明显a、基因是否与发育相关不清楚;b、不同细胞类型的发育选取的基因数量不可能一致;c、基因断层;d、Seurat本身挑选的高变基因基于样本整体,没有分化关系的也纳入了分析。
(3)如果背景很强,最好的解决方式是根据生物学背景选取发育的相关基因(例如采取多样本、多时间点的策略推断发育基因,a、对比不同时间相同细胞类型的基因变化关系。b、挑选表征分化关系的基因进行轨迹分析),缺点很明显,难度特别大。
(4)寻找细胞类型之间具有连续变化的基因,理论上这是最优的选择。
降低维度
降维方法除了在基础分析篇提到的线性降维PCA与非线性降维TSNE、UMAP之外,针对轨迹分析会有独特的降维方法。来了解一下轨迹分析软件用到的主流降维方式。