Palantir
是一种对单细胞测序数据进行分化发育轨迹推断的算法,于2019年发表在Nature Biotechnology上。Palantir将细胞分化模拟为一个随机的过程,其中干细胞通过一系列步骤最终分化为终末分化的细胞。Palantir能有效地捕获细胞分化状态的连续性和细胞命运决定的随机性。
安装所依赖的python包
Palantir是基于python3开发的,可以直接通过pip进行安装
pip install PhenoGraph
pip install rpy2
pip install palantir
下载示例数据集
在palantir包的data文件夹下存放了一个示例数据集,以下分析流程使用这个数据集进行分析。
wget -c https://github.com/dpeerlab/Palantir/raw/master/data/marrow_sample_scseq_counts.csv.gz
加载示例数据集
Palantir可以从csv文件,mtx文件,10x count文件和HDF文件读取scRNA-seq数据。csv文件应为count的cell X gene的表达矩阵。
# 加载所需的python包
import palantir
# Plotting and miscellaneous imports
import os
import matplotlib
import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline
# 加载示例数据集
palantir_dir = os.path.expanduser('~/dongwei/palantir/data/')
counts = palantir.io.from_csv(palantir_dir + 'marrow_sample_scseq_counts.csv.gz')
counts
对于其他格式的文件,可以使用palantir.io.from_mtx
,palantir.io.from_10x
,palantir.io.from_10x_HDF5
等函数进行读取。
原始数据进行质控
Palantir可以对原始数据进行质控,使用palantir.preprocess.filter_counts_data
函数用于删除低分子计数的细胞和具有低检测率的基因。
# 查看原始数据的特征
fig, ax = palantir.plot.plot_molecules_per_cell_and_gene(counts)
# 过滤细胞和基因
filtered_counts = palantir.preprocess.filter_counts_data(counts, cell_min_molecules=1000, genes_min_cells=10)
数据的归一化和标准化
Palantir将每个细胞的计数除以检测到的总分子作为归一化的指标,还可以对数据进行log值的转换。
norm_df = palantir.preprocess.normalize_counts(counts)
norm_df = palantir.preprocess.log_transform(norm_df)
数据的PCA降维
# PCA reduction
pca_projections, _ = palantir.utils.run_pca(norm_df)
# Run diffusion maps
dm_res = palantir.utils.run_diffusion_maps(pca_projections, n_components=5)
ms_data = palantir.utils.determine_multiscale_space(dm_res)
Palantir可以使用MAGIC算法对单细胞的表达数据进行imputation处理
# MAGIC imputation
imp_df = palantir.utils.run_magic_imputation(norm_df, dm_res)
tSNE降维可视化
# tSNE visualization
tsne = palantir.utils.run_tsne(ms_data)
fig, ax = palantir.plot.plot_tsne(tsne)
fig, ax = palantir.plot.plot_tsne_by_cell_sizes(counts, tsne)
绘制特征基因的表达谱
使用plot_gene_expression
函数,可以在tSNE图上显示一些特征基因的表达谱。
palantir.plot.plot_gene_expression(imp_df, tsne, ['CD34', 'MPO', 'GATA1', 'IRF8'])
对降维后的数据进行聚类分群
Palantir使用Phenograph对数据进行聚类,并进行可视化
# 数据聚类
clusters = palantir.utils.determine_cell_clusters(pca_projections)
# 聚类结果可视化
palantir.plot.plot_cell_clusters(tsne, clusters )
运行Palantir进行分化发育轨迹推断
可以指定一个近似的最早的起始细胞来运行Palantir。Palantir可以自动确定终末分化状态的细胞,也可以使用termine_states参数指定它们。
# 运行Palantir
start_cell = 'Run5_164698952452459'
pr_res = palantir.core.run_palantir(ms_data, start_cell, num_waypoints=500)
Palantir运行完后生成的结果包含以下数据:
Pseudotime: Pseudo time ordering of each cell
Terminal state probabilities: Matrix of cells X terminal states. Each entry represents the probability of the corresponding cell reaching the respective terminal state
Entropy: A quantiative measure of the differentiation potential of each cell computed as the entropy of the multinomial terminal state probabilities
# 查看自动生成的终末分化的细胞
pr_res.branch_probs.columns
# 根据已有的生物学知识对终末分化的细胞进行重命名
mapping = pd.Series(index=['DC', 'Mono', 'Ery'])
mapping['DC'] = tsne.loc[pr_res.branch_probs.columns, 'x'].idxmax()
mapping['Ery'] = tsne.loc[pr_res.branch_probs.columns, 'y'].idxmin()
mapping['Mono'] = pr_res.branch_probs.columns.difference(mapping.values)[0]
mapping = pd.Series(mapping.index, index=mapping)
pr_res.branch_probs.columns = mapping[pr_res.branch_probs.columns]
pr_res.branch_probs = pr_res.branch_probs.loc[:, ['Ery', 'Mono', 'DC']]
可视化Palantir的结果
使用plot.plot_palantir_results
函数对palantir运行的结果进行可视化
palantir.plot.plot_palantir_results(pr_res, tsne)
查看一些细胞在不同终末分化细胞中的分布比例
cells = ['Run5_164698952452459', 'Run5_170327461775790', 'Run4_121896095574750', ]
palantir.plot.plot_terminal_state_probs(pr_res, cells)
高亮一些细胞查看他们的分布
palantir.plot.highlight_cells_on_tsne(tsne, cells)
基因表达趋势分析
Palantir使用Generalized Additive Models(GAMs)模型计算基因在不同分化细胞中的表达趋势
# 选择特征基因
genes = ['CD34', 'MPO', 'GATA1', 'IRF8']
# 计算基因的表达趋势
gene_trends = palantir.presults.compute_gene_trends( pr_res, imp_df.loc[:, genes])
基因表达趋势的可视化
palantir.plot.plot_gene_trends(gene_trends)
绘制基因表达趋势热图
palantir.plot.plot_gene_trend_heatmaps(gene_trends)
查看相关函数的使用说明
对于一些函数的参数和使用方法,可以通过help()函数查看其相关使用说明,如:
help(palantir.core.run_palantir)