前言
EcoTyper是一个基于机器学习的工具,能够从Bulk、单细胞、以及空间分辨率的基因表达数据中大规模地识别并验证细胞状态和生态型。我们在前面的推文中介绍了EcoTyper的分析框架和部分实操,感兴趣的小伙伴可以先阅读这一部分哦。
EcoTyper的代码实操主要分为6个部分:
那么,今天让我们一起来学习一下它的第六个部分——De novo Discovery of Cell States and Ecotypes in Pre-Sorted Data。
- EcoTyper的分析框架:
- Extract cell type specific genes:在细胞状态鉴定之前,EcoTyper会默认应用筛选来移除那些在给定细胞类型中没有特异表达的基因。它通过差异表达分析来找出某个细胞类型与其他细胞类型之间的差异。Q值大于0.05的基因(使用双侧Wilcox检验,并使用Benjamini-Hochberg方法进行多重假设校正)会从每个细胞类型中筛除。
- Cell state discovery:EcoTyper利用非负矩阵分解(NMF)从细胞类型特定的表达数据中鉴定细胞状态。NMF将表达矩阵分解成两个非负矩阵:一个表示基因在每个细胞状态中的表达水平,另一个表示每个细胞状态在每个样本中的相对丰度。
- Choosing the number of cell states:基于cophenetic系数确定细胞状态数量。cophenetic系数量化了给定细胞状态数量(或聚类数)的分类稳定性,通常在0到1之间,1表示最稳定。
- Extracting cell state information:从步骤2的NMF输出中提取细胞状态信息。
- Cell state QC filter:为了减少虚假细胞状态的识别,EcoTyper应用了Adaptive False Positive Index(AFI)筛选。EcoTyper会自动过滤掉AFI大于等于1的细胞状态。
- Advanced cell state QC filter:对于包含多种肿瘤类型的数据集,建议使用高级筛选。这个筛选通过计算"dropout score"来标记质量较差的细胞状态。
- Ecotype (cellular community) discovery:生态型是通过识别细胞状态在样本中的共现模式来推导的。它使用Jaccard指数来量化每对细胞状态在发现数据集中的样本重叠度,然后使用层次聚类等方法来确定生态型。
代码流程
1.准备环境和数据
下载 EcoTyper
wget https://github.com/digitalcytometry/ecotyper/archive/refs/heads/master.zip
unzip master.zip
cd ecotyper-master
#EcoTyper是一个独立的软件,用R实现,但并不是R包哦。
R环境准备:
这是官网推荐的R和R包版本,但是小编用的最新的R版本,并且安装相应最新版本的R包也是很顺利的。
install.packages(c("RColorBrewer","cluster", "circlize","cowplot","data.table","doParallel","ggplot2","grid", "reshape2", "viridis","config","argparse","colorspace", "plyr"))
BiocManager::install("ComplexHeatmap")
BiocManager::install("Biobase")
BiocManager::install("NMF")
输入数据:
- 表达谱数据:结直肠癌scRNA-seq数据,数据存储在
example_data/Tutorial_6/PresortedDiscovery
中。
- 样本注释文件,数据存储在
example_data/Tutorial_6/PresortedDiscovery_annotation.txt
。
2.discovery scripts
EcoTyper_discovery_presorted.R
脚本用于在预先分选细胞类型的转录组数据中恢复细胞状态和生态型。
Rscript EcoTyper_discovery_presorted.R -h
此脚本接受 YAML 格式的配置文件作为输入文件(config_discovery_presorted.yml)。
参数详解:
-
Discovery dataset name : "PresortedDiscovery"
发现数据集名称
-
Expression matrices : "example_data/Tutorial_6/PresortedDiscovery"
表达数据的文件路径
-
Annotation file : "example_data/Tutorial_6/PresortedDiscovery_annotation.txt"
注释数据的文件路径
-
Annotation file column to scale by : "Histology"
指定一个注释文件中的列名,按照这个列的值,对基因进行缩放(均值为0,方差为1)
-
Annotation file column(s) to plot : ["Histology", "Tissue"]
指定注释文件中哪些列将用作输出热图中的颜色条(color bar)
-
Number of NMF restarts : 5
NMF重新启动次数参数。EcoTyper 使用NMF(非负矩阵分解)来鉴定细胞状态,但NMF的结果可能取决于随机初始化。为了获得稳定的解决方案,NMF通常多次运行,每次使用不同的种子。
-
Maximum number of states per cell type : 20
每种细胞类型可能的状态数量的上限。
-
Cophenetic coefficient cutoff : 0.95
取值范围为[0,1],较低的值会得到较多的细胞状态数量。
-
Minimum number of states in ecotypes : 3
少于3种细胞状态的生态型被过滤掉
运行脚本:
Rscript EcoTyper_discovery_presorted.R -c config_discovery_presorted.yml
3.结果解读
输出的结果包括3类,rank_plot图、各种细胞类型的细胞状态以及生态型。我们来逐各学习。
- rank_plot(Cophenetic系数图):横向虚线表示配置文件中提供的Cophenetic系数截断值(Cophenetic coefficient cutoff field)。红色的垂直虚线表示基于提供的Cophenetic系数截断值自动选择的状态数量。注意这些图表示在应用步骤6和7中的低质量状态筛选之前获得的状态数量。因此最终结果可能包含较少的状态。
接下来,我们以内皮细胞为例展示ecotyper识别的细胞状态结果
- state_assignment.txt:每个样本被分配到具有最高推断丰度的细胞状态的信息,也就是每个样本的主要细胞状态。
- state_assignment_heatmap.png/pdf:展示在每个细胞状态中具有最高 log2 FC的基因的表达情况,这些基因被称为细胞状态特异性标记基因。列代表发现数据集中的样本,而行代表了每个细胞状态的标记基因。所选的标记基因显示在热图的左侧。热图按照细胞状态的分配进行排序,顶部的颜色条显示了给定样本的主要状态。
- "heatmap_data.txt" 是输出热图 "state_assignment_heatmap" 中所显示的热图的基础数据。这些数据包括了基因的表达水平,经过标准化处理,用于展示不同细胞状态中基因表达的变化。通常,每一列代表了发现数据集中的一个样本,而每一行代表了每个细胞状态的标志基因。
- "heatmap_top_ann.txt" 是用户提供的注释文件与细胞状态相关的信息的整合。只有被分配到主要细胞状态的样本才会包含在这个文件中。
生态型部分输出的结果
- "ecotype_abundance.txt" 文件包含了在发现数据集中的每个生态型(ecotype)相对丰度的信息。
-
"ecotype_assignment.txt" 文件包含了将发现数据集中的样本分配到各个生态型的信息。未被分配到任何生态型的样本将从该文件中被过滤掉。
- "heatmap_assigned_samples_viridis.pdf/png" 展示了EcoTyper推断出的细胞状态分数的热图,这些细胞状态分配给了被分配到生态型的样本。
- nclusters_jaccard.png/pdf: "initial clusters" 指的是通过对Jaccard指数矩阵进行聚类获得的初始簇的数量。这个数量通常是通过应用平均轮廓(average silhouette)方法来选择的。
- jaccard_matrix.png/pdf:包含至少3个细胞状态的生态型的Jaccard指数矩阵的热图。
小结
在本期推文中,我们介绍了如何使用EcoTyper从预先分选细胞类型的数据中发现细胞状态和生态系统。截止到本期推文,我们学习完了EcoTyper全部的理论和实操部分。通过系统学习EcoTyper,相信大家可以轻松的将这个强大的工具应用于自己的研究中。
EcoTyper的输出结果十分详尽,我们可以基于此进行许多下游分析,在这里,我们梳理两个常见的分析思路。
1、基于"state_assignment.txt"文件输出的每个样本的细胞状态。我们可以将细胞状态与临床结果(如患者的生存时间)进行关联研究。即使用 Kaplan-Meier 曲线和 log-rank 检验比较数据集中富集于不同的细胞状态的患者整体生存之间是否有差异。
2、基于"state_abundances.txt"文件输出的每个样本中每种细胞状态的相对丰度信息。我们可以将细胞状态或生态型的相对丰度视为一个连续变量,使用R包 survival 中的 coxph 函数构建 Cox 比例风险回归模型评估细胞状态与总体生存之间的关系(保护因素/风险因素)。
生命体系实际上是一个由各种不同的生物化学反应通路模块构成的分子网络系统。与仅研究单一细胞类型不同,研究整个细胞生态系统的结构方式可以为我们提供更全面的视角,以解析疾病的发病机制和异质性。此外,细胞状态和生态型还有预测临床结局、免疫治疗响应的能力。通过使用EcoTyper,我们能够更深入地探索和理解这些生物化学网络系统,从而为研究和治疗提供更全面的洞察。
好啦,本期的分享到这里就结束了,我们下期再会~