EcoTyper代码实操（六）：在预先分选细胞类型的数据中发现细胞状态和生态型

前言

EcoTyper是一个基于机器学习的工具，能够从Bulk、单细胞、以及空间分辨率的基因表达数据中大规模地识别并验证细胞状态和生态型。我们在前面的推文中介绍了EcoTyper的分析框架和部分实操，感兴趣的小伙伴可以先阅读这一部分哦。

EcoTyper的代码实操主要分为6个部分：

image.png

那么，今天让我们一起来学习一下它的第六个部分——De novo Discovery of Cell States and Ecotypes in Pre-Sorted Data。

EcoTyper的分析框架：

Extract cell type specific genes：在细胞状态鉴定之前，EcoTyper会默认应用筛选来移除那些在给定细胞类型中没有特异表达的基因。它通过差异表达分析来找出某个细胞类型与其他细胞类型之间的差异。Q值大于0.05的基因（使用双侧Wilcox检验，并使用Benjamini-Hochberg方法进行多重假设校正）会从每个细胞类型中筛除。
Cell state discovery：EcoTyper利用非负矩阵分解（NMF）从细胞类型特定的表达数据中鉴定细胞状态。NMF将表达矩阵分解成两个非负矩阵：一个表示基因在每个细胞状态中的表达水平，另一个表示每个细胞状态在每个样本中的相对丰度。
Choosing the number of cell states：基于cophenetic系数确定细胞状态数量。cophenetic系数量化了给定细胞状态数量（或聚类数）的分类稳定性，通常在0到1之间，1表示最稳定。
Extracting cell state information：从步骤2的NMF输出中提取细胞状态信息。
Cell state QC filter：为了减少虚假细胞状态的识别，EcoTyper应用了Adaptive False Positive Index（AFI）筛选。EcoTyper会自动过滤掉AFI大于等于1的细胞状态。
Advanced cell state QC filter：对于包含多种肿瘤类型的数据集，建议使用高级筛选。这个筛选通过计算"dropout score"来标记质量较差的细胞状态。
Ecotype (cellular community) discovery：生态型是通过识别细胞状态在样本中的共现模式来推导的。它使用Jaccard指数来量化每对细胞状态在发现数据集中的样本重叠度，然后使用层次聚类等方法来确定生态型。

代码流程

1.准备环境和数据

下载 EcoTyper

wget https://github.com/digitalcytometry/ecotyper/archive/refs/heads/master.zip
unzip master.zip
cd ecotyper-master
#EcoTyper是一个独立的软件，用R实现，但并不是R包哦。

R环境准备：

image.png

这是官网推荐的R和R包版本，但是小编用的最新的R版本，并且安装相应最新版本的R包也是很顺利的。

install.packages(c("RColorBrewer","cluster", "circlize","cowplot","data.table","doParallel","ggplot2","grid", "reshape2", "viridis","config","argparse","colorspace", "plyr"))
BiocManager::install("ComplexHeatmap")
BiocManager::install("Biobase")
BiocManager::install("NMF")

输入数据：

表达谱数据：结直肠癌scRNA-seq数据，数据存储在example_data/Tutorial_6/PresortedDiscovery中。

image.png

以B细胞为例查看数据格式：

image.png

样本注释文件，数据存储在example_data/Tutorial_6/PresortedDiscovery_annotation.txt。

image.png

2.discovery scripts

EcoTyper_discovery_presorted.R脚本用于在预先分选细胞类型的转录组数据中恢复细胞状态和生态型。

Rscript EcoTyper_discovery_presorted.R -h

此脚本接受 YAML 格式的配置文件作为输入文件(config_discovery_presorted.yml)。

image.png

参数详解：

Discovery dataset name : "PresortedDiscovery"

发现数据集名称
Expression matrices : "example_data/Tutorial_6/PresortedDiscovery"

表达数据的文件路径
Annotation file : "example_data/Tutorial_6/PresortedDiscovery_annotation.txt"

注释数据的文件路径
Annotation file column to scale by : "Histology"

指定一个注释文件中的列名，按照这个列的值，对基因进行缩放（均值为0，方差为1）
Annotation file column(s) to plot : ["Histology", "Tissue"]

指定注释文件中哪些列将用作输出热图中的颜色条（color bar）
Number of NMF restarts : 5

NMF重新启动次数参数。EcoTyper 使用NMF（非负矩阵分解）来鉴定细胞状态，但NMF的结果可能取决于随机初始化。为了获得稳定的解决方案，NMF通常多次运行，每次使用不同的种子。
Maximum number of states per cell type : 20

每种细胞类型可能的状态数量的上限。
Cophenetic coefficient cutoff : 0.95

取值范围为[0,1]，较低的值会得到较多的细胞状态数量。
Minimum number of states in ecotypes : 3

少于3种细胞状态的生态型被过滤掉

运行脚本：

Rscript EcoTyper_discovery_presorted.R -c config_discovery_presorted.yml

3.结果解读

输出的结果包括3类，rank_plot图、各种细胞类型的细胞状态以及生态型。我们来逐各学习。

rank_plot（Cophenetic系数图）:横向虚线表示配置文件中提供的Cophenetic系数截断值（Cophenetic coefficient cutoff field）。红色的垂直虚线表示基于提供的Cophenetic系数截断值自动选择的状态数量。注意这些图表示在应用步骤6和7中的低质量状态筛选之前获得的状态数量。因此最终结果可能包含较少的状态。

image.png

接下来，我们以内皮细胞为例展示ecotyper识别的细胞状态结果

state_assignment.txt：每个样本被分配到具有最高推断丰度的细胞状态的信息，也就是每个样本的主要细胞状态。

image.png

state_assignment_heatmap.png/pdf:展示在每个细胞状态中具有最高 log2 FC的基因的表达情况，这些基因被称为细胞状态特异性标记基因。列代表发现数据集中的样本，而行代表了每个细胞状态的标记基因。所选的标记基因显示在热图的左侧。热图按照细胞状态的分配进行排序，顶部的颜色条显示了给定样本的主要状态。

image.png

"heatmap_data.txt" 是输出热图 "state_assignment_heatmap" 中所显示的热图的基础数据。这些数据包括了基因的表达水平，经过标准化处理，用于展示不同细胞状态中基因表达的变化。通常，每一列代表了发现数据集中的一个样本，而每一行代表了每个细胞状态的标志基因。

image.png

"heatmap_top_ann.txt" 是用户提供的注释文件与细胞状态相关的信息的整合。只有被分配到主要细胞状态的样本才会包含在这个文件中。

image.png

生态型部分输出的结果

"ecotype_abundance.txt" 文件包含了在发现数据集中的每个生态型（ecotype）相对丰度的信息。

image.png

"ecotype_assignment.txt" 文件包含了将发现数据集中的样本分配到各个生态型的信息。未被分配到任何生态型的样本将从该文件中被过滤掉。

image.png

"heatmap_assigned_samples_viridis.pdf/png" 展示了EcoTyper推断出的细胞状态分数的热图，这些细胞状态分配给了被分配到生态型的样本。

image.png

nclusters_jaccard.png/pdf: "initial clusters" 指的是通过对Jaccard指数矩阵进行聚类获得的初始簇的数量。这个数量通常是通过应用平均轮廓（average silhouette）方法来选择的。

image.png

jaccard_matrix.png/pdf:包含至少3个细胞状态的生态型的Jaccard指数矩阵的热图。

image.png

小结

在本期推文中，我们介绍了如何使用EcoTyper从预先分选细胞类型的数据中发现细胞状态和生态系统。截止到本期推文，我们学习完了EcoTyper全部的理论和实操部分。通过系统学习EcoTyper，相信大家可以轻松的将这个强大的工具应用于自己的研究中。

EcoTyper的输出结果十分详尽，我们可以基于此进行许多下游分析，在这里，我们梳理两个常见的分析思路。

1、基于"state_assignment.txt"文件输出的每个样本的细胞状态。我们可以将细胞状态与临床结果（如患者的生存时间）进行关联研究。即使用 Kaplan-Meier 曲线和 log-rank 检验比较数据集中富集于不同的细胞状态的患者整体生存之间是否有差异。

2、基于"state_abundances.txt"文件输出的每个样本中每种细胞状态的相对丰度信息。我们可以将细胞状态或生态型的相对丰度视为一个连续变量，使用R包 survival 中的 coxph 函数构建 Cox 比例风险回归模型评估细胞状态与总体生存之间的关系（保护因素/风险因素）。

生命体系实际上是一个由各种不同的生物化学反应通路模块构成的分子网络系统。与仅研究单一细胞类型不同，研究整个细胞生态系统的结构方式可以为我们提供更全面的视角，以解析疾病的发病机制和异质性。此外，细胞状态和生态型还有预测临床结局、免疫治疗响应的能力。通过使用EcoTyper，我们能够更深入地探索和理解这些生物化学网络系统，从而为研究和治疗提供更全面的洞察。

好啦，本期的分享到这里就结束了，我们下期再会~

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

EcoTyper代码实操（六）：在预先分选细胞类型的数据中发现细胞状态和生态型

前言

代码流程

1.准备环境和数据

下载 EcoTyper

R环境准备：

输入数据：

2.discovery scripts

参数详解：

发现数据集名称

表达数据的文件路径

注释数据的文件路径

指定一个注释文件中的列名，按照这个列的值，对基因进行缩放（均值为0，方差为1）

指定注释文件中哪些列将用作输出热图中的颜色条（color bar）

NMF重新启动次数参数。EcoTyper 使用NMF（非负矩阵分解）来鉴定细胞状态，但NMF的结果可能取决于随机初始化。为了获得稳定的解决方案，NMF通常多次运行，每次使用不同的种子。

每种细胞类型可能的状态数量的上限。

取值范围为[0,1]，较低的值会得到较多的细胞状态数量。

少于3种细胞状态的生态型被过滤掉

运行脚本：

3.结果解读

小结

推荐阅读更多精彩内容