隔离的第三天,一个人的日子总是很难熬,没办法,孤独总是常伴我身,今天我们分享的文献在Atlas of clinically distinct cell states and ecosystems across human solid tumors, 2021年10月发表于cell,其中文章中开发了一种表征细胞状态和生态型的分析方法,EcoTyper ,我们就来一探究竟
核心:无论是正常组织还是肿瘤发生,绝不是单一细胞类型起作用,而是几种细胞类型组成多细胞communities,组成了最小的功能单元,个体差异,预后的不同,皆是因为这个communities的不同,或许,借此,单细胞空间可以运用到临床方向。
In brief
EcoTyper 是一种机器学习框架,用于从基因表达数据中识别和表征细胞状态和生态系统,它可以深入了解人类癌症的细胞landscope和群落结构,这是癌症相关死亡率的主要原因。
Highlights
EcoTyper enables large-scale profiling of cell states and multicellular ecosystems
Applicable to bulk, single-cell, and spatially resolved gene expression data(bulk、单细胞、空间数据全部可以用)
A reference atlas of 69 cell states and 10 ecosystems across 16 types of carcinoma
Carcinoma ecosystems have distinct biology, clinical outcomes, and spatial topology.
SUMMARY
确定细胞如何随其局部信号环境而变化并组织成不同的细胞群对于理解发育、衰老和癌症等多样化过程至关重要。在这里,开发了 EcoTyper,这是一种机器学习框架,用于从bulk、单细胞和空间分辨的基因表达数据中大规模识别和验证细胞状态和多细胞群落。当应用于 16 种人类癌症的 12 种主要细胞谱系时,EcoTyper 确定了 69 种转录定义的细胞状态。大多数状态是肿瘤组织特有的,在各种肿瘤类型中普遍存在,并且具有显著的预后意义。通过分析细胞状态共现模式,发现了十个临床上不同的多细胞群落,具有出乎意料的强保护性,其中三个具有与不良生存相关的骨髓和基质成分,一个富含正常组织,两个与早期癌症发展有关。这项研究阐明了人类癌症中细胞组织的基本单位,并为大规模分析任何组织中的细胞生态系统提供了框架。
INTRODUCTION
在癌症中,相互作用的细胞类型的复杂群落形成了影响肿瘤发生的强大信号网络(这个其实很多文章多次暗示过,细胞是形成社区来发挥作用)。操纵这些网络的有针对性的策略正在改变癌症治疗,例如免疫检查点抑制剂 (ICI) 在多种晚期实体癌中的成功。然而,对当前 ICI 的反应率是异质的,大多数实体瘤患者未能获得长期的临床益处。全面了解肿瘤相关细胞状态、它们的相互作用模式以及它们对临床结果的影响可以为疾病管理和治疗干预提供新的机会。
以前的研究揭示了人类肿瘤的广泛表型分类,从 T 细胞发炎(“hot”)到 T 细胞耗尽(“cold”)的肿瘤。这些分类可以告知疾病特征,包括反应ICI,但过度简化了肿瘤微环境 (TME) 的细胞类型和细胞状态。近年来,单细胞基因组学、空间转录组学和多重成像已成为直接从原发组织标本中获得高分辨率肿瘤细胞生态系统图像的强大技术。然而,实际考虑在很大程度上将这些测定限制在单一肿瘤类型、中等大小的样本组或少量表型标志物上。
在这里,开发了 EcoTyper,这是一种机器学习框架,用于从大块组织标本中大规模描绘细胞状态和多细胞群落。我们的方法将统计学习技术与基因表达反卷积的最新进展相结合,从bulk、单细胞和空间分辨的基因表达数据中阐明多细胞生态系统。为了证明该框架的实用性,构建了来自 16 种人类癌症的转录不同细胞状态的全球图谱。然后,我们定义了近 6,000 个肿瘤的细胞状态共现模式,确定了 10 个具有广泛代表性的多细胞群落。我们在单细胞水平上描述了我们的发现;在独立的大块组织样本中验证它们;并研究了它们与基因组特征、总生存期和 ICI 反应的关联。最后,我们query了多细胞群落的空间组织,包括两个具有促炎特性的群落。这项工作揭示了人类癌症中细胞组织的基本单位,对新的诊断和个性化治疗有影响。
RESULTS
The EcoTyper framework
将 EcoTyper 设计为一个广泛适用的框架,用于从原代组织标本中高通量识别细胞状态和多细胞群落。它包括三个关键步骤:从大块组织转录组中数字纯化细胞类型特异性基因表达谱,识别和定量转录定义的细胞状态,以及将细胞状态共同分配到多细胞communities中。
EcoTyper 首先应用 CIBERSORTx(一种最近描述的“数字细胞术”方法)来确定大块组织转录组中单个细胞类型的丰度和基因表达谱(这是bulk解卷积的方法)。通过估算相关组织样本集合中主要细胞类型的组成,CIBERSORTx 可以在数学上纯化多种感兴趣细胞类型的基因表达谱,而无需单细胞测序或物理细胞分离。值得注意的是,如果可以从其他来源(例如,单细胞或bulk-sorted的转录组)获得特定于细胞类型的表达谱,则可以省略此步骤。其次,EcoTyper 采用统计学习算法,包括无监督和有监督的非负矩阵分解 (NMF) 的变体,来识别特定细胞类型的转录程序(“细胞状态”),量化它们在每个样本中的相对丰度,以及在外部表达式数据集中恢复它们(NMF也是分析的一个重点)。作为该工作流程的一部分,EcoTyper 实施了一种分析策略,即自适应误报指数 (AFI),以在没有先验知识的情况下消除虚假状态,同时最大限度地提高灵敏度。第三,EcoTyper 确定了形成多细胞communities的细胞状态之间的共关联模式。在这项工作中,多细胞communities被广泛定义为跨独立组织样本共同出现的细胞状态的集合,与空间邻域无关。这种状态可能参与多种交流模式,包括依赖接触的相互作用和通过可扩散分泌分子介导的间接相互作用。然后,EcoTyper 可以跨数据集和平台查询细胞状态和communities,从而对组织成分进行大规模评估。EcoTyper 的应用包括从新鲜、冷冻或固定的生物样本中进行表型分析和生物标志物发现;通过整合已知的配体-受体对来研究细胞间信号网络;和探索空间转录组学数据中的多细胞communities。
Atlas of transcriptionally defined cell states in 16 carcinomas
为了展示 EcoTyper 的功能,我们使用它来深入了解人类癌症、全球癌症死亡的主要原因以及可公开获得大量基因组和临床数据的一类恶性肿瘤。由于癌起源于上皮细胞,我们首先选择了 12 种细胞类型,它们共同跨越人类上皮肿瘤中发现的大多数免疫和结构细胞:B 细胞、浆细胞、CD8 T 细胞、CD4 T 细胞、自然杀伤 (NK) 细胞、单核细胞/巨噬细胞、树突状细胞、肥大细胞、中性粒细胞、成纤维细胞、内皮细胞和上皮细胞。然后,组装了一组细胞类型特异性基因表达特征,以使用 CIBERSORTx 区分每种细胞类型。为此,利用了之前发表的基因表达特征,每个都有广泛的验证数据支持其对实体瘤(包括癌)去卷积的分析性能。
接下来,探讨了关键参数对 EcoTyper 反卷积的影响,包括细胞状态丰度和细胞状态分数的共线性。我们将 EcoTyper 应用于 500 个模拟肿瘤数据,这些肿瘤由来自非小细胞肺癌 (NSCLC) 个体的单细胞 RNA 测序 (scRNA-seq) 数据的混合物构成。EcoTyper 在一系列输入分数(平均值为 0.5%–10%)的 26 个已知细胞状态上显示出强大的反卷积性能,包括细胞状态识别(灵敏度 = 0.92,阳性预测值 = 0.86)和枚举(中位数 Pearson r =已知比例和预测比例之间的 0.93)。此外,它实现了 ~0.5% 平均分数丰度的检测极限,同时还展示了解析具有相关丰度模式的状态的能力。
接下来,编制了一个发现队列,该队列由 16 种类型的人类癌症组成,跨越 5,946 个肿瘤和 529 个相邻的正常转录组,由癌症基因组图谱 (TCGA) 分析。选择这些数据集是为了最大限度地提高样本处理和处理的一致性、针对正交测量的估算细胞分数的准确性、管家基因表达水平的一致性,以及每个生物样本的基因组数据和临床随访的可用性。应用于这些数据,这些数据经过统一处理和标准化,EcoTyper 生成了一个包含 77,700 个数字纯化表达谱的矩阵,每个评估的细胞类型和患者样本(即 12 种细胞类型 3 6,475 个样本)。
该表达矩阵的大小和范围为识别和验证癌症之间共享的肿瘤相关细胞状态提供了机会。首先,我们通过与来自 scRNA-seq 数据的参考图谱进行比较,确认所有图谱都显示出细胞类型特异性的有力证据。接下来,我们应用 EcoTyper 将每个数字纯化样本建模为离散转录程序的线性组合。通过这种方式,纯化的样品被视为bulk-sorted populations,允许每个细胞类型的多个转录状态共存每个样品。
在最初的质量控制过滤后,EcoTyper 产生了 71 个离散的细胞状态,每种细胞类型有 3 到 9 个状态。大多数状态在癌症中普遍存在,并且在恶性组织中显著富集,突出了独立于肿瘤部位的关键共性。然而,许多状态的组织学或临床分布也各不相同。例如,多个转录程序将肿瘤与邻近的正常组织或腺癌与鳞状细胞癌区分开来。我们还观察到细胞谱系和肿瘤类型的根本差异:上皮状态对特定肿瘤类型表现出最强的特异性,其次是成纤维细胞、内皮细胞、骨髓细胞和淋巴细胞。
EcoTyper 实现了一个用于参考引导注释的监督框架,其中在一个数据集中学习的细胞状态可以在另一个数据集中进行识别和统计评估。为了评估 EcoTyper 定义的 71 种细胞状态的真实性,我们query了 200,000 个单细胞转录组中每种状态的存在情况,这些转录组涵盖四种类型的人类癌症:乳腺癌 (BRCA)、结直肠癌 (CRC)、头颈部鳞状细胞癌癌(HNSCC)和非小细胞肺癌。总之,94% 的细胞状态(71 个中的 67 个)在 scRNA-seq 数据中使用参考引导注释和排列测试可显著恢复。无论平台、细胞类型或数据集如何,回收率都保持很高,这突显了我们结果的稳健性。此外,我们在所有 7 个 scRNA-seq 肿瘤图谱中观察到显著可重复的标记基因表达,留一法交叉验证率为 90%。基于这些评估,选择了 71 个状态中的 69 个进行进一步分析,省略了映射到 scRNA-seq 数据中潜在双细胞的 2 个(内皮细胞状态 3,成纤维细胞状态 7)。
作为另一种验证方法,还测试了是否在单细胞水平上概括了富含特定生物分组(例如正常组织)的状态。事实上,在将单细胞转录组映射到 EcoTyper 状态后,观察到在邻近正常组织、腺癌或鳞状细胞癌中富集的状态具有显著的一致性。此外,与其他用于监督 scRNAseq 分类的参考引导注释工具相比,EcoTyper 表现出卓越的性能。
接下来,通过与已知的转录程序、显著表达的标记基因和之前的 scRNA-seq 研究定义的状态进行比较来注释每个状态。大约三分之二的 EcoTyper 状态可归因于先前文献中建立的基因或表型。例如,在没有先验知识的情况下,EcoTyper 鉴定了与肿瘤新血管形成有关的 ANGPTL2+/NID2+ 尖端样内皮细胞;先前在 HNSCC 中描述的两种成纤维细胞状态;具有部分 EMT 特征的上皮细胞亚群(状态 3);和与前效应、衰竭和静息表型相关的典型 T 细胞亚群(分别为 CCR7+、LAG3+、KLF2+)。 EcoTyper 还揭示了对癌症可塑性知之甚少的细胞类型的见解。例如,在癌症免疫治疗中具有新兴作用的单核细胞/巨噬细胞谱系细胞中,EcoTyper 重建了九种具有广泛代表性的体内表型,包括与促炎单核细胞 (CCR2+)、经典 M0 巨噬细胞 (FABP4+) 和M1 巨噬细胞 (CXCL9+)。还可以检测到四种候选的 M2 样巨噬细胞亚型(状态 4-7),包括表达已知 M2 标记基因的状态,例如 CD209 和 CD163(状态 4)、S1PR1(状态 5)和 CHI3L2(状态 7)。
重要的是,近三分之一的 EcoTyper 状态似乎是新的,或者以前没有通过人类癌症的 scRNA-seq 调查发现。例如,在 M2 样巨噬细胞中,确定了与foamy巨噬细胞显著相似的 AEBP1+ 群体(状态 6),foamy巨噬细胞是一种经常与动脉粥样硬化斑块相关的富含脂质的表型,但其在癌症中的相关性尚不清楚。为了证实这种状态,我们对从福尔马林固定石蜡包埋的人体内分离的基质细胞进行了bulk RNA 序列分析。基于 H&E 染色的具有高和低foamy巨噬细胞含量的 CRC 肿瘤活检。事实上,在 EcoTyper 鉴定的九个单核细胞/巨噬细胞状态中,状态 6 独特地富含富含foamy巨噬细胞的基质,支持分析的结果。
总的来说,这些分析证明了 EcoTyper 的性能,并强调了其在当前超出其他技术实际限制的规模上定义细胞类型特异性转录程序的价值。补充提供了所有已识别状态的详细描述,包括转录因子、候选表面标记和 scRNA-seq 恢复统计。
Global view of cell-state prognostic associations
我们和其他人之前已经表明,来自外部来源的细胞类型特异性参考资料,包括bulk-sorted populations和 scRNA-seq 数据,可以预测癌症临床结果。然而,人类癌症中环境依赖性细胞状态的预后影响在很大程度上是未知的。因此,我们利用 EcoTyper 的独特输出来绘制 15,008 个肿瘤中 69 个细胞状态的预后图。
在我们的发现队列调查的 16 种上皮癌类型中,大多数细胞状态(69 种中的 39 种)与总生存期显著相关,49% (n = 34) 在包含阶段、年龄和性别的多变量分析中具有显著性。全球生存协会将几乎所有评估的细胞类型分为有利和不利状态,突出它们的生物学和临床异质性。例如,如先前研究中发现的,注释为 M1(状态 3)和 M2(状态 4-7)的巨噬细胞亚群分别与更长和更短的存活时间相关。令人惊讶的是,在 M2 样状态中,AEBP1+ foamy巨噬细胞是不良生存的前五名决定因素之一,这表明foamy细胞作为癌症的免疫治疗靶点可能具有广泛的相关性。其他与不良风险相关的显著状态包括 CA9+ 成纤维细胞(状态 8)和 POSTN+ 成纤维细胞(状态 3),这两种细胞都与肿瘤侵袭性有关,以及促血管生成尖端样内皮细胞(状态 2)。特定的白细胞群体在癌症中占主导地位,主要状态包括 CCR7+ 幼稚/中央记忆 CD4+ T 细胞、CD247+ NK 细胞、CD27+ 浆细胞和 XCR1+ cDC1 样树突状细胞,它们与 CD8+ T 细胞启动有关。
为了确定这些结果的普遍性,应用 EcoTyper 对通过微阵列分析的 9,062 个上皮肿瘤转录组的独立队列中的所有 69 种细胞状态进行定量(PRECOG),可获得总生存期数据。首先,我们确认 EcoTyper 对bulk RNA-seq 和微阵列之间的平台特定变化具有鲁棒性。接下来,计算了 PRECOG 数据库中特定状态的生存关联,通过加权 Z 分数来衡量。值得注意的是,TCGA 和 PRECOG 之间的生存关联高度一致(Pearson r = 0.73,p = 1.2 * 10-12),证实了我们的发现并强调了 EcoTyper 对新数据集的可扩展性。我们还观察到个体肿瘤类型的高度一致性,例如结肠癌、卵巢癌和胃癌,其中 M1 和 M2 foamy样巨噬细胞分别预测更长和更短的存活时间。
Large-scale reconstruction of multicellular communities in vivo
肿瘤是由空间和时间相关的细胞状态组成的复杂生态系统。为了确定 EcoTyper 是否可以重建多细胞生态系统,我们设计了一个数据驱动的基于共现和相互避免的模式对细胞状态进行聚类的方法。通过将这种方法应用于发现队列中的肿瘤样本(69 个states,5946 个肿瘤),我们确定了 10 个具有显著凝聚力的细胞群落,我们将其称为“癌生态型”(CEs)。CE 的范围从每个社区 3 到 9 个不同的细胞状态,独立于聚类方法而被稳健地恢复,在人类癌症中普遍存在,并且与 TCGA 中最近描述的免疫亚型高度不同。可以连续评估。虽然几乎每个肿瘤样本都有一个占主导地位的 CE,但大多数肿瘤由多个 CE 组成,突出了肿瘤组织组成的模块化。
为了验证这些结果,我们进行了三个技术实验。首先,我们测试了 CE 是否可跨平台和独立数据集重现。事实上,在通过 RNA-seq 和微阵列分析的 395 个人类癌症样本中,估计的 CE 水平在平台之间显著相关。此外,通过使用 UMAP 对细胞状态丰度分布进行降维,我们在超过 6,000 个保留的上皮肿瘤中观察到几乎相同的群落结构。其次,我们测试了 CE 是否富含具有相互作用潜力的细胞状态,无论是在生态型内部还是跨生态型。与背景预期相比,60% 的 CE 在配体-受体对中显著富集,多个 CE 对也显示出生态型间相互作用的证据。
鉴于这些结果,我们接下来query是否可以在单细胞数据中检测到十个 CE。使用上述 scRNA-seq ,其中包括 ~200,000 个单细胞转录组,包括 76 个肿瘤和 21 个来自四种癌的相邻正常标本,我们将单个细胞分配到 EcoTyper 状态。然后,确定了每个肿瘤/正常样本中每个状态的丰度分数,随后将细胞状态分组到由 EcoTyper 定义的相同 CE 类别中。最后,确定了分配给同一 CE 的状态是否比随机机会预期的更紧密。总之,80% 的 CE 在 scRNA-seq 数据中可显著检测到,p < 0.05。此外,在 p < 0.06 时可检测到 90%。鉴于 scRNA-seq 数据中可能掩盖 CE 检测的潜在混杂因素,包括适度的样本量、每个样本的低细胞数、基因表达的稀疏性和解离引起的扭曲,这一结果令人震惊。作为一种替代方法,我们确定了通过随机机会获得十个具有同样强联合关联的 CE 的联合概率。相对于背景预期,通过随机机会获得原始结果的概率小于 1,000,000 分之一 (p < 10-6)。
总之,这些数据验证了我们的方法,在bulk和单细胞表达数据中识别出不同的多细胞群落,并将 CE 指定为人类癌症细胞组织的基本单位。(非常重要)
6,000 个正常和肿瘤组织标本的癌生态型特征
在确定了癌症中的十个主要多细胞生态系统后,接下来探索了它们的细胞、基因组和临床特征。在整个发现队列中,8 个 CE 在单变量模型中具有显著的预后意义,5 个在对阶段、年龄和性别进行多变量调整后仍然显著。 CE1 和 CE2 高的肿瘤缺乏淋巴细胞,与较高的死亡风险密切相关,并且分别通过 POSTN+ 成纤维细胞和基底样上皮细胞水平升高来广泛区分。 CE3 高的肿瘤,预示着较差的生存结果,富含骨髓,微卫星不稳定性 (MSI) 高,并与 COSMIC 突变过程相关 17,这是在包括食管癌和胃癌在内的多种肿瘤类型中发现的特征,至少与部分原因是胃反流。 CE4 高肿瘤与肌肉生成和 60 岁以上的男性相关(部分原因是其在 HNSCC 和前列腺癌中的患病率较高),而 CE5 至 CE8 高肿瘤富含与吸烟相关的突变、正常组织、年龄相关的突变和适度有利的结果,分别。最后,CE9 和 CE10 高的肿瘤是促炎性的(即富含白细胞),与更长的总生存期密切相关,并且分别具有更高的免疫反应性,包括 IFN-g 信号传导和更高的 B 细胞含量。值得注意的是,两个 CE 在肿瘤和邻近正常组织中以相似的频率存在,但在健康组织中耗尽(CE4、CE10),反映了潜在的场效应。除 CE6 外,其他主要针对肿瘤组织。
总生存期和免疫治疗反应的多细胞预测
由于每种癌症生态型都整合了来自多种细胞状态的贡献,我们推断 CE 分析可能具有改善临床结果预测的潜力。为了测试这种可能性,我们首先将 CE 与用于预测发现队列中的总体存活率的两种分子亚型方案进行了比较:bulk NMF 聚类和由 TCGA 定义的六种泛癌免疫亚型的集合。选择前者来评估 EcoTyper 反卷积的优点,而选择后者作为 TME 分类的比较器。虽然bulk NMF 亚型主要局限于上皮细胞的异质性,但泛免疫亚型显示出相对适度的预后关联。相比之下,CE 在我们进行的所有比较分析中显示出明显的优势,无论是在 CE 特异性生存关联方面,还是在针对大量 NMF 和泛免疫亚型调整的多变量生存模型中。
接下来,我们query CE 是否可以预测免疫治疗反应。为此,收集了 571 名晚期转移性疾病患者在接受抗 PDL1(尿路上皮癌)、抗 PD1(黑色素瘤)或抗 CTLA4(黑色素瘤)单一疗法的免疫检查点阻断之前的肿瘤表达数据。我们在该分析中包括了转移性黑色素瘤,因为大多数非上皮细胞状态可靠地概括为这种疾病。为了量化性能,我们评估了与总生存期的连续关联以及与免疫治疗反应的二元关联。 CE9 以 IFN-g 信号为特征,在预测各种治疗类型和结果测量的卓越结果方面优于其他 CE。我们还将 CE 分析与 112 个候选生物标志物进行了比较,包括由 EcoTyper 定量的 69 个细胞状态、由 CIBERSORTx 枚举的 25 个亲本群体、肿瘤突变负荷 (TMB) 和 2 个已发表的 ICI 反应的bulk特征。令人惊讶的是,CE9 丰度超过了所有其他指标,包括那些受过训练以预测 ICI 反应的指标。这些数据一起表明,即使没有优化,多细胞群落也可以捕获具有卓越预测价值的生物信号。
Spatiotemporal dynamics of proinflammatory communities
接下来试图确定癌症生态型是否显示出不同的空间组织模式。为此,我们主要关注 CE9 和 CE10,这两个促炎群落具有典型的 T 细胞状态和良好的总体存活率,但基因组和细胞特征不同。 CE9-T 细胞状态表达激活和免疫调节基因,包括衰竭标志物,这与 CE9 与 ICI 反应的关联一致(例如,CD8 T 细胞 S3 中的 LAG3 和 CD4 T 细胞 S1 中的 CTLA4)。相反,CE10-T 细胞表达幼稚和中央记忆细胞的标志物(例如,CCR7)。尽管这种差异在肿瘤相关 T 细胞中得到了很好的证明,但它们的精确细胞群落以前尚未建立。使用 EcoTyper,我们发现 CE9-T 细胞与六种细胞状态强烈共存,包括类似于 M1 巨噬细胞、成熟的免疫原性树突状细胞和活化的 B 细胞的状态。相反,CE10-T 细胞与五种细胞状态共存,包括与促炎单核细胞、cDC1 树突状细胞和幼稚/静息 B 细胞一致的细胞状态。这些结果通过参考指导注释在七个 scRNA-seq 数据集中得到证实,加强了认为特定表型优先在肿瘤微环境中作为多细胞组装同时出现。
为了检查 CE 特异性表型是否在空间上不同,我们首先对分别标记 CE9 和 CE10-T 细胞的 GZMB 和 GZMK 进行了多色免疫荧光 (IF) 染色。在癌症中,已观察到 GZMB 和 GZMK 分别区分激活的效应记忆 T 细胞和过渡效应记忆 T 细胞。我们将 EcoTyper 应用于 NSCLC 患者的 23 个大块肿瘤转录组,并选择了四个具有不同 CE9 和 CE10 组成的样本。这些标本的多重染色验证了 EcoTyper 的预测。此外,虽然 GZMB+ T 细胞定位于肿瘤核心,这与慢性抗原刺激和 T 细胞耗竭之间的联系一致,但 GZMK+ T 细胞在很大程度上被排除在外,而是定位于外周。
为了将我们的分析扩展到 T 细胞之外,我们进一步将 IF 成像应用于 APOE+/CD68+ 和 CCR2+/CD68+ 细胞,它们分别标记巨噬细胞/单核细胞谱系中的 CE9 和 CE10 富集状态。使用来自上述分析的肿瘤标本,我们证实了由 IF 确定的相对细胞状态丰度与由 EcoTyper 确定的那些一致。正如对 T 细胞所观察到的,APOE+/CD68+ 细胞定位于肿瘤核心,而 CCR2+/CD68+ 细胞定位于外周。无论我们分析的是单个细胞状态还是整个细胞群落,这些发现都与通过原位空间条形码微阵列数据 (10x Visium) 分析的人类乳腺癌样本的 EcoTyper 去卷积一致。此外,生态型之间的空间差异在与肿瘤细胞的距离方面非常显著,这一发现可扩展到黑色素瘤标本。
为了确定其他细胞类型和癌症是否显示出 CE 特异性共定位模式的证据,我们接下来探索了通过空间转录组学分析的乳腺癌、结肠直肠癌、卵巢癌和黑色素瘤样本中的细胞状态共关联。我们发现,无论发育谱系或癌症类型如何,细胞状态通常都以 CE 特异性方式共定位。通过目视检查,这些图案也很明显。为了量化 CE 空间组织,我们应用了 Moran's I,一种空间自相关的统计量度。我们发现一些 CE 在空间上高度聚合(CE1、CE9、CE10),而另一些则更加分散(CE4、CE5、CE3)。然而,近三分之二的 CE 在空间上富含发现队列中鉴定的 CE 特异性配体-受体对,这意味着大多数 CE,包括 CE9 和 CE10,都发生在具有增强相互作用潜力的空间不同的细胞邻域中。
鉴于这些结果,再加上观察到 CE10 通常比 CE9 更远离肿瘤核心并且也存在于邻近的正常组织中,我们假设 CE10 在早期肿瘤发展过程中先于 CE9。与此一致,我们发现在鳞状细胞肺癌发生的早期阶段,CE10 比 CE9 更普遍,而在恶性组织中,CE9 比 CE10 更普遍。此外,在从 33 名已知结果的受试者收集的肺鳞状细胞癌癌前病变中,CE10 的较高相对水平与自发消退显著相关,而 CE9 的较高相对水平预测进展为浸润性癌(曲线下面积 = 0.82)。这些数据共同进一步验证了我们的方法,将 CE 动力学与早期肺癌发展联系起来,并提供了一个平台来系统地询问肿瘤细胞生态系统的诊断和治疗潜力。
DISCUSSION
在这项研究中,描述了 EcoTyper,这是一个从基因表达数据中解码细胞状态和多细胞群落的集成系统。EcoTyper 在几个重要方面与相关技术不同:首先,通过直接从完整组织活检的 RNA 谱中估算细胞异质性,EcoTyper 避免了物理细胞分离引起的扭曲;不需要抗体或表型标记的预选;适用于新鲜、冷冻和固定标本。其次,与以前的反卷积方法不同,EcoTyper 可以准确地解析来自多种细胞类型 (>10) 的转录状态,将它们组装成多细胞群落,量化它们的相对组成,并在不同的表达数据集和平台上查询它们。尽管在这项工作中将 EcoTyper 应用于 16 种癌症,但它可推广到任何有合适表达数据的组织类型和疾病状态。
虽然最近的研究揭示了使用多重成像对肿瘤细胞群落的重要见解,但这些研究集中在使用有限数量的预定义表型标志物的单一肿瘤类型上。通过部署 EcoTyper 来分析跨越近 6,000 个大块肿瘤转录组的 16 种人类癌症,我们以与标记无关的方式发现了 69 个转录定义的细胞状态和 10 个以前未知的多细胞群落。为此,我们在数千个实体瘤的转录水平上对多细胞群落进行了表征,在 scRNA-seq 数据中证实了它们,并评估了它们与 ICI 反应和早期癌症发展的关联。这些数据和相关分析工具为开发依赖于肿瘤相关细胞状态及其多细胞相互作用模式的诊断和治疗策略提供了新的机会。
In summary, we demonstrate how cell states and multicellular communities can be profiled from bulk tissue transcriptomes, recovered in expression datasets independent of platform,related to immunotherapy response, and tracked across space and developmental time. Our approach is accurate, is complementary to existing single-cell assays, and has significant potential for generating experimentally testable hypotheses. Given its unique capabilities, we anticipate that EcoTyper will prove useful for reconstructing cellular community structure at high resolution and massive scale in health and disease.
Method
Overview of in silico purification
Signature matrix design
Cell state discovery
Cell state and ecotype recovery
我们利用 NMF 模型的内部结构设计了一种基于参考的策略来恢复新样本中的细胞状态。
Significance of cell state recovery
Limit of detection and collinearity analyses
scRNA-seq tumor atlases
Enrichment of cell states in known phenotypes
Comparison of scRNA-seq annotation methods
State-specific marker genes in scRNA-seq data
Ligand-receptor enrichment analysis
Analysis of spatial transcriptomics data
纯方法论的文章,非常难,我们下一篇分享示例代码
生活很好,有你更好