Nat Biotech丨单细胞形态和转录状态的综合空间分析
原创 珍奇 图灵基因 2022-04-12 09:54
收录于话题#前沿生物大数据分析
撰文:珍奇
IF:54.908
推荐度:⭐⭐⭐⭐⭐
亮点:
1、本文提出了一种多模式结构化嵌入 (MUSE)技术,它可发现任一模态遗漏的组织亚群并补偿特定于模态的噪声。
2、研究者将 MUSE 应用于包含空间转录组学和成像模式的各种数据集,在健康的大脑皮层和肠道组织中确定了具有生物学意义的组织亚群和定型空间模式。
3、在患病组织中,MUSE 揭示了与肿瘤区域接近的基因生物标志物和阿尔茨海默病脑区淀粉样前体蛋白加工的异质性。
组织由处于不同状态的细胞集合构成,显微镜可以通过形态学的相似性来识别和表征细胞类型。单细胞转录组学提供了互补的方法来通过转录状态的相似性来表征细胞类型。空间转录组学的最新进展将这两种方法结合起来,允许在空间转录组学、顺序荧光原位杂交、多重抗错荧光原位杂交和空间分辨转录扩增子读出映射 (STARmap)。然而,用于对来自同一细胞的形态学和转录组学数据进行综合分析的通用方法却很少存在。2022年3月28日,美国加州大学旧金山药学院的研究团队在《Nature Biotechnology》杂志上发表了一篇名为“Integrative spatial analysis of cell morphologies and transcriptional states with MUSE”的研究型论文,他们证实了这项深度学习技术可用于结合来自最先进的空间转录组学和显微镜技术的信息,以深入了解异质组织的组织、功能和疾病进展。
MUSE 建立在标准的多视图 AE 神经网络架构之上,并添加了自监督损失函数。学习分三个步骤进行:(1)特定于模态的转换:输入特征 x 和 y 被转换为潜在表示 hx 和hy; (2)伪标签学习:对特征空间hx和hy分别进行聚类,得到每种模态的伪标签lx和ly; (3) 联合特征学习:特定模态的特征 hx 和 hy 被合并并转换为联合潜在特征表示z。学习过程以最小化组合的自我重建和自我监督损失函数为指导。整个神经网络中的模型参数在每次迭代中联合更新。最后,在模型训练之后,联合潜在特征 (z) 可以用于各种任务,例如聚类和轨迹推断。
为了评估 MUSE 的性能,他们最初使用模拟的转录本和形态数据,其中每个样本(细胞或组织点)的地面实况亚群分配是已知的。作为基准,MUSE 与几种现有的方法进行了比较,这些方法结合了数据(CCA、MOFA+ 和 AE)以及来自两种模式的特征的简单连接作为基线。首先研究者使用模拟数据来评估 MUSE 从每种模态中捕获判别信息的能力。他们在完整的多模态空间中保留了 10 个地面实况亚群,并通过随机合并每种模态的一组不同样本集群分配来降低两种单一模态解决这些亚群的能力。随着聚类数量的减少,分解方法 MOFA+ 和特征连接保持了与单模态方法相似的准确度水平,而 MUSE超过了单模态基准。接下来,他们评估了当一种模式中的数据质量下降时 MUSE 的性能。单细胞数据中的两个持续存在的问题是测序丢失和特征测量中的噪声。结果显示,较低质量的模态不会过度损害 MUSE 的使用能力更高质量的模式。在潜在空间中可视化结果表明 MUSE 表示保持了十个集群的可辨别的亚群结构。依赖于最大化多模态相关性(CCA)、没有自我监督的重建精度(AE 和 MOFA+)或特征连接的多模态方法在任何一种模态中都受到数据退化的强烈影响。
总之,合成数据表明 MUSE 满足了他们对成功的多模态方法的两个先验要求。也就是说,MUSE 使用的结构化自我监督方法有助于捕获和组合仅从任何一种方式都无法获得的判别性信息。此外,MUSE 并没有因为一种或两种方式的数据质量差而过度混淆。
由于缺乏基本事实,在真实数据上评估推断的亚群结构可能具有挑战性。然而,具有特定细胞类型空间组织的组织可以提供独立的证据来评估学习表示的质量和确定的亚群。一个特别好的例子是大脑皮层,其多层模式提供正交信息来评估发现的亚群。因此,他们将 MUSE 应用于两个实验性小鼠皮层数据集。
第一个皮层数据集是使用 seqFISH+ 技术获得的。该数据集包括约10,000 个基因的表达谱和 523 个细胞的 DAPI 和 Nissl 染色细胞图像。他们扩展了亚群分析,在三个类别中的每个类别中包含四种方法,基于:(1)仅转录特征 x(PCA、ZIFA34、SIMILR25和 scScope26,在方法中有详细描述);(2)只有形态特征y(PCA、多维缩放(MDS)、等距映射(Isomap)和t分布随机邻域嵌入(tSNE));或 (3) x 和 y 的组合(CCA、MOFA+18、AE 和 MUSE)。
MUSE 确定了相对大量的空间共定位的集群。在某些情况下,可以看到同一皮质层内的MUSE 簇具有不同的形态分布,以及与最近单细胞 RNA 测序(scRNA-seq)中报道的不同谷氨酸能细胞类型相匹配学习。
第二个皮层数据集是使用 STARmap 技术获得的。对于转录模式,该数据集包含 1,020个基因的 973 个单细胞表达谱;然而,对于形态学模式,只提供了细胞形状掩码。数据的处理方式与之前的皮层数据集相同,以获得潜在的表示和亚群。他们将基于伪彩色皮层深度“发现”皮层结构的方法进行了可视化。作为案例研究,他们分析了在 MUSE 提供的联合潜在空间中从个体(基于 PCA)或组合(基于 MUSE)模态识别的 STARmap集群。他们根据 MUSE是否精确、复制或与从单模态分析中获得的集群相比是否发现了新集群来对集群进行分类。“精确”的 MUSE 簇基于转录特征分离不佳,但基于形态特征分离得相当好。在综合分析中,MUSE 利用形态多样性进一步将细胞分解为亚组。“复制”的 MUSE 簇仅基于转录特征是不同的。差异表达分析使他们能够将这些簇注释为星形胶质细胞 (Astro.)、海马神经元 (Hippo.)、少突胶质细胞 (Oligo.) 或平滑肌 (SMC)细胞。 “发现”的 MUSE 集群从任何一种单一模式中都被遗漏了,它们单独只提供了微弱的差异。在这里,来自两种模式的弱异质性的组合使 MUSE 能够识别不同的L2/3、L5 和 L6 结构。
遗传多样性和肿瘤微环境变异可以极大地影响癌症进展、诊断和治疗。在这里,他们利用了 ST 收集的胰腺导管腺癌 (PDAC) 数据集,该数据集提供了基于组织点(而不是基于单细胞)的转录状态报告。研究者将 MUSE 应用于可用的 ST 和图像多模态数据,并确定了两个形态上不同的癌症区域,每个癌症区域都基于特征标记基因捕获了两个不同的克隆之一。在癌症区域之外,MUSE 还将非肿瘤组织分解为空间上不同的子区域。他们对这些簇进行了差异表达分析,以研究跨组织区域的变化。顶部过表达的癌症区域基因是先前鉴定的 PDAC 生物标志物;这些基因随着与癌症区域距离的增加呈下降趋势。相比之下,顶部过表达的非癌区基因显示出相反的距离趋势。
接下来,他们使用市售的 10xVisium 空间平台将 MUSE 应用于最近生成的男性成人结肠数据集。受最近一项研究的启发,他们使用来自该组织中主要细胞类型的已知标记来评估已识别簇的一致性。他们专注于四种主要细胞类型,它们被标记为上皮细胞、肌肉细胞、免疫细胞和内皮细胞。在簇内清楚地识别出上皮和肌肉层。与单独的图像模态相比,MUSE 和转录簇通常显示出更高的层特异性基因富集。免疫和内皮细胞在 H&E 图像中出现空间分组。对于免疫区域,仅图像和 MUSE 亚群显示更高的标记富集,而对于内皮区域,仅转录本和 MUSE 显示更高的标记富集。
最后,他们研究了 MUSE 如何利用组合的 ST 和病理生物标志物图像数据。为此,他们利用了一项关于大脑中淀粉样蛋白-β (Aβ) 肽沉积(阿尔茨海默病(AD)的关键病理生理学标志)的研究。在这里,他们在具有转录本 (ST) 和 Aβ 分布(免疫荧光成像)的区域信息的多模式 AD 数据集上评估了 MUSE50。对于每个样本,他们分析了一个组织切片,该切片在空间上进行了 ST 测序,以及相邻切片的 Aβ 免疫染色。对于形态学模态,他们为每个 ST 点分割相邻荧光图像(仅 Aβ 通道)中的相应区域,并使用Inception v3 模型学习深度嵌入。他们利用 MUSE 簇来寻找 Aβ 相关基因。他们确定了四组具有相似区域组成(富含丘脑、下丘脑、海马和皮层)但年龄组成不同的 MUSE集群。总之,对 MUSE 集群的分析揭示了反映 AD 进展的区域、时间和生物学差异,并提出了 APP 处理在大脑区域之间不均匀的假设。
细胞异质性的表征对于了解健康和疾病中组织的组织和功能至关重要。研究组织多样性的两种广泛使用且经过充分验证的方法是显微镜(捕获形态差异)和 scRNA-seq(捕获转录差异)。 MUSE 利用包含自我监督和自我重建损失的学习架构,鼓励在这些不同模式中观察到的亚群结构的综合。本研究证明,对于合成数据和来自不同平台的各种生物数据集合,MUSE 可以揭示单一模式或其他方法遗漏的新亚群结构和组织。
教授介绍:
LaniF. Wu,美国加州大学旧金山药学院教授,主要从事系统生物学、细胞信号、细胞极性、细胞集体行为、癌症生物学、药物发现、计算机视觉和图像分析等方面的研究。其实验室将实验科学、工程学和数学的融合,整合了先进技术、实验、基于机器学习的分析和数据驱动的数学建模,从而试图了解生物系统的设计原理以及生物网络在疾病进展过程中如何重新连接。
参考文献:
Bao, F., Deng, Y., Wan,S. et al. Integrative spatial analysis of cell morphologies and transcriptionalstates with MUSE. Nat Biotechnol (2022). https://doi.org/10.1038/s41587-022-01251-z