Nat Comm | 深度清洗单细胞RNA-Seq数据的通用深度神经网络
图灵基因 图灵基因 2022-05-11 07:03
收录于合集#前沿生物大数据分析
北卡罗来纳大学(UNC)夏洛特分校的科学家们在Weijun Luo博士和Cory Brouwer博士的带领下,报告了一种人工智能算法的开发,可以“清理”嘈杂的单细胞RNA测序(scRNA-Seq)数据。该团队的研究(“A Universal Deep Neural Network for In-Depth Cleaning of Single-Cell RNA-Seq Data”)发表在《Nature Communications》上。
从识别与镰状细胞性贫血和乳腺癌相关的特定基因到正在持续的COVID-19大流行中制造mRNA疫苗,自20世纪90年代人类基因组计划开始实施以来,研究人员一直在深入研究基因组。技术已经从早期的成批处理数千个细胞到解密构成遗传信息的数百万个碱基对的技术发展而来。2009年,研究人员创建了目前广泛用于生物医学研究的scRNA-Seq,它只对活生物体单个细胞中的转录组或基因组表达部分进行测序。
不幸的是,scRNA-Seq数据比较“嘈杂”,存在大量错误和质量问题。对单个细胞而非多个细胞进行测序会导致频繁丢失(数据中缺少基因)。一个细胞,就像一个人一样,可能有自己的健康问题,或者在其生命周期中处于尴尬的阶段——它可能刚刚分裂,或者正在走向细胞死亡,这可能会在scRNA-Seq数据中产生更多错误或技术变化。
除了单细胞特异性问题外,基因组分析通常还伴随着测序错误的“正常”问题。所有这些错误都需要从数据中清除,然后才能使用或解释,这就是新的AI算法的用武之地。
这种被称为AutoClass的算法看起来是对现有统计方法的改进。大多数现有方法都假设误差(或噪声)会遵循特定的预定义分布,或者误差发生的可能性以及误差的大小。现有方法通常无法完全清理数据以揭示生物信号,甚至可能由于对数据分布的不正确假设而增加新的错误。
研究团队称,与此相反,AutoClass不做任何分布假设,因此可以有效地纠正各种噪音或技术变化。
“scRNA-Seq被广泛用于生物医学研究,产生了大量多样性的数据。原始数据包含多种类型的噪声和技术伪影,需要彻底清理。现有的去噪和插补方法主要集中在单一类型的噪声(即丢失)上,并且具有很强的分布假设,这大大限制了它们的性能和应用。”研究人员写道。
“在这里,我们设计并开发了AutoClass模型,集成了两个深度神经网络组件、一个自动编码器和一个分类器,以最大限度地消除噪声和保持信号。AutoClass不依赖于分布,因为它不对特定的数据分布做任何假设,因此可以有效地清除各种噪声和伪影。AutoClass在多种类型的scRNA-Seq数据分析中优于最先进的方法,包括数据恢复、差异表达分析、聚类分析和批量效应消除。”
“AutoClass是一种基于特殊深度神经网络的人工智能算法,旨在最大限度地去除噪音和保持信号。”目前在Novant Health担任数据科学和人工智能高级总监的Luo说,“人工智能通过查看足够多的数据来教自己区分数据中的信号与噪声。通常,它看到的数据越多,性能就越好。”
在这项研究中,Luo指出,他和他的团队证明了AutoClass可以重建高质量的scRNA-Seq数据,并在多个方面增强下游分析。此外,AutoClass非常强大,在各种scRNA-Seq数据类型和条件下表现良好,他补充道。
科学家们说,AutoClass效率高、可扩展性强,可以很好地处理各种样本大小和特征大小的数据,即使在普通PC或笔记本电脑上也能平稳运行。AutoClass是在线开源的。
Brouwer是北卡罗来纳大学夏洛特分校生物信息学和基因组学教授兼生物信息学服务主任。