2021年8月10日,深圳华大生命科学研究院精准健康研究所智能算法团队在知名学术杂志《遗传学前沿》(Frontiers in Genetics)在线发表了题为“deepMNN: Deep Learning-Based Single-Cell RNA Sequencing Data Batch Correction Using Mutual Nearest Neighbors”的研究论文,文章提出了一种新的基于深度学习模型进行单细胞RNA测序数据(scRNA-seq)批次效应校正的方法deepMNN。
高通量单细胞RNA测序技术的快速发展产生了海量的scRNA-seq数据,充分利用并整合不同数据集进行大规模单细胞转录组数据挖掘可以为细胞异质性及其进化动力学提供更多新的见解。然而不同scRNA-seq数据可能产生于不同时间和测序平台,这些数据之间不可避免的存在技术或无生物学意义差异的批次效应。虽然目前已经提出了许多scRNA-seq数据批次效应校正算法,但大多数方法需要消耗大量内存和时间,且这种需求随着不断增加的scRNA-seq数据会进一步加剧。
deepMNN是什么?
研究团队基于深度学习模型设计并开发了deepMNN方法用于校正scRNA-seq数据批次效应。deepMNN通过主成分分析降维并在其子空间中计算批次间的互近邻对(MNN pairs),然后构建一个基于深度残差网络的深度学习模型消除批次效应。deepMNN通过自己特有的损失函数指导其进行模型学习从而消除scRNA-seq数据间的批次效应。
deepMNN的性能测试
为了评估deepMNN的批次效应校正效能,文章使用4种不同批次场景的scRNA-seq数据集,包括(A)两个批次且细胞类型相同,(B)两个批次但细胞类型不同(即batch-specific数据),(C)多个批次数据集,(D)大规模数据集。
文章在4种不同场景下比较了deepMNN和常用的批次效应校正算法(Harmony, Scanorama和Seurat V4)以及已发表的基于深度学习的批次效应校正方法(MMD-ResNet和scGen)。实验结果表明,与其他校正方法相比,deepMNN不仅在定性指标(UMAP可视化结果)和定量指标(batch and cell entropy, ARI F1 score 和 ASW F1 score)方面达到较好或可比的性能,且处理大数据时在运算时间方面有较大优势。
值得注意的是,对于多批次数据,目前常见的批次效应校正算法如Scanorama 和 Seurat V4一次只合并两个数据集,并通过迭代来完成多个数据集的集成。而deepMNN 是目前已知第一个可以一步整合多个批次 scRNA-seq 数据的方法。对于大规模数据集HCA(总计达528014个细胞)中进行批次效应校正,由于Seurat V4 和scGen超出了64G内存限制使其不可运行,deepMNN使用17分钟完成了该大规模数据集的批次效应校正,而Harmony和Scanorama则分别需要大约35分钟和77分钟。
总之,文章基于深度学习模型提出新的单细胞RNA测序数据批次效应校正方法deepMNN,准确性优于现有常用方法,特别是在大规模数据集的情况下,deepMNN算法的时间复杂度和空间复杂度均表现优异,同时deepMNN一步即可整合多批次数据集,无需多次迭代。
深圳华大生命科学研究院白勇博士、金鑫研究员为论文共同通讯作者。
deepMNN的源代码,包括研究的实验结果,可以在以下网址获取 :https://github.com/zoubin-ai/deepMNN
首发公号:国家基因库大数据平台
参考文献
Zou B, Zhang T, Zhou R, et al. deepMNN: Deep Learning-Based Single-Cell RNA Sequencing Data Batch Correction Using Mutual Nearest Neighbors[J]. Frontiers in Genetics, 2021: 1441.
图片及信息来源:“华大BGI”公众号