有效降维对于scRNA-seq分析至关重要。主成分分析(PCA)被广泛使用,但需要连续的、正态分布的数据;因此,它经常与scRNA-seq应用中的对数变换相结合,这可能会扭曲数据并掩盖有意义的变化。近日《Scientific Reports》发表了一种基于计数的PCA替代方案:对应分析(correspondence analysis,CA),其基于卡方残差矩阵的分解,避免了失真的对数变换。
将CA应用于scRNA-seq
标准对应分析(CA)在列联表分析框架中投射scRNA-seq读取计数,其规范形式可以被概念化为两步程序(下图中以图形方式概述)。计数矩阵首先被变换为Pearson卡方残差,然后用奇异值分解(SVD)对所得残差矩阵进行分解。
CA的adaptations及其性能测试
为了解决scRNAseq数据中的过度分散和高稀疏性,研究团队提出了五种CA的adaptations,其可扩展且性能优于标准CA 和glmPCA,在9个数据集中的8个里以更高的性能或可比的聚类精度计算细胞嵌入。特别是CA with Freeman–Tukey residuals (CA-FT) 在不同数据集上表现特别好。
CA 框架的其他优势包括在““CA biplot中”可视化基因和细胞群之间的关联,以及扩展到多表分析。
研究团队还在 corral 中为 scRNA-seq 数据实现CA:这是一个 R/Bioconductor 包,它直接与 Bioconductor 中的单细胞类接口。从 PCA 到 CA 的切换是通过简单的流程替换实现的,并改进了 scRNA-seq 数据集的降维。
特别是当位于更广泛的二元图框架内时,CA可以作为进一步方法开发的平台和丰富的来源。通过同时可视化细胞和基因嵌入,CA biplot强调了这些数据中固有的行列二元性,促进了基因和细胞的联合分析。基因和细胞嵌入分析的统一方法提供了一个自然框架来扩展和/或与其他方法集成,包括基因集富集分析、监督分解和将补充数据投影到共享潜在空间。嵌入可以用作矩阵运算符,将补充数据投射到共享潜在空间中,从而实现多模态和多批次集成,以及快速逼近方法。通过乘法进行矩阵投影是快速且可扩展的,即使对于非常大的数据集也是如此,并且在未来的扩展中,可以作为基于分解数据的代表性子集然后将整个矩阵投影到空间中的快速近似降维方法的基础。
Codeavailability
👉 本研究中corral R/Bioconductor软件包中提供了代码和文件:
https://bioconductor.org/packages/release/bioc/html/corral.html.
👉 在Github上可以找到重现本文中功能和分析的R代码:
https://github.com/laurenhsu1/corral_manuscript.
👉 描述PCA和 CA(包括 corral的不同实现的教程可在以下网址获得:
https://aedin.github.io/PCAworkshop.
首发公号国家基因库大数据平台
参考文献
Hsu, L.L., Culhane, A.C. Correspondence analysis for dimension reduction, batch integration, and visualization of single-cell RNA-seq data. Sci Rep 13, 1197 (2023).