hello,大家好,今天给大家带来一个新的聚类算法,ENCORE,文献在Entropy subspace separation-based clustering for noise reduction (ENCORE) of scRNA-seq data,顾名思义,用到基因表达的熵值,关于基因表达的熵值分析,大家可以参考我之前的文章10X单细胞(10X空间转录组)基因表达的熵值分析,10X单细胞(10X空间转录组)基础算法之KL散度等,好了,我们开始分享这个方法,看看有什么独到之处。
ABSTRACT
单细胞 RNA 测序使我们能够在细胞类型识别算法的帮助下表征单细胞分辨率中的细胞异质性。然而,单细胞 RNA 测序数据中固有的噪声严重干扰了细胞聚类、标记识别和可视化的准确性。建议基于特征密度分布的聚类可以区分信息特征和噪声
。将这种策略命名为“entropy subspace”分离,并通过将“entropy subspace”分离策略与一致聚类方法相结合,设计了一种称为基于entropy subspace分离的降噪聚类(ENCORE)的细胞聚类算法.ENCORE 在细胞聚类方面表现出色,并在 12 个标准数据集上生成高分辨率可视化。更重要的是,ENCORE 能够从难以分离的数据集中识别具有生物学意义的分组标记。凭借有效的特征选择、改进的聚类、准确的标记识别和高分辨率可视化等优势,展示了ENCORE 作为 scRNA-seq 数据分析研究细胞异质性和发现组标记的重要工具。
INTRODUCTION
单细胞 RNA 测序 (scRNA-seq) 使研究人员能够捕获单个细胞的转录组。 它通过提供公正和详细的信息来剖析复杂的生物样本,极大地提高了我们对生物系统的了解。 为了充分利用 scRNA-seq 数据集,在细胞聚类、低维可视化和组标记识别方面开发具有高分辨率和准确性的计算方法至关重要。
通常由归一化、特征选择、降维、距离计算、聚类和分组标记识别组成的从头细胞聚类方法发展迅速,对scRNA-seq的应用产生了深远的影响。这些算法中的大多数,例如 Seurat 、SIMLR和 pcaReduce,都在不断提高聚类精度、距离计算和降维。为此,该领域迅速发展了各种聚类、距离计算和降维相关的策略。对于细胞聚类,Lloyd 算法、层次聚类和基于社区检测的方法已被社区广泛使用。对于距离/相似度计算,欧几里得距离和皮尔逊相关性是最流行的方法。 SIMLR 等方法通过集成基于内核的相似性学习来增强聚类性能和可视化。同时,像 pcaReduce 这样的算法专注于加速计算过程和改进低维可视化。此外,一些方法如共现聚类算法和 MAGIC 致力于利用/解决 scRNA-seq 数据中广泛存在的 dropout 问题。相比之下,特征选择的改进发展得更慢。
scRNA-seq 数据的高维被称为“curse of dimensionality”,可能会低估细胞之间的距离,从而难以识别细胞群。特征选择从数以万计的特征中选择有意义的基因/转录本,能够通过提取信息数据和过滤掉干扰信息来降低噪声,提高聚类精度,避免丢失稀有细胞类型并加快计算速度。特征选择发展的一个主要障碍是来自 scRNA-seq 数据许多方面的各种噪声。在大多数情况下,通过计算跨细胞基因表达的变异系数和平均值来选择特征。这两个参数受到噪声特征的严重干扰。具体来说,表达均值会受到高表达但信息量低的特征的严重影响。因此,很难通过基于表达均值的特征选择来选择表达量低但信息量高的特征。同时,特征表达的变异系数会受到批量效应、dropouts和其他无法识别的噪声的严重影响。这些问题仅靠wet lab方法的改进是难以解决的。
噪声的存在使得高维空间中的群结构难以识别。一种解决方案是进行subspace聚类以实现最优的多subspace表示。对于 scRNA-seq 数据,subspace是指特征组(基因/转录本)。这种方法已应用于各个领域,但通常这些方法旨在选择高维空间内各种维度和组合的最佳subspace。当应用于 scRNA-seq 分析时,这些方法在计算上是难以处理的,因为 scRNA-seq 数据集总是包含数万个维度。此外,选择subspace进行下游分析以获取大部分信息并避免噪声也是现有计算算法难以实现的。为了解决当前方法的局限性,提出了一种称为 ENCORE 的新方法,这是一种用于单细胞聚类的集成且用户友好的 R 包,具有用于降噪和特征选择的独特subspace聚类策略。 ENCORE 是基于以下假设设计的,即跨细胞具有相似密度分布的特征可能在信息量方面具有可比性,并且细胞cluster可能更好地显示在subspace中由可比较的信息特征组成。有了这个假设,subspace聚类过程可以简化为密度分布的聚类。 ENCORE 中的“entropy subspace”分离步骤验证了这一假设,该步骤能够稳健地识别具有清晰分离的细胞群的cluster。 ENCORE 还包括一个共识聚类过程,它加强了来自多subspace的共识信号并保留了特定于subspace的信号。验证了 ENCORE 可以在各种 scRNA-seq 数据集上执行准确的细胞聚类、2D 可视化和分组标记识别。
ENCORE的计算原理(当然,就会涉及到很多的算法)
ENCORE主要包含三个主要步骤:子空间分离、在子空间内聚类、一致性聚类(图A-C)。
- 1)首先提供作为输入的表达矩阵,计算矩阵中每个基因的表达密度谱。然后将表达密度谱相近的基因划分到一个Feature set中,并根据不同的Feature set对原始矩阵进行分离,形成多个子空间。(图A)
- 2)对子空间进行分离后,进行不同子空间内细胞的聚类。对于每一个子空间,可以通过计算熵的方法,判断子空间内细胞分布的混乱程度。例如图B中的第1张图中的细胞分布比较规则,分群结果清晰,子空间的熵就比较低,而第2张图中的细胞分布混乱,分群的结果并不清楚,子空间的熵就会比较高。因此,这一步的目的是选取具有较低熵的子空间,而去除不利于进行聚类的特征。(图B)
- 3)筛选出低熵的子空间后,对这些低熵子空间进行整合。作者提出了一种引入一致性因子(Consensus Factor)的聚类方法,例如0代表cell i 和cell j在不同的子空间内都不会聚在一类,1代表cell i和cell j在其中的一个子空间中聚在一类,从而能够放大低熵子空间中的共有信号。最后,我们可以对聚类结果进行差异分析和可视化。(图C)。
ENCORE在真实数据中的应用
在提出这种算法之后,作者将这种算法应用在标准数据集(Darmanis)和郭国骥团队的Mouse Cell Atlas(MCA)中。如图A在标准数据集(Darmanis)中,第2、3、4这三个子空间的细胞分布比较规则,而第1个子空间细胞分布较为混乱,熵较高。在图B中第34、43这两个子空间的聚类结果比较清晰。
作者利用这两个数据集分别比较了Seurat和ENCORE所选取的基因在平均值和变异系数中的差异。其中,Seurat都是选取2000个高变基因,ENCORE在第一个数据中选取17525个基因,在第二个数据中选取1041个基因。作者提出ENCORE在选取基因时的平均值和变异系数的随机性更强。
然后,作者集中对ENCORE和四种比较常用的聚类算法进行了对比。在图A中应用了两个指标作为评价聚类结果的标准:标准化互信息(NMI)和调整兰登系数(ARI)。这两个指标的值越高,说明聚类结果的准确度更高。ENCORE尽管在准确度上并不一直是最高的,但相对比较稳定。图B可以看到在Darmanis标准数据集中,ENCORE的聚类可视化结果比较好,尤其是相比于Seurat。
最后,作者在小鼠的脂肪祖细胞的数据中应用这种算法进行了分析,也就是比较常规的聚类和差异分析这些操作(图A-B)。同时,作者还在8这个群中找了一个比较特异的基因Mgp,并进行了实验验证。
最后总结
创新点集中于选取特征这一步骤的优化。过去选取特征,主要是选取特定数量的高变基因,通常为2000个左右,这样的选取方法可能会导致噪声基因的引入,从而导致细胞分群结果不清晰的问题。而引入子空间的概念,并选取低熵的子空间是数据降噪的一个新的思路,但是在运行过程中发现这种算法消耗的内存远远大于Seurat,这也是这种算法存在的一个问题。
目前而言,计算信息熵是一个很好的方向,无论是单细胞还是空间转录组,基因的信息熵都一定程度上体现了生物学信息,尤其对于空间转录组,细胞的空间分布信息熵更加是未来研究的一个热点。
示例代码链接在GitHub - SONG0417/ENCORE_V1.0,大家可以根据需要多多学习。
生活很好,有你更好