title:scenic: single-cell regulatory network inference and clustering
journal:Nature methods
IF:28.46
概述:SCENIC是一个基于计算和机器学习开发的通过顺式调控分析来对单细胞数据中的转录因子调控网络和细胞状态进行鉴定。开发者们认为某个状态下的细胞的转录状态是由它上游的转录因子和共调因子(cofactor)以及这些下游的靶基因组成的基因调控网络(gene regulatory network,GRN)来决定的。目前很多单细胞的鉴定方法都是基于单个基因或者markergene的表达,而作者提出使用转录调控网络来确定细胞状态可能会有更好的效果。
SCENIC的操作主要分为三个流程,第一是使用GENIE3来确定与转录因子共表达的基因(注意是共表达),这只是初步筛选,共表达分析同时会得到一些假阳性和间接的作用的基因,因此第二步是使用RcisTarget通过motif分析来确定真正的转录因子和对应的靶基因,把其他的富集不显著或者没有motif数据支持的数据删除,同时作者把最终获得的转录因子和靶基因的组合成为调节子(regulons)。第三步是使用AUCell的算法来对每一组regulons在每一个细胞中的转录活性进行打分,通过打分的高低来确定每个细胞中特有的转录模式,通过设定阈值,可以得到一个二维的矩阵,用于下游分析,比如聚类分析。这种基于转录调控对细胞进行分类的方法被认为是相对于使用单个基因表达更稳健的鉴定方法。
作者在之后的实验中分析了几组单细胞数据,分别模拟了SCENIC在处理全数据集,低覆盖数据集,和小数据集中的表现能力,发现这种方法在“预测”一些已知的转录因子方面具有很好的效果,甚至比一些目前标准的方法还要好。作者使用了人和鼠的脑部单细胞数据用该方法进行分析,发现了基于Dlx1/2在两个物种中共同调控的靶基因,同时进行聚类分析,发现聚类想过很好。因为肿瘤细胞存在变异,在使用算法聚类过程中比正常状态的细胞聚类更有挑战性,作者使用这个方法分析了少胶质母细胞瘤数据集,发现SCENIC可以很好的处理这类细胞的分簇,并鉴定出一些已知的转录因子。同时作者发现在肿瘤进展(发育轨迹)过程中,会有一些转录因子在其中起作用。另外,传统的去除批次效应的方法需要提供参数(根据经验),而该方法在去除批次效应时是根据生物学特征自动去除的。
方法学:SCENIC的工作流程是由四个R包完成的,包括GENIE3、RcisTarget、AUCell、GRNBoost,其中最后一个R包等价于GENIE3,是用来处理大的数据集的。SCENIC code and tutorials are available at http://scenic.aertslab.org
GENIE3,一个从基因表达数据中推测基因调控网络的方法,它采用随机森林的模型。不同的决策树会对每个转录因子针对假定的靶基因予以权重估计,选取最高的权重作为TF的调控连接。GENIE3的输入文件是一个表达矩阵,一般使用raw counts或者UMI,也可以用TPM等数据,但是可能会损失信息。输出文件是一个包含了基因、基因的潜在的调控因子,及二者的关联(一个权重IM值),我们一般通过设定IM阈值》0.001来确定显著性的共表达信息。最后,一个基因集最少要有20个基因用于下游分析。
RcisTarget,一个用于motif富集分析和候选转录因子筛选的R包,它主要基于两步方法,第一步是先挑选出显著的具有代表性的位于转录起始位点的motif,这步操作是基于一个收录全基因组跨物种的motif数据库来实现的,这个数据库中分数高于30的motif会被留下用作后续分析,第二步是对保留下来的motif做富集分析,富集的方法是i-cirTarget或者是i-Regulon(cytoscape)。最终,所有通过motif 富集的TF modules被整合作为一个完整的输出。
AUCell,是一个打分软件,通过分数的高低来确定每个细胞内特有的转录调控网络。AUCell的输入是一个基因集,输出是每个细胞中对每个基因集的打分。调节子在细胞中的富集程度是通过AUC的线下面积决定的,其中x轴为某个细胞中基因按照表达值排列的秩次信息, y-axis is the number of genes recovered from the input set,AUCell then uses the AUC to calculate whether a critical subset of the input gene set is enriched at the top of the ranking for each cell。最后文件的输出是一个打分矩阵,我们可以直接使用上面的连续的打分数值对细胞进行聚类,也可以使用一个cutoff值转化成(0,1)二维矩阵,这个cutoff值可以是自动生成的,也可以手动设置。
下游分析,AUC输出的矩阵中每行是调节子,每列是细胞名 ,可以使用Rtsne等方法对细胞进行降维可视化,并进一步分簇。
有关文中示例数据集中基因和样本的筛选:cell,3 UMI counts × 1% of cells = minimum xxx counts per gene