2019-06-27 scenic: single-cell regulatory network inference and clustering

title：scenic: single-cell regulatory network inference and clustering

journal：Nature methods

IF：28.46

概述：SCENIC是一个基于计算和机器学习开发的通过顺式调控分析来对单细胞数据中的转录因子调控网络和细胞状态进行鉴定。开发者们认为某个状态下的细胞的转录状态是由它上游的转录因子和共调因子（cofactor）以及这些下游的靶基因组成的基因调控网络（gene regulatory network，GRN）来决定的。目前很多单细胞的鉴定方法都是基于单个基因或者markergene的表达，而作者提出使用转录调控网络来确定细胞状态可能会有更好的效果。

SCENIC的操作主要分为三个流程，第一是使用GENIE3来确定与转录因子共表达的基因（注意是共表达），这只是初步筛选，共表达分析同时会得到一些假阳性和间接的作用的基因，因此第二步是使用RcisTarget通过motif分析来确定真正的转录因子和对应的靶基因，把其他的富集不显著或者没有motif数据支持的数据删除，同时作者把最终获得的转录因子和靶基因的组合成为调节子（regulons）。第三步是使用AUCell的算法来对每一组regulons在每一个细胞中的转录活性进行打分，通过打分的高低来确定每个细胞中特有的转录模式，通过设定阈值，可以得到一个二维的矩阵，用于下游分析，比如聚类分析。这种基于转录调控对细胞进行分类的方法被认为是相对于使用单个基因表达更稳健的鉴定方法。

作者在之后的实验中分析了几组单细胞数据，分别模拟了SCENIC在处理全数据集，低覆盖数据集，和小数据集中的表现能力，发现这种方法在“预测”一些已知的转录因子方面具有很好的效果，甚至比一些目前标准的方法还要好。作者使用了人和鼠的脑部单细胞数据用该方法进行分析，发现了基于Dlx1/2在两个物种中共同调控的靶基因，同时进行聚类分析，发现聚类想过很好。因为肿瘤细胞存在变异，在使用算法聚类过程中比正常状态的细胞聚类更有挑战性，作者使用这个方法分析了少胶质母细胞瘤数据集，发现SCENIC可以很好的处理这类细胞的分簇，并鉴定出一些已知的转录因子。同时作者发现在肿瘤进展（发育轨迹）过程中，会有一些转录因子在其中起作用。另外，传统的去除批次效应的方法需要提供参数（根据经验），而该方法在去除批次效应时是根据生物学特征自动去除的。

方法学：SCENIC的工作流程是由四个R包完成的，包括GENIE3、RcisTarget、AUCell、GRNBoost，其中最后一个R包等价于GENIE3，是用来处理大的数据集的。SCENIC code and tutorials are available at http://scenic.aertslab.org

GENIE3，一个从基因表达数据中推测基因调控网络的方法，它采用随机森林的模型。不同的决策树会对每个转录因子针对假定的靶基因予以权重估计，选取最高的权重作为TF的调控连接。GENIE3的输入文件是一个表达矩阵，一般使用raw counts或者UMI，也可以用TPM等数据，但是可能会损失信息。输出文件是一个包含了基因、基因的潜在的调控因子，及二者的关联（一个权重IM值），我们一般通过设定IM阈值》0.001来确定显著性的共表达信息。最后，一个基因集最少要有20个基因用于下游分析。

RcisTarget，一个用于motif富集分析和候选转录因子筛选的R包，它主要基于两步方法，第一步是先挑选出显著的具有代表性的位于转录起始位点的motif，这步操作是基于一个收录全基因组跨物种的motif数据库来实现的，这个数据库中分数高于30的motif会被留下用作后续分析，第二步是对保留下来的motif做富集分析，富集的方法是i-cirTarget或者是i-Regulon（cytoscape）。最终，所有通过motif 富集的TF modules被整合作为一个完整的输出。

AUCell，是一个打分软件，通过分数的高低来确定每个细胞内特有的转录调控网络。AUCell的输入是一个基因集，输出是每个细胞中对每个基因集的打分。调节子在细胞中的富集程度是通过AUC的线下面积决定的，其中x轴为某个细胞中基因按照表达值排列的秩次信息， y-axis is the number of genes recovered from the input set，AUCell then uses the AUC to calculate whether a critical subset of the input gene set is enriched at the top of the ranking for each cell。最后文件的输出是一个打分矩阵，我们可以直接使用上面的连续的打分数值对细胞进行聚类，也可以使用一个cutoff值转化成（0，1）二维矩阵，这个cutoff值可以是自动生成的，也可以手动设置。

下游分析，AUC输出的矩阵中每行是调节子，每列是细胞名，可以使用Rtsne等方法对细胞进行降维可视化，并进一步分簇。

有关文中示例数据集中基因和样本的筛选：cell，3 UMI counts × 1% of cells = minimum xxx counts per gene

workflow

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,362评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,330评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,247评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,560评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,580评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,569评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,929评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,587评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,840评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,596评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,678评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,366评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,945评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,929评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,165评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,271评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,403评论 2赞 342

2019-06-27 scenic: single-cell regulatory network inference and clustering

推荐阅读更多精彩内容