白话单细胞|单细胞标记基因分析方法哪家强?终于有文章详细比较了!

众所周知,单细胞分析中最关键的一步是细胞注释,这是后续所有分析的基础。而精准的细胞注释又依赖于对各细胞簇(Cluster)标记基因的准确选择,正所谓“一着不慎,满盘皆输”,因此这一关键环节必须要找个靠谱的分析方法。刚刚在Genome Biology(IF:12.3)发表的这篇文章:A comparison of marker gene selection methods for single‐cell RNA sequencing data,详细比较了各种单细胞标记基因分析方法。

标记基因的定义

标记基因是指可以用来区分细胞亚群的基因。通常,好的标记基因在不同细胞类型之间表现出较大的表达差异,典型情况下,在目标细胞类型中表现出强烈的上调,在其他细胞类型中则表现出无表达或低表达。在单细胞RNA测序数据分析中,差异表达基因是指在特定比较中表现出统计学上显著表达差异的基因,而标记基因则是用于区分细胞亚群的基因。因此,标记基因是一个比“差异表达基因”更狭窄、更具体的概念。

标记基因的选择通常是通过不同的方法和策略来实现的,这些方法可以基于差异表达分析、机器学习等计算方法。在单细胞RNA测序数据分析中,常用的标记基因选择方法包括Seurat和Scanpy等分析框架中实现的方法,或者一些专门开发的工具。标记基因的选择对于解释细胞亚群的生物学特征、指导聚类分析以及后续的差异表达分析等具有重要意义。

文章的测试

文章测试了59种选择单细胞RNA测序数据中标记基因的方法。这59种方法中,大多数方法使用某种形式的差异表达检验(DE testing),如Seurat、Scanpy、scran findMarkers()、presto、edgeR、limma。相反,其他方法使用特征选择(Feature selection),如RankCorr,预测性能(Predictive performance),如NSForest, SMaSH,替代统计(Alternative statistics),如Cepo, scran scoreMarkers(),Venice。

使用了14个真实的单细胞RNA测序数据集,包括10X Chromium,Smart-seq3,CITE-seq和MARS-seq,细胞量大约在3000到60,000个。同时,文章还使用超过170个额外的模拟数据集进行测试。

评价的策略

  • 模拟标记基因恢复:使用模拟数据集评估各种方法在恢复已知标记基因方面的性能。

  • 专家标记基因恢复:比较各种方法选择的标记基因与专家确定的标记基因集合,以评估方法选择的基因是否与已知的标记基因一致。

  • 预测性能评估:通过评估方法选择的基因集合在分类器中的预测性能来比较方法的效果。

  • 计算性能和实现质量:评估每种方法的计算效率和实现质量,包括运行时间、内存占用、易用性等方面的比较。

测试结果

模拟标记基因恢复

使用模拟场景进行测试,F1 score(召回率和准确性的组合打分)排序显示,表现最好的方法是RankCorr、基于Wilcoxon秩和检验的方法和edgeR方法。NSForest、Cepo和scran的其他二项式方法表现最差。不同分析参数对总体排名影响不大。

专家标记基因恢复

测试使用了Lawlor、Smart-seq3、pbmc3k和Zeisel四个数据集,以及对应已知的专家注释标记基因集,这些数据主要来自描述这些数据集的论文和说明文档。在四个数据集上表现最好的方法是Wilcoxon检验方法、SMaSH、RankCorr、Student 's t-test和limma。scran中的scoreMarkers()方法表现则较差。

预测性能评估

更好的标记基因集应该捕捉到更多关于每个细胞簇是属于哪种细胞的“信息”。文章通过比较分类器对多类聚类状态的预测性能来量化信息的数量,这些分类器只对这些方法选择的标记基因集进行训练。具体来说,文章为每种方法、数据集、聚类组合选择前5个标记基因。测试了三种不同的分类器:KNN分类器,SVM分类器和直接通过标记基因表达归类。

测试结果中,表现最好的方法是limma(trend)、Seurat逻辑回归、Wilcoxon检验方法和T检验方法(除Seurat的T检验),表现最差的方法包括Cepo、scran中的scoreMarkers()方法、Seurat的T检验方法、NSForest、绝对值log fold-change排序和scran的二项检验方法。

计算性能和实现质量

对于标记基因选择方法来说,速度尤其重要,因为当迭代和调整不同的数据聚类时,通常需要多次运行。总体而言,最慢的方法是edgeR方法、Seurat的NB GLM和MAST方法,以及NSForest,而最快的方法是Scanpy的大多数方法、presto、Cepo RankCorr和COSG。此外,Seurat的方法比scran和Scanpy方法慢得多。

在内测消耗方面,SMaSH方法使用的内存最多,而edgeR、limma(voom)和glmamPoi方法也是耗内存的方法,而scran方法、presto和Venice使用的内存最少。使用不同数量的细胞和细胞簇进行模拟,突出了当细胞总数很高时,edgeR、glmGamPoi和limma的内存使用量很高。

最后,对可访问性、安装、文档、易用性和输出的可解释性评估显示,Seurat、Scanpy和scran包具有出色的实现质量。相反,NSForest和RankCorr仅以Python脚本的形式发布在GitHub上,几乎没有说明文档。

最终结论

在scRNA-seq数据测试中,结果表明方法之间显著缺乏一致性,计算资源需求和预测表现存在巨大差异。基于逻辑回归(logistic regression)、学生t检验(Student’s t-test)和Wilcoxon秩和检验(Wilcoxon rank-sum test)等简单方法表现较好。相反,scran的findMarkers()、scoreMarkers()、Cepo和NSForest方法在比较中表现得很差。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容