单细胞笔记19-scATAC-seq的细胞注释工具AtacAnnoR

单细胞ATAC-seq(scATAC-seq)能够测量单细胞水平的染色质开放信息,是用于研究基因调控和细胞异质性的重要方法之一。细胞注释是scATAC-seq数据分析中最重要的一步,然而,scATAC-seq数据由于其高维度、高稀疏度、高噪音的特点,使得细胞注释较为困难。大多数现有的注释方法基于多模态整合,容易受到批次效应的影响,并且可能会忽视稀有的细胞类型。

AtacAnnoR是近期发表在Briefings in Bioinformatics上的一种新颖的单细胞ATAC-seq的细胞注释工具。AtacAnnoR可以利用已标注的scRNA-seq数据作为参考,对scATAC-seq的细胞类型进行注释。工具链接:https://github.com/TianLab-Bioinfo/AtacAnnoR

方法介绍

AtacAnnoR方法流程图

简单来说,AtacAnnoR主要利用两轮注释的方法,从而避免批次效应和跨模态细胞注释。

  • 首先,scATAC-seq的peak计数矩阵被处理成两个矩阵,一个是基因活性矩阵(代表基因层面的信息),另一个是经过NMF降维的meta-program矩阵(代表整个基因组开放的信息)。
  • 第一轮注释主要是在基因层面的注释。首先针对参考的scRNA-seq进行差异分析,寻找标记基因;然后,scATAC-seq基因活性矩阵中的每个细胞首先与scRNA-seq中的细胞类型比较,确定细胞的初始标签(candidate cell labels)。最后,利用找出的标记基因对初始标签进行验证,最后只保留高可信的部分细胞,称为种子细胞候选(seed cell candidates)。这些种子细胞候选接下来再作为训练样本,进入第二轮注释。
  • 第二轮注释利用了整个基因组的信息。首先对种子细胞候选进行进一步的清洗,得到更高质量的种子细胞(准确率能达到95%左右)。然后利用这些最终的种子细胞,使用WKNN(加权最近邻)算法对剩下未标注的细胞进行标注。在第二轮注释中,由于训练样本本身就来自待注释的细胞群,因此不会受到批次效应的影响。

方法表现

作者设计了三种情况,系统地对AtacAnnoR的表现进行了测试。这三种情况分别是:

benchmark测试的三种情况
  • 细胞层面的双组学测序数据(cell-level dual omics sequencing)。即在同一个细胞内同时测量基因表达和染色质开放,这种情况可以作为金标准来验证scATAC-seq细胞注释工具的准确性。
  • 样本层面的双组学测序数据(sample-level dual omics sequencing)。即同一份样本分成两份分别进行scRNA-seq和scATAC-seq。这种数据通常是研究人员为了自己的研究目的从而进行了特殊的实验设计,对双组学分别进行测序。
  • 仅有待注释的scATAC-seq数据,使用其他来自公共数据库的scRNA-seq作为参考来进行细胞注释。这种情况是最普遍,同时也是难度最大的一种情况。因为大多数情况下并没有配套的scRNA-seq作为参考,公共数据库的scRNA-seq数据可能会与手上的scATAC-seq数据存在较大的批次效应。

作者将AtacAnnoR和Seurat v3(2019, Cell),GLUE(2022, Nature biotechnology),scJoint(2022, Nature biotechnology),Conos(2019, Nature methods), MAESTRO(2020, Genome biology)和CellWalkR(2021, Genome biology)进行了比较。

在第前两种情况下,AtacAnnoR的注释准确率和GLUE几乎处于并列第一的位置,而平衡准确率(balanced accuracy)要远好于其他方法,说明AtacAnnoR不止能对数量多的细胞类型准确注释,同时也能关注到细胞数量较少的亚群。作者对稀有细胞类型的准确率检查也说明可这一点:AtacAnnoR对稀有细胞注释的平均准确率达到了0.9,而第二名的GLUE只有0.71。Seurat v3和scJoint是表现也还不错的方法,但Seurat在细胞比例极端不平衡的数据集上表现不佳,而scJoint的问题在于对稀有细胞类型的注释效果不佳。

前两种情况的AtacAnnoR与其他方法注释结果比较

对于第三种情况,AtacAnnoR的优势更加明显,达到了0.91左右的准确率,而第二名的Seurat v3仅有0.75。在前两种情况表现很好的GLUE方法在地三种情况下仅达到了0.55的准确率。这说明其他方法受批次效应的影响较大,而AtacAnnoR几乎不受影响。

第三种情况的AtacAnnoR与其他方法注释结果比较

最后,作者调查了其他方法失败的可能原因。作者发现,GLUE注释出的scATAC-seq的细胞比例与参考scRNA-seq的细胞比例有着非常高的相关性,Seurat v3也有部分相关性,这可能是因为他们都是首先对两个模态进行数据整合,然后再利用近邻细胞进行细胞注释。如果参考数据和待注释数据的细胞比例有较大差异,整合可能失败,从而导致细胞注释结果不准确。


参考

原文链接:https://doi.org/10.1093/bib/bbad268
工具链接:https://github.com/TianLab-Bioinfo/AtacAnnoR

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345

推荐阅读更多精彩内容