上篇Connectivity Map(cMap)的探索应用(一)中简单提及以下两种做法:一是提供了cMAP的在线分析网站:www.broad.mit.edu/cmap (需要非盈利机构的邮箱注册方可使用);二是有提供cmap的githup代码仓储:https://github.com/cmap/ (其内包括多种解决版本,包括R,python等), 简单看过R版的流程,这个R包主要用于gct/gctx文件的构建。但是,具体有没有R包能在本地做cMAP分析还没有探索。
针对第一项,如何在线分析?经Connectivity Map官网介绍,在线进行cMAP分析的主要有两个网站:
1-旧版build2
网站:https://portals.broadinstitute.org/cmap/, 该网站仍可以使用,但不再更新。
目的:该网站主要提供以下几种功能,最主要的是query功能,用于评估自身提供的上下调基因与数据库build2中收录的上千条小分子药物处理的表达谱信息之间的相似性。在使用上有疑问,可以查看help中的文档信息。
优势:普通注册即可使用,使用方法简单;输入的查询基因数量可到1000.
不足:build2数据库不再更新,目前收录1300左右的小分子表达谱(源自芯片平台的数据)。输入格式必须是GPL96探针号的grp格式。
2-Clue平台
网站:https://clue.io/,该网站为新版,提供最新功能。
目的:和旧版类似,但在旧版的基础上增加了很多其他功能。其中常用的仍然是Query功能(上下调基因数量限制在150)和Touchstone功能,具体每个工具的用法或有疑问可参考https://clue.io/connectopedia/
优势:数据库更全更多,且维持更新。目前约8000以上的表达谱收录,包括小分子处理后表达谱(主要源自L1000)、基因敲除类表达谱和基因过表达类表达谱等。
不足:该网站需要非营利性邮箱注册,比较麻烦(学校及附属单位不用担心这个问题)。此外网站分析速度比较慢,容易炸毛。
cMAP分析结果如何展示?
1. 与数据库中表达谱信息比较相似性
目前从涉及cMAP的文章来看,大多离不开相似性比较的问题,该分析主要依赖query功能的大多还依赖build2数据库。理由一方面build2小分子数据库源自完整的芯片数据,累计引用度也高,从数据严谨度上讲更受信任。新版clue中的小分子数据库主要源自L1000,数据不如build2全面。
* 单组signature结果展示样式(该样式结果源自build2中result的detail result)
参考文献:The Connectivity Map: Using Gene-Expression Signatures to Connect Small Molecules, Genes, and Disease .
* 多组signature的结果展示样式
数据来源:其实就是单独将每组signature都去做build2的query功能得到permuted results,如下图。
然后将各组signature得到的结果进行汇总,绘制热图。
参考文献:Machine Learning Identifies Stemness Features__Associated with Oncogenic Dedifferentiation
2. CMap mode of action analysis (MoA分析)
经查询,涉及cMAP的文章还经常做MoA分析( CMap mode of action analysis),该分析主要源自Touchstone功能,该功能主要挖掘数据库中各表达谱之间的关系。但MoA分析需要的是该功能下收录的小分子的MoA信息,如下。从数据上来看,其实就是要找到ID与MoA之间的对应关系。可以将这部分数据全部导出,以便后期重复使用。
导出的结果为txt文本,内容信息如下。可以发现MoA是个更大的分类范畴,往往不同的小分子作用在功能分类属于同一类。比如BRD-K04887706和BRD-K28296557这两个小分子,在MoA上同属于AKT inhibitor。
数据来源:常规情况下,是根据query功能结果筛选出感兴趣的小分子,然后根据这个小分子从数据库中调出这些小分析与MoA的关系,然后根据两者之间的关系构建点图。例图如下:
未解决的问题!!!
在线分析这类方法还是很繁琐的,要进行线上分析,线下绘图。
不知道有没有相关的R包可以处理这类分析?
如何重现这篇science里的cMAP拓展分析?按cMAP的原理来看,下文以CX3CR1+和CX3CR1-基因集为signature,60个单细胞表达谱为参考数据库,看CX3CR1+和CX3CR1-这组signature与60例单细胞数据的相似性,从而评估这些细胞的类型,哪些属于CX3CR1+,哪些属于CX3CR1-?要完成这项分析,如何构建60个细胞的参考数据库?
"Two distinct interstitial macrophagepopulations coexist across tissues in specific subtissular niches"这篇文章借用cMAP的框架原理,做分析上的变通。通过已发表的两种巨噬细胞的表达值设置的基因集,与scRNA(smart-seq)检测得到的60多个细胞,借用cmap原理,识别出60个细胞各自属于巨噬细胞的哪一种类型。
借助cMAP分析,利用CX3CR1+基因集和CX3CR1-基因集(源自文章),识别出60多个scRNA数据中哪些细胞接近于CX3CR1+,哪些细胞接近于CX3CR1-。
不知道有没有大神会做?想抱大腿!