原文链接:原文链接
在做转录组分析的时候,如何从众多差异基因中筛选出目标基因呢?
下面就以一篇文章为例,来看看用什么方法可以缩小差异基因范围,使目标基因挑选更有针对性。
文章案例
Identification of a novel biomarker, SEMA5A, for non-small celllung carcinoma in nonsmoking women
相关基因:SEMA5A
相关疾病:Carcinoma,Non-Small-Cell Lung;Lung Neoplasms
PMID: 20802022 影响因子3.622 GEO 相关样本:120
文章作者使用AffymetrixU133plus2.0芯片1检测了台湾地区非吸烟肺癌女性患者60对癌症和癌旁肺组织样本,利用配对T检验筛选了肿瘤组织中687个差异表达基因2,并且利用逆转录PCR和免疫组化进行了验证。如何将687个缩小范围呢?因此我们需要判断差异基因在肺癌细胞中主要富集在哪些功能类群和代谢通路。文章作者利用IPA(IngenuityPathway Analysis)软件对差异基因进行了功能分析,筛选出了16条显著性代谢通路3。在最显著改变的三条通路中,其中两条都和轴突导向信号通路(axonguidance)相关,作者很意外,于是就选定了轴突导向信号通路,并在其中挑选了差异表达倍数最高的SEMA5A基因作为后续的研究对象。作者最后利用kaplan-Meier生存分析证明了SEMA5A基因的低表达和非吸烟女性肺癌的低生存率有关联,其可能成为非小细胞肺癌预后的一个有效的生物标志物,也可能代表台湾地区病人的性别特异性。
归纳一下作者的整体思路,先找差异基因,并通过功能分析进一步缩小差异基因的范围,再从中有针对性的挑选基因。
在差异基因的功能分析中,主要有GO功能分析和pathway分析,上面案例作者主要用了pathway分析。
名词解释
GO
GO是Geneontology的缩写,GO数据库分别从功能、参与的生物途径及细胞中的定位对基因产物进行了标准化描述,即对基因产物进行简单注释,通过GO富集分析可以粗略了解差异基因富集在哪些生物学功能、途径或者细胞定位。
Pathway
Pathway指代谢通路,对差异基因进行pathway分析,可以了解实验条件下显著改变的代谢通路,在机制研究中显得尤为重要。
GO分析好比是将基因分门别类放入一个个功能类群的篮子,而pathway则是将基因一个个具体放到代谢网络中的指定位置。
文章分析结果
小编利用上述案例中的数据GSE19804在GCBI在线实验室首先进行差异分析(|foldchange|>2, P值<0.001Q值<0.05),得到了2202个差异基因。将差异基因分别进行GO(P值<0.01,FDR<0.01)和pathway分析(P值<0.05),富集得到351个GO term和110条pathway。结果如下图所示,表一和表二分别为部分GO富集结果和最显著的15条pathway分析结果。
结果怎么看呢?
表头各个参数的解释如下,其中,重点看三个指标,enrichment score、p值和FDR。Pathway分析主要看P值和FDR值,两者越小越好。GO分析还可看enrichmentscore,数值越大表示某个GOterm越容易受到实验因素的影响。
GO和pathway分析结果中都得到了文章中选定的axonguidance这个结果(红框)。
如何定位到基因呢?
将axonguidance中的差异表达基因全部挑选出来,列表如下。作者在文中挑选了显著性最高的SEMA5A作为后续的研究对象。在我们的分析中,当p值小于10^-6时默认为0,按照表达倍数排列SEMA5A也排在前列,和作者的结果较吻合。
Ps:因参数设置和文章中不同,结果仅供参考。
教程:GO和pathway分析
目前有许多GO和pathway分析软件,GO分析软件有Avadis(商业软件)、BiNGO(开源java)、DAVID(基于web的工具)等,pathway分析有IPA和MetaCore(商业软件)等。
但这些软件学习成本高,且许多都是商业软件。有没有一种分析方法无门槛,直接上手就可以搞定的呢?
GCBI平台,伸手党的福音,生信分析方法直接加载了模块,你需要做的只是创建方案,拖动模块,单击运行即可。小编用样本GSE19804演示一下,倒数10min,GO富集分析,pathway分析全搞定。
1、进入GCBI网站的在线实验室https://www.gcbi.com.cn(需注册才能使用)
2、建立项目——方案,在方案界面,拖动模块,修改名字和参数,并用连接线将模块连接成一个方案,小编建立了如下差异分析和GO和pathway分析方案。
3、选择样本数据。
样本数据GSE19804直接来自于GCBI样本库,将样本发送到在线实验室。点击方案中样本模块,在样本分组管理中选择配对样本,选择好相应的对照组和实验组样。Lungnormal **N为对照组,Lungcancer **T为实验组。
4、设置各模块参数
差异分析 |fold change|>1.2 P值<0.05 , Q值<0.05
GO分析 分析类型生物功能分析p值<0.01 ,FDR<0.01
Pathway分析 p值<0.05
5、运行方案
是不是毫无压力?
附录:
文献技术及参数:
1、检测手段:GeneChip Human Genome U133 Plus 2.0 expression arrays (Affymetrix, Inc.)
2、差异筛选:配对t 检验 (P <10^-16)和Bonferroni 校正P值
3、pathway分析:IPA软件费希尔精确检验(fisher’s exact test) P<0.5
检测工具选择
可使用其他检测工具
GeneChip® Human Gene2.0 arrays
GeneChip® HumanTranscriptome Array 2.0(推荐)
拓展知识