专题汇总
正文
你因为不知道如何撰写一个脚本而烦恼吗?
你因为做了一天的实验,却还要去看代码而苦恼吗?
你因为没有图形界面而对一大串文本痛心疾首吗?
你因为下载与安装一大堆软件得不到一致的使用体验而疯狂吗?
你因为面对晦涩难懂的进化理论而不知道如何对现有数据进行分析和挖掘吗?
那么就用我们的eGPS软件吧!
背景(也是开发者的转博中期答辩报告摘要)
随着二代测序价格的不断下降与三代、四代测序技术的进步,越来越多物种的全基因组信息被公开,同时基于测序的各个组学数据也不断涌现。这些数据不但包含了结构与功能的信息,生物在历史长河中不断演化的信息也蕴含其中。这些日益增长的数据为解决各个生物学问题提供了重要的支持。无论任何领域,高效、稳定、安全、方便与被长期支持的软件必然发挥着越来越重要的作用。
虽然现今已经存在许多软件可以执行群体遗传学的多种计算任务,但是很少有应用程序可以处理由全基因组重测序项目产生的大数据集。同时这些软件都散落在各个不同的地方,往往不能得到一站式的服务体验。再者,很多进化的相关分析经常出现看不懂、学不会的现象,研究者需花费大量的时间寻找方法与软件,或者苦于不知道如何对现有数据进行分析与挖掘。最后,尽管现在计算机技术在飞速的进步,脚本型语言等可以便捷地解决不同的计算需求,但是对于广大生物学研究者而言,用户友好型的软件需求更大。
因此,我们期望建立一个可以解决上述问题的一个软件平台,实现了数个连贯的分析流程,使其不但利于使用且利于开发。同时我们也会以具体的数据分析为导向不断完善这个平台;我们也会建立良好的沟通方式(如QQ群: 550899355)通过不断与用户建立良好的反馈来进一步完善、改进、提高整个软件。目前eGPS 已经更新到了 1.0.2版本。
使用示例一
从蛋白质组学数据中查找差异表达基因(DEGs),并从候选基因一键生成近缘物种同原序列的系统发育树。
方法介绍
Isotope-labeling based mass spectrometry (MS) 这种质谱方法被广泛地用来从蛋白质水平对全基因组的基因进行定量分析。eGPS实现了一种被称为 MAP (Model-based Analysis of Proteomic data) 的方法来鉴定DEGs。这种方法的有点在于不需要技术重复,同时运用了一种逐步回归的方法直接评估了观察到的蛋白质的丰度变化(utilizes a step-by-step regression analysis to directly assess the significance of observed protein abundance changes)。
数据准备
一个后缀名为 pro 的文本文件,共包含三列:第一列是基因名,第二列是基因在第一种条件下的表达量,第三列是基因在第二种条件下的表达量,每列用tab键分隔。下面是官网上提供的测试数据MAP_testing.pro。我们用notepad++打开文本。苹果用户可以用相应其它的文本编辑器打开。
关于输入文件格式
一般公司返回的结果文件是一个Excel文件,如何转变成eGPS所能导入的格式?
可以直接在Excel中编辑数据,保留我们格式所需要的三列,然后输出为 tsv 格式文件。最后将文件的后缀名改为pro。
分析步骤
下面以在 windows上操作为例。
打开eGPS,导入pro格式文件,可直接拖入 Data area。点击合适分析方法DEG-mass spectrum进入分析模块。
MAP方法的各个参数都可以在软件的提示信息(tooltip)中查到,改分析方法主要包含如下参数:
参数(Parameter) | 说明(Annotation) |
---|---|
Norm flag | 固定为 Trimmed |
Win size | 扫描比率强度图的滑动窗口大小(类似于M-A图广泛用于微阵列数据分析)。默认值为400个蛋白质。 |
Step size | 滑动窗口的步长。默认值为100个蛋白质。 |
central | 利用窗口强度变化最弱的蛋白质片段来模拟技术变异。它们被认为主要由无差异表达的蛋白质组成。默认值为50% (不推荐高于60%或低于30%的值)。 |
我们选择默认参数,点击Analysis按钮分析数据文件,进度条进度显示过后,可交互式的MA Plot图出现在右侧区域。我们可以将鼠标放在上面,以显示每个点的信息。
eGPS做到了可以让用户一键点击感兴趣的基因从而构建进化树。我们可以鼠标左键点击基因,然后选择Build gene tree 并点击即可构建一个进化树。
同时用户也可以点击Open genome browser去基因组浏览器上查看这段区域。
下面我们演示一下 gene to alignment功能。
背景知识
多重序列联配( 或者叫做多序列的对位排列,英文为multiple sequence alignment,MSA )一般是构建进化树的初始材料。它由三条及以上的序列计算生成,会补充很多Gap(一般用符号'-'表示)使得所有序列都达到相同的长度。用来存储它的文件格式一般有fasta、gcg(msf)、clustalW、paml、mega、phylip等。
MSA主要存储的信息是长度接近基因(一般是1k到几百k)的一系列联配。那么对于多个基因组是否存在全基因组的联配?它的格式一般是什么?多基因组的序列联配(multiple alignment between entire genomes) 就是指由多个基因组(DNA水平)序列计算生成的联配,最广泛运用的格式有MAF格式(multiple alignment format,参见 UCSC中MAF文件格式说明 )。除此之外还有一个EMF的格式,前者主要由UCSC产生,后者是Ensembl。可以利用我们软件的converter插件模块,将EMF转换成MAF。
MAF由表头和一个个的块(block)组成,每个块就相当于一个MSA。他们的区别在于MSA一般是单个蛋白质或者一些短片段DNA的联配,同时一般不会出现基因组重排(rearrangements),正负链相反等复杂情况。
对于给定一个区域,那么用户可以直接从MAF文件中提取多序列联配,进行后续的分析。
后续操作
下面的操作以默认参数运行。
左键点击你感兴趣的目标基因(这里在交互式的点图上面是一个红点),选择 View alignment ,一段时间之后,进入 alignment viewer 模块。我们在Color scheme菜单栏中选择 Highlight all sites。
下面我们点击 Calculate distance matrix,计算配对的进化距离,然后进入 Distance viewer 模块。
再点击 Build tree 可以进入 Tree viewer 模块。
这样很方便的做到了一个连贯的数据分析流程,同时也连接了组学很进化。
参数设置与结果输出
用完了软件之后,你可能会想:
点击一个基因名然后就得到了多序列联配的数据,这些数据哪来的?都是什么物种的同源序列?
如何获得我想要的物种序列?如何保存?
计算进化/遗传距离的时候,是用什么方法计算的?
构建进化树的时候,是用什么方法构建的?
对于问题1: 我们从Ensembl 或者 eGPS Cloud 上面通过REST服务下载数据;用户可以在eGPS的全局设置(依次点击菜单栏中的 Options -> Preferences)中设置species set group,从而选择你感兴趣的物种。对于基因联配,我们还提供了选项供用户选择所需要的区域,例如有些分析是需要编码序列(CDS)。
对于问题2:用户可以使用工具栏上的“另存为”快捷键,保存为各种格式。
对于问题3:用户可以在全局设置的Genetic distance一栏中的 Model/Method 选项选择不同的遗传距离,默认为 Kimura 2-parameter model。同样用户可以保存为各种格式。
对于问题4:全局设置中的 Tree build method 可以选择用什么方法构建进化树。我们现在支持的是距离法构建进化树,并且是其中比较著名的几种。同样用户可以保存为各种格式。