eGPS开篇与使用示例一

专题汇总

<一> 科学家发布生物进化与多组学综合分析软件

正文

你因为不知道如何撰写一个脚本而烦恼吗?
你因为做了一天的实验,却还要去看代码而苦恼吗?
你因为没有图形界面而对一大串文本痛心疾首吗?
你因为下载与安装一大堆软件得不到一致的使用体验而疯狂吗?
你因为面对晦涩难懂的进化理论而不知道如何对现有数据进行分析和挖掘吗?

那么就用我们的eGPS软件吧!

背景(也是开发者的转博中期答辩报告摘要)

随着二代测序价格的不断下降与三代、四代测序技术的进步,越来越多物种的全基因组信息被公开,同时基于测序的各个组学数据也不断涌现。这些数据不但包含了结构与功能的信息,生物在历史长河中不断演化的信息也蕴含其中。这些日益增长的数据为解决各个生物学问题提供了重要的支持。无论任何领域,高效、稳定、安全、方便与被长期支持的软件必然发挥着越来越重要的作用。
虽然现今已经存在许多软件可以执行群体遗传学的多种计算任务,但是很少有应用程序可以处理由全基因组重测序项目产生的大数据集。同时这些软件都散落在各个不同的地方,往往不能得到一站式的服务体验。再者,很多进化的相关分析经常出现看不懂、学不会的现象,研究者需花费大量的时间寻找方法与软件,或者苦于不知道如何对现有数据进行分析与挖掘。最后,尽管现在计算机技术在飞速的进步,脚本型语言等可以便捷地解决不同的计算需求,但是对于广大生物学研究者而言,用户友好型的软件需求更大。

因此,我们期望建立一个可以解决上述问题的一个软件平台,实现了数个连贯的分析流程,使其不但利于使用且利于开发。同时我们也会以具体的数据分析为导向不断完善这个平台;我们也会建立良好的沟通方式(如QQ群: 550899355)通过不断与用户建立良好的反馈来进一步完善、改进、提高整个软件。目前eGPS 已经更新到了 1.0.2版本。

使用示例一

从蛋白质组学数据中查找差异表达基因(DEGs),并从候选基因一键生成近缘物种同原序列的系统发育树。

方法介绍

Isotope-labeling based mass spectrometry (MS) 这种质谱方法被广泛地用来从蛋白质水平对全基因组的基因进行定量分析。eGPS实现了一种被称为 MAP (Model-based Analysis of Proteomic data) 的方法来鉴定DEGs。这种方法的有点在于不需要技术重复,同时运用了一种逐步回归的方法直接评估了观察到的蛋白质的丰度变化(utilizes a step-by-step regression analysis to directly assess the significance of observed protein abundance changes)。

数据准备

一个后缀名为 pro 的文本文件,共包含三列:第一列是基因名,第二列是基因在第一种条件下的表达量,第三列是基因在第二种条件下的表达量,每列用tab键分隔。下面是官网上提供的测试数据MAP_testing.pro。我们用notepad++打开文本。苹果用户可以用相应其它的文本编辑器打开。

pro数据格式

关于输入文件格式

一般公司返回的结果文件是一个Excel文件,如何转变成eGPS所能导入的格式?

可以直接在Excel中编辑数据,保留我们格式所需要的三列,然后输出为 tsv 格式文件。最后将文件的后缀名改为pro

分析步骤

下面以在 windows上操作为例。

打开eGPS,导入pro格式文件,可直接拖入 Data area。点击合适分析方法DEG-mass spectrum进入分析模块。

导入pro格式文件

MAP方法的各个参数都可以在软件的提示信息(tooltip)中查到,改分析方法主要包含如下参数:

参数(Parameter) 说明(Annotation)
Norm flag 固定为 Trimmed
Win size 扫描比率强度图的滑动窗口大小(类似于M-A图广泛用于微阵列数据分析)。默认值为400个蛋白质。
Step size 滑动窗口的步长。默认值为100个蛋白质。
central 利用窗口强度变化最弱的蛋白质片段来模拟技术变异。它们被认为主要由无差异表达的蛋白质组成。默认值为50% (不推荐高于60%或低于30%的值)。

我们选择默认参数,点击Analysis按钮分析数据文件,进度条进度显示过后,可交互式的MA Plot图出现在右侧区域。我们可以将鼠标放在上面,以显示每个点的信息。

质谱数据差异表达分析

eGPS做到了可以让用户一键点击感兴趣的基因从而构建进化树。我们可以鼠标左键点击基因,然后选择Build gene tree 并点击即可构建一个进化树。
同时用户也可以点击Open genome browser去基因组浏览器上查看这段区域。

从候选基因重构系统发育树

下面我们演示一下 gene to alignment功能。

背景知识

多重序列联配( 或者叫做多序列的对位排列,英文为multiple sequence alignment,MSA )一般是构建进化树的初始材料。它由三条及以上的序列计算生成,会补充很多Gap(一般用符号'-'表示)使得所有序列都达到相同的长度。用来存储它的文件格式一般有fasta、gcg(msf)、clustalW、paml、mega、phylip等。

多重序列与多重序列联配

MSA主要存储的信息是长度接近基因(一般是1k到几百k)的一系列联配。那么对于多个基因组是否存在全基因组的联配?它的格式一般是什么?多基因组的序列联配(multiple alignment between entire genomes) 就是指由多个基因组(DNA水平)序列计算生成的联配,最广泛运用的格式有MAF格式(multiple alignment format,参见 UCSC中MAF文件格式说明 )。除此之外还有一个EMF的格式,前者主要由UCSC产生,后者是Ensembl。可以利用我们软件的converter插件模块,将EMF转换成MAF。

MAF由表头和一个个的块(block)组成,每个块就相当于一个MSA。他们的区别在于MSA一般是单个蛋白质或者一些短片段DNA的联配,同时一般不会出现基因组重排(rearrangements),正负链相反等复杂情况。

对于给定一个区域,那么用户可以直接从MAF文件中提取多序列联配,进行后续的分析。

后续操作

下面的操作以默认参数运行。

左键点击你感兴趣的目标基因(这里在交互式的点图上面是一个红点),选择 View alignment ,一段时间之后,进入 alignment viewer 模块。我们在Color scheme菜单栏中选择 Highlight all sites。

点击 View alignment 后 eGPS 界面
可是化 alignement

下面我们点击 Calculate distance matrix,计算配对的进化距离,然后进入 Distance viewer 模块。

可视化进化距离矩阵1
可视化进化距离矩阵2

再点击 Build tree 可以进入 Tree viewer 模块。

最终的系统发育树

这样很方便的做到了一个连贯的数据分析流程,同时也连接了组学很进化。

参数设置与结果输出

用完了软件之后,你可能会想:

  1. 点击一个基因名然后就得到了多序列联配的数据,这些数据哪来的?都是什么物种的同源序列?

  2. 如何获得我想要的物种序列?如何保存?

  3. 计算进化/遗传距离的时候,是用什么方法计算的?

  4. 构建进化树的时候,是用什么方法构建的?

对于问题1: 我们从Ensembl 或者 eGPS Cloud 上面通过REST服务下载数据;用户可以在eGPS的全局设置(依次点击菜单栏中的 Options -> Preferences)中设置species set group,从而选择你感兴趣的物种。对于基因联配,我们还提供了选项供用户选择所需要的区域,例如有些分析是需要编码序列(CDS)。

参数设置1

对于问题2:用户可以使用工具栏上的“另存为”快捷键,保存为各种格式。

对于问题3:用户可以在全局设置的Genetic distance一栏中的 Model/Method 选项选择不同的遗传距离,默认为 Kimura 2-parameter model。同样用户可以保存为各种格式。

参数设置2

对于问题4:全局设置中的 Tree build method 可以选择用什么方法构建进化树。我们现在支持的是距离法构建进化树,并且是其中比较著名的几种。同样用户可以保存为各种格式。

参数设置3

文章引文链接

  1. MAP
  2. eGPS 1.0
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343