使用荧光定量PCR进行真核物种的基因表达量研究时,经常会遇到这样一个问题:有些基因经常存在多个转录变体,我该使用哪个转录本的序列进行引物的设计呢?
1 什么是转录变体
要搞清楚这个问题,首先要从转录变体的来源讲起。众所周知,真核生物的基因是由外显子及其中间的内含子组成的,前体RNA经过不同的“可变剪切”途径,会形成不同外显子的组合形式,从而最终导致不同蛋白亚型的形成。如下图所示:
可以看到,不同结合位置的引物,检测的RNA种类是不同的:引物对1能够检测到RNA变体1和2;引物对2能够检测到全部三个转录变体;引物对3能检测到RNA变体2和3;引物对4仅能检测到RNA变体1。
2 选择哪个序列进行引物设计?
对于究竟选择哪一个变体去设计引物更加合适,不同的人有不同的做法:
① 选择主要转录产物,如变体1,即默认该基因的转录产物绝大多数为变体1,根据变体1的序列进行引物设计,即使引物无法检测某个其他的转录变体(如引物1),也不会影响结果。
② 选择所有转录产物的共有序列,将所有的转录产物序列进行多重比对(Multiple Sequence Alignment),找到这些变体共同拥有的一整段序列,在该序列上进行引物设计(如引物2),不管基因的转录产物是何种变体,都逃脱不了引物的结合,这样,检测到的才是该基因的完整表达情况。
③ 对每个转录变体进行功能分析,有一些转录变体他们的功能是有差别的,有些研究者只需检测某一种转录变体的变化,这样,需要找到该转录变体相对于其他变体特有的一段序列(如上图绿色序列),在这段序列中进行引物设计(如引物4),这样其他的转录变体无法被这对引物扩增。
目前对于转录变体的选择,主要是以上几个策略。
3 如何快速查找转录变体的序列?
关于基因序列的查找可以点此链接《如何查找基因序列》。
如果基因有多个转录变体, 可以在基因页面中找到多个NM号,分别点击进去,就可以找到各转录变体的序列了。
以上这种方法适用于转录变体较少的情况,但如果基因的转录变体比较多,那么一个个点击NM进去找序列就会变得非常麻烦。如人的血管内皮生长因子A基因(VEGFA)有20个转录变体,下面以human VEGFA基因为例,介绍一种较为简单的方法:
1. 在NCBI主页,搜索“VEGFA human”,注意此时数据库需选择gene,点击Search。
2. 搜索结果中,会弹出如下预测框,里面含有该基因的基本信息,包括别称,ID,基因页面,转录产物页面,蛋白页面等等。
3. 点击“RefSeq Transcript”,即进入VEGFA的所有转录产物列表页面:
- 点击右上角“Send to”,选择导出“Gene Features”,点击“Create File”。会生成一个Sequences.txt文件,保存下来。
5. 打开该txt文件,里面即是所有转录变体的FASTA格式序列了。
找到了这些序列,下面的工作就是将这些序列进行多重比对,找到这些序列的共有(或特异)序列。
关于多重序列比对,有基于网页工具、基于本地软件等多种方式。这些方式都可以直接用到上述的txt文件。
总体来说,基于网页工具比较便捷,不需要预装软件,但结果判读比较麻烦;基于软件的方式在后续共有序列的选取方面要优于网页工具。
基于网页工具的比对教程:Clustal Omega
Clustal Omega是欧洲生物信息研究所(EBI)开发的多序列比对排列工具,现已经完全取代了之前ClustalW的地位。使用该工具不仅能够对DNA或者蛋白质进行多序列比对,并且可以自动生成多种格式或构建进化树等。
网址如下:https://www.ebi.ac.uk/Tools/msa/clustalo/
序列比对教程
1. 打开该网页,选择正确的序列类型,将之前得到的txt文件中的Fasta序列全部复制、粘贴到序列框中(以5条序列为例)。
2. 参数设置推荐默认就好,点击Submit:
3. 经过一段时间等待,出现以下结果:
该结果将多个RNA按照同源序列重新进行排列,其中,共有序列下方以*表示,而非同源区域则以--隔开。
4. 定位共有序列的区域
这样,在比对结果中找到连续的*所对应的位置(一定要连续的),就是这几个转录变体的共有序列所在区域。
但是这种比对形式无法直接得到序列,可以将多行共有序列一一复制粘贴拼接在一起,也可以在任意一个转录变体中搜索共有序列的头和尾一小段,中间的就是共有序列。
SnapGene是生工生物反复推荐过的核酸、蛋白序列分析、处理软件,对于多序列的比对功能自然也是不在话下的。
下面以txt序列文件为基础,介绍一下详细的多序列比对流程:
(txt文件怎么来的?在搜索栏中搜索“保守序列”,点此搜索)
1 打开SnapGene,直接将txt拖入snapgene起始界面。
2 SnapGene将自动识别txt中的每个序列,并将其拆分成为单独的序列文件,点击“Import”,软件将生成一个文件夹,文件夹中含有txt中的每一个FASTA序列。
3. 用SnapGene打开任意一个序列(推荐打开文件大小最大的),选择Tools菜单栏中的“Align Multiple Sequences”功能(快捷键Ctrl+L)
4. 在弹出的窗口中,将剩下几个序列都选中,点击“打开”,SnapGene将对选中的序列进行多重比对:
5. 比对结果如下图所示,在下方的Map标签页,我们能够看到这几个转录变体同源及非同源区域所在的位置,非同源区域以空白或者三角显示,同源序列以蓝色显示。
6. 点击下方的Sequence标签页,我们能够看到具体的比对结果信息:
7. 我们可以用鼠标选中绿色的区域,复制、粘贴就得到了这几个转录变体的同源序列了。
参考:https://www.sangon.com/class_Conservative%20Sequence.html