多个转录变体间保守序列的查找

使用荧光定量PCR进行真核物种的基因表达量研究时，经常会遇到这样一个问题：有些基因经常存在多个转录变体，我该使用哪个转录本的序列进行引物的设计呢？

1 什么是转录变体

要搞清楚这个问题，首先要从转录变体的来源讲起。众所周知，真核生物的基因是由外显子及其中间的内含子组成的，前体RNA经过不同的“可变剪切”途径，会形成不同外显子的组合形式，从而最终导致不同蛋白亚型的形成。如下图所示：

Snipaste_2019-11-28_09-18-48.png

可以看到，不同结合位置的引物，检测的RNA种类是不同的：引物对1能够检测到RNA变体1和2；引物对2能够检测到全部三个转录变体；引物对3能检测到RNA变体2和3；引物对4仅能检测到RNA变体1。

2 选择哪个序列进行引物设计？

对于究竟选择哪一个变体去设计引物更加合适，不同的人有不同的做法：

① 选择主要转录产物，如变体1，即默认该基因的转录产物绝大多数为变体1，根据变体1的序列进行引物设计，即使引物无法检测某个其他的转录变体（如引物1），也不会影响结果。

② 选择所有转录产物的共有序列，将所有的转录产物序列进行多重比对（Multiple Sequence Alignment），找到这些变体共同拥有的一整段序列，在该序列上进行引物设计（如引物2），不管基因的转录产物是何种变体，都逃脱不了引物的结合，这样，检测到的才是该基因的完整表达情况。

③ 对每个转录变体进行功能分析，有一些转录变体他们的功能是有差别的，有些研究者只需检测某一种转录变体的变化，这样，需要找到该转录变体相对于其他变体特有的一段序列（如上图绿色序列），在这段序列中进行引物设计（如引物4），这样其他的转录变体无法被这对引物扩增。

目前对于转录变体的选择，主要是以上几个策略。

3 如何快速查找转录变体的序列？

关于基因序列的查找可以点此链接《如何查找基因序列》。

如果基因有多个转录变体，可以在基因页面中找到多个NM号，分别点击进去，就可以找到各转录变体的序列了。

以上这种方法适用于转录变体较少的情况，但如果基因的转录变体比较多，那么一个个点击NM进去找序列就会变得非常麻烦。如人的血管内皮生长因子A基因（VEGFA）有20个转录变体，下面以human VEGFA基因为例，介绍一种较为简单的方法：

1. 在NCBI主页，搜索“VEGFA human”，注意此时数据库需选择gene，点击Search。

image.png

2. 搜索结果中，会弹出如下预测框，里面含有该基因的基本信息，包括别称，ID，基因页面，转录产物页面，蛋白页面等等。

image.png

3. 点击“RefSeq Transcript”，即进入VEGFA的所有转录产物列表页面:

image.png

点击右上角“Send to”，选择导出“Gene Features”，点击“Create File”。会生成一个Sequences.txt文件，保存下来。

image.png

5. 打开该txt文件，里面即是所有转录变体的FASTA格式序列了。

image.png

找到了这些序列，下面的工作就是将这些序列进行多重比对，找到这些序列的共有（或特异）序列。

关于多重序列比对，有基于网页工具、基于本地软件等多种方式。这些方式都可以直接用到上述的txt文件。

总体来说，基于网页工具比较便捷，不需要预装软件，但结果判读比较麻烦；基于软件的方式在后续共有序列的选取方面要优于网页工具。

基于网页工具的比对教程：Clustal Omega
Clustal Omega是欧洲生物信息研究所（EBI）开发的多序列比对排列工具，现已经完全取代了之前ClustalW的地位。使用该工具不仅能够对DNA或者蛋白质进行多序列比对，并且可以自动生成多种格式或构建进化树等。

网址如下：https://www.ebi.ac.uk/Tools/msa/clustalo/

序列比对教程

1. 打开该网页，选择正确的序列类型，将之前得到的txt文件中的Fasta序列全部复制、粘贴到序列框中（以5条序列为例）。

image.png

2. 参数设置推荐默认就好，点击Submit：

image.png

3. 经过一段时间等待，出现以下结果：

Snipaste_2019-11-28_09-22-38.png

该结果将多个RNA按照同源序列重新进行排列，其中，共有序列下方以*表示，而非同源区域则以--隔开。

4. 定位共有序列的区域

这样，在比对结果中找到连续的*所对应的位置（一定要连续的），就是这几个转录变体的共有序列所在区域。

但是这种比对形式无法直接得到序列，可以将多行共有序列一一复制粘贴拼接在一起，也可以在任意一个转录变体中搜索共有序列的头和尾一小段，中间的就是共有序列。

基于软件的比对教程：SnapGene

SnapGene是生工生物反复推荐过的核酸、蛋白序列分析、处理软件，对于多序列的比对功能自然也是不在话下的。

下面以txt序列文件为基础，介绍一下详细的多序列比对流程：

（txt文件怎么来的？在搜索栏中搜索“保守序列”，点此搜索）

1 打开SnapGene，直接将txt拖入snapgene起始界面。

image.png

2 SnapGene将自动识别txt中的每个序列，并将其拆分成为单独的序列文件，点击“Import”，软件将生成一个文件夹，文件夹中含有txt中的每一个FASTA序列。

image.png

3. 用SnapGene打开任意一个序列（推荐打开文件大小最大的），选择Tools菜单栏中的“Align Multiple Sequences”功能（快捷键Ctrl+L）

image.png

4. 在弹出的窗口中，将剩下几个序列都选中，点击“打开”，SnapGene将对选中的序列进行多重比对：

image.png

5. 比对结果如下图所示，在下方的Map标签页，我们能够看到这几个转录变体同源及非同源区域所在的位置，非同源区域以空白或者三角显示，同源序列以蓝色显示。

Snipaste_2019-11-28_09-27-16.png

6. 点击下方的Sequence标签页，我们能够看到具体的比对结果信息：

![Snipaste_2019-11-28_09-27-16.png](https://upload-images.jianshu.io/upload_images/16383399-e4d25f60e3f8843d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

7. 我们可以用鼠标选中绿色的区域，复制、粘贴就得到了这几个转录变体的同源序列了。

参考：https://www.sangon.com/class_Conservative%20Sequence.html