背景
二代测序技术(NGS)的快速发展促使各种有机体的高通量测序数据的累积,特别是细胞器基因组。因此,为了应对各种生物细胞器基因组的基因注释,需要用于功能基因注释的更优化的工具。尽管目前存在多种注释软件,但由于研究的类群不同,注释软件的选择会存在一些差异。这里将汇总大概介绍目前比较流行的注释软件,希望能对大家有帮助(其实是来回馈简书大佬们各类干货的分享)。
细胞器基因组包括质体基因组(即叶绿体基因组)和线粒体基因组,动物细胞器基因组只有线粒体基因组。
叶绿体基因组具有高度保守四分体结果,由大单拷贝序列( Large Single copy Region,LSC)、小单拷贝区( Small Single copy Region,SSC)、反向重复区A和反向重复区B(Inverted Repeat Region,IR)组成。其中,IRA和IRB为两个反向重复序列组成的。叶绿体基因组长度一般在为120-220 kb ,约编码 110 ~ 130 个基因,其中编码基因(Coding Sequence,CDS)一般约为80,30个tRNA,4个rRNA。其中CDS gene—rps12为跨界基因(外显子部分在LSC,部分在2个IR内),是叶绿体基因注释中一个非常需要注意的基因。另外部分植物会存在基因组结果变异(如豆科IR缺少一个等)及基因的丢失与假基因化(如寄生植物)。
植物线粒体基因组由于大量重复序列的存在导致其基因组大小差异悬殊,222~983kb。基因组数据庞大、基因密度低、结构复杂等原因使得植物线粒体基因组的研究不及质体基因组。相对于植物线粒体而言,动物线粒体较为简单且易于纯化,仅有15~20 kb。但关于线粒体基因组注释的软件也不多,主要有针对植物线粒体基因组注释: Mitofy,针对动物线粒体基因组注释: DOGMA、GeSeq,以及可注释几乎真核生物所有的线粒体基因组:AGORA。
干货区
各类基因注释软件适用类群:
AGORA Annotation
优点:
1. 可注释几乎真核生物所有叶绿体和线粒体基因组;
2. 提供基因外显子和内含子的注释;
3. 提供每个基因起始子和终止子位置信息;
4. 用户可更改参考用于核基因和细菌基因组注释;
5. 可生成GB格式(GeneBank);
6. 网页操作简单、设置参数较少。
缺点:
该软件尚未用过,有待进一步补充。
必调参数:
query sequence(查询序列)
reference sequences(参考序列) NCBI/自定义
genetic code (遗传密码)
count of maximum matched genes(最大匹配基因数) 设为1,仅显示匹配度最高的候选基因;
大于1,可识别其它匹配基因和分析外显子和内含子。
网址:AGORA - Annotator for Genome of Organelle from the Reference sequences Analysis
工作流程图(实线为氨基酸流程,虚线为核苷酸流程):
优点:
1. 反向Blast搜索的方法确定基因在叶绿体基因组上的位置,不依赖庞大的数据库,显著提高了注释的速度,约一分钟一个种;
2. 软件包含新开发的基因和内含子特征边界检测算法,极大提高了基因和内含子边界注释的准确性;
3. 作为一个本地注释叶绿体基因组的命令行工具,可以运行于任何配置Perl和Blast的计算机系统环境,同时可以自主选择叶绿体基因组参考序列,大大提高了叶绿体基因组注释的灵活性;
4. 能生成日志文档辅助用户检查注释结果;
5. 可以批量注释。
缺点:
1. 无网页版,需在命令端运行;
2. 参考序列需要严格的GB格式;
3. 不能有太多参考序列,否则会产生冲突,一般两个,;
4. 无法画图。
网址:GitHub - quxiaojian/PGA: Plastid Genome Annotator
具体操作流程和注意事项:叶绿体基因组注释软件PGA使用说明 - 简书
流程图:
CpGAVAS2 Annotation
优点:
1. 注释准确率高,可以准确注释petB,petD、rps16基因(具小型外显子:<10bp)和rps12基因(反式剪切基因);
2. 注释所有可能的基因;
3. 支持使用3类参考数据集(RNA-seq data——the 43-plastome dataset,NCBI所有数据库——2544-plastome dataset;用户自定义参考序列集)
4. 可以Summary repeats,并在基因组图中显示(结果如下图所示);
5. 能生成日志文档辅助用户检查注释结果。
缺点:
1. 只能单个样本注释;
2. 注释速度慢,一般为半小时注释一个基因组。
网址:http://www.herbalgenomics.org/cpgavas/
流程图:
GeSeq Annotation
优点:
1. 存在画图功能(OGDRAW),画图好看;
2. 可以自主选择是否提供自己的参照序列,有合适的参考序列即可注释动物的线粒体基因组(该功能尚未被很好的验证);
3. 可批量注释,可注释100条以上序列;
4. 不仅能注释整个叶绿体基因组或区域,也可以注释Contigs;
5. 可提基因。
缺点:
号称可以注释rps12 gene,但rps12 gene实际注释效果不好。
网址:http://blog.sciencenet.cn/blog-3406804-1192085.html
流程图:
最后,无论注释软件初步注释多么精确,始终需要手动注释进行校正,以确保注释的正确性。因此,初步注释的结果需导入其他工具进行基因校正。