本文将以拟南芥相关的基因组注释文件为例,简单探讨一下对于不同的数据库中注释文件的格式的不同
- 数据库:TAIR,Ensemble Plant,NCBI Genome
1.TAIR
TAIR是研究拟南芥的首选数据库,其他数据库中拟南芥的基因组数据都是直接来自TAIR,比如上面提到的后面两个,还有Phytozome都直接提到了基因组数据均来自TAIR。从TAIR的FTP下载到基因组注释文件,更新的时间是2010/12/14,目前版本是感觉有点老了,不知道哪里有最新更新版本的注释文件。
GFF文件如下所示:
一般我们使用GTF格式文件,详细格式说明见GTF与GFF文件格式及相互转化
# gff 转化为 gtf,使用cufflinks里面的gffread命令
gffread -T -o tair10.gtf tair10.gff
2. Ensemble Plant
Ensemble Plant是植物研究领域重要的网站,里面存储了大量的植物基因组和注释文件。其中拟南芥基因组序列文件依旧来自TAIR10,而最新的注释文件来自于Araport11。相关文章发表在2016年的《Plant Journal》,相比TAIR10.gff更为详细,准确。如图所示:3. NCBI RefSeq
RefSeq:Reference Sequence Database
A comprenhensive,integrated, non-redundant, well-annotated set of reference sequences including genomic,transcript,and protein.
并不知道RefSeq的基因组注释信息来自于哪里。
通过比较发现拟南芥基因组文件都是Tair10版本,但是注释文件依据不同的数据库而有所不同,但是大部分信息都是一致的,可能在tair10.gtf中有所增加更新。可以从这里看到,确实Araport11有很大的更新,特别是对于lncRNA信息的注释。
Summary
三个数据库的信息大同小异,原则上来说都是可以用的。个人以为tair10.gtf比较权威,Araport11.gtf比较新,适合lncRNA等新领域的研究。而且最为重要的一点是不管用哪个注释文件,都要匹配用对应的基因组序列文件,因为二者都是相互匹配的。