昨天发了如何一步下载水稻泛基因组的contig序列,就有小伙伴在后台问我如何下载水稻最新版日本晴参考基因组序列。由于我主要是研究拟南芥(Arabidopsis thaliana), 默认都是去TAIR上下载TAIR10的参考序列和注释信息,对水稻其实没有多大了解。但是,其实只要看看别人研究用的啥参考也就懂的差不多了。
Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice文章有一个部分叫做URL。
从URL里面我发现了两个水稻的注释组织,RGAP和RAP,根据提供的链接我跳转到了如下两个网页。
怎么说呢,这两个网站的风格总感觉相差了半个世纪。当然这不是重点,重点是找到数据下载的地方。下载的URL分别为:
http://rapdb.dna.affrc.go.jp/download/irgsp1.html
参考基因组选择
现在又有一个严峻的问题摆在我们眼前,不难发现RGAP和RAP都提供了多个版本的参考基因组下载,我们要下载谁呢?
首先根据Improvement of the Oryza sativa Nipponbare reference genome using next generation sequence and optical map data 可知,无论是RGAP还是RAP,两者最新版本是一致的,不存在冲突,所以可以大胆下载最新版。
当然我也分别下载IRGSP1.0和RGAP7的参考基因组序列。
wget http://rapdb.dna.affrc.go.jp/download/archive/irgsp1/IRGSP-1.0_genome.fasta.gz
unzip IRGSP-1.0_genome.fasta.gz
bioawk -c fastx '{print $1 "\t" length($seq)}' IRGSP-1.0_genome.fasta
wget http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.chrs.con
bioawk -c fastx '{print $1 "\t" length($seq)}' all.chrs.con
两者大小一摸一样,所以序列基本上是一致的,那么序列比对就不存在问题了。但是,请注意两个染色体序列的命名哦!chr01和chr1的区别说不定某一天就会坑你哦。
水稻泛基因组文章选择的是IRGAP4, 我同样也下载了序列,发现长度其实是不同。因此,需要下载对应的注释信息。
基因命名问题
这个问题我在水稻如何做KEGG富集分析曾经说到过,也是让人难受的问题。尽管RAP和IRGSP目前用于注释的参考序列已经是一致的。但是两者的注释是不同的。否则也就没有必要来两个组织了。
尽管它们在对基因的定义上存在差异,但是两者在转录本上其实是非常一致的。毕竟CDS的序列转录出来后就摆在哪里,你还能拿他怎么样。
对于几个基因的名字转换,用这个在线工具就行了
那如果你需要批量转换RAP和IRGSP的ID呢?那你可能需要下载这个http://rapdb.dna.affrc.go.jp/download/archive/RAP-MSU_2017-08-04.txt.gz,然后写一个脚本。
ID转换在线工具
当然,我们可能还会遇到其他奇奇怪怪的ID,感谢生信媛编辑群的小伙伴-李广伟师兄提供的一个把可以在线转换id,用基因名字编号查找发表的文献的网站
除了页面丑了点以外,没啥毛病。
如何下载批量下载泛基因组的67个contig
最近我一直在读重磅!!黄学辉等课题组水稻基因组复杂变异再登NG,因为是一篇信息量和数据量都很大的文章。尤其文章中还提供了66个品种水稻的contig的下载,我觉得应该还有很多东西可以继续挖下去。那么问题来了,如何一步就下载完所有的contig数据呢?
假设你有一个做生信的师弟,那就很简单了。只要说一句,“最近有一篇水稻泛基因组的文章,里面有很多数据,你帮我去下载一下吧”。是不是狠方便
但是,假设你就是那个刚开始搞生信的师弟,那你难不成还准备打开那个网站,一个一个点吧。还别说,一共也就67个链接,点起来也不需要10分钟的时间。
当然,作为一个搞生信,有一点unix基础的人,肯定不会这样子搞。我们一般用一行命令就搞定了
wget -r 1 -np -nd -A *.fa.gz http://202.127.18.228/RicePanGenome/# -r 递归# -np 不要回到上一级# -nd 不要创建文件夹# -A *.fa.gz : 只下载fa.gz结果的文件