写在前面
早晨,一个老朋友(也是 TBtools 的老用户)与我联系,大体是问了我一个事情gbff转gff3是否可以用TBtools?答案当然是可以,但我不建议。主要原因有二:
- 使用gbff,往往是基因结构注释很不完善
- gbff格式常常有变化,不一定有CDS等注释,可能只是一个记录信息
TBtools很早就有这个功能,但我没开放。也就这两个原因。但毕竟是老友,帮个小忙理所应当。我拿到他发来的gbff文件,用TBtools转化了一下,发现空文档。所以非常遗憾,无解,因为他下载的gbff文件(NCBI)本身就不记录 CDS 或者说基因结构注释信息。
那咋办?
找基因组网站
按理说,一个基因组文章发表,会对应一个基因组数据库。于是我还是帮忙搜索了下,尽管他并没有提起。果不其然,确实存在。板栗基因组数据库
那么一切似乎就理所应当。基因组数据库总是会提供下载链接的。鼓捣了一会,发现,事情并没有按照我的想法发生。而是
也就是下载不了。我当然不会死心,再看看是否有其他下载链接。因为这个数据库明显就是在共享数据,作者团队不想共享,那么就不会有这个数据库啊。
然而,还是非常遗憾。这是一个FTP链接。估计后台服务崩溃了。
总结一下,下载数据是不可能的了。估计还是得先写个邮件告知下网站维护人员。
基因组浏览器 JBrowse 是可用的
Emmm,原本我是打算就这样吧,反正朋友自己去写邮件就行了。也没啥。但突然看到电脑旁边的一袋板栗,吃起来还是很爽。要不就再试试。于是我点开了数据库网站的 JBrowse。OK,这个是Work的。
情况变得越来越有趣:
- 我们知道,JBrowse可以直接下载当前区间的序列
- 一个染色体的序列,由所有区间合并而成
OK,一切变得简单。只需要查看后台(Ctrl+F12,如果你是用Chrome),我们就可以知道,JBrowse传递序列的 API 调用方式。
尽管我们看到了可能可以下载这个染色体序列的选项,但灰色,表示,老铁,你下载不了。
没关系,那就直接下载区间。
于是你会看到“Chr1-2.txt”等字样,以及右侧他的获取连接。换句话说....一切过于简单。稍加分析就会发现:每一个 Chr1-X.txt 记录的是 20kb 的序列。问题就好办了。尽管不能下载,染色体长度我们是知道的。
计算一下,即可知道,一共是 4669 个文件。
perl -le 'print qq{system http://castaneadb.net/jbrowse/data/json/cm_hby2/seq/a2f/6a9/19/Chr1-$1.txt} for 1..4669'
一个命令,搞定一条染色体。
统计一下结果,发现总长度是
file format type num_seqs sum_len min_len avg_len max_len
Merge.Chr1.fa FASTA DNA 1 93,341,109 93,341,109 93,341,109 93,341,109
比预想少了20kb。这就尴尬了。我拿起了一个板栗,咬开之后,就嚼了起来。哦,难道说?Chr1-0.txt?
于是测试了下
wget http://castaneadb.net/jbrowse/data/json/cm_hby2/seq/a2f/6a9/19/Chr1-0.txt
发现,确实如此。也就是 JBrowse 从 0 开始计数。OK。一切就是这么简单。
其他染色体一样的操作就可以搞定。
获得完整的染色体列表
然后自己折腾就可以了。
注释信息文件,一样的操作。Perfect!
写在后面
Emmm,前前后后,还是花了个把小时....今天内容就这么多了。祝大家科研顺利。