记录NCBI下载基因组的大坑

写在前面

最近分析的物种由于国外品种与国内品种差异还是比较大，虽然大部分文章用的参考基因组都是以国外品种为主，但是由于考虑到目前我这边数据几乎全部都是来源于国内品种，因此在考虑是不是用国内品种的基因组会更妥善。
刚好今年4月份国内品种的基因组又更新了一版，似乎是国内品种中目前质量最高的参考基因组，有被吸引到，因此有了这篇踩坑记录。。。。。

一、在基因组文献中找到参考基因组及注释的存储路径

如图可知该基因组存储在ncbi上，也给出了BioProject Number。注释文件存储在另外一个网站，似乎类似于FTP，直接下载即可，并没有太大问题。

二、NCBI下载基因组与注释文件（开始踩坑）

根据给出的BioProject Number，直接在NCBI上进入物种基因组下载界面，并点击下载

在NCBI上，一般能够下载到某物种的基因组文件及其对应的注释文件。但是我要下的该物种似乎确实没有将注释文件一并上传到NCBI上。因此直接去文章中给出的链接下载。

得到基因组与注释文件之后，使用TBtools提取CDS序列一直提不出来，非常奇怪。

一般来说遇到这种情况，基本上都是用户操作不当或者文件有问题。因此直接查一下文件的完整性。
使用TBtools的File MD5 Sum功能计算下载的基因组的MD5，发现文件完整度没问题。

提不出CDS序列，输出的是空文件。也许是GFF3文件哪里有问题。检查了一下，发现似乎也没异常，该有的信息都有，除了基因ID长得比较奇怪。。。而且TBtools也能够成功提取该GFF3文件的信息，

顺道看了一眼参考基因组内容，惊呆了。。。问题竟然出现在染色体ID上，应该是NCBI默认给染色体ID更改过了名字，导致参考基因组中的染色体ID与GFF3中的染色体ID不一致。虽然信息很全，但是并没有啥用，甚至还会导致一系列报错。。

fine，既然找到了原因，那么只需要写个命令将基因组中的染色体名称改成与GFF3中一致即可。

三、关于下载参考基因组

我觉得下载参考基因组首先还是要直接看基因组文章里面DATA AVAILABILITY部分，是否有给出基因组及其注释文件的下载链接或者存储网站，直接访问下载，往往会比较靠谱。
网上搜索是否有所需物种相应的基因组数据库
权威的综合数据库，如Ensembl、Phytozome等等。

最近Ensembl（https://asia.ensembl.org/index.html）用的比较多，一般直接进入Ensembl提供的FTP中搜索自己需要的物种以及参考基因组版本，FTP网址为：http://ftp.ensembl.org/pub/
进入会看到版本选择界面
确定好版本号之后，即可选择要下载的文件类型，Ensembl提供了非常详细的相关文件下载，一般我们需要的是基因组序列以及注释文件，即fasta与gff3
接着选取所感兴趣物种下载即可，可以下载其参考基因组序列、CDS与蛋白序列等等

最后，关于Ensembl ID。
通常Symbol是我们更愿意看到的ID，即基因的官方名称，如GFAP、MYB等，便于我们直观的知道这是个什么基因，但是在数据分析的过程中，基因ID往往不会直接以Symbol的形式出现，这个时候可以借助转换工具来对其进行转换，如Y叔的clusterProfiler，或者直接在Ensembl网站上转换等。

Ensembl ID的含义，如ENSSSCG00000037372

其中ENS是Ensembl ID的标识符；
SSC为物种名的缩写（SSC指的是猪，如果是人的话，则默认为ENS，没有物种名）；
G表示该ID为基因ID，指的是一个基因；如果是T，则为转录本ID，指的是某个基因的转录本；P则为蛋白；具体的缩写可以参考Ensembl官方说明：http://asia.ensembl.org/info/genome/stable_ids/prefixes.html
字母后面的一串数字为唯一的ID号，若ID后面还带着.1、.2等版本号标识符（如：ENSSSCG00000037372.3），则表示其在Ensembl中更新的次数，一般在做分析时需要将版本号给去掉。

写在最后

近期状态似乎还不错，虽然通勤真的很累，特别是要挤早高峰和晚高峰的广州死亡3号线。。。
嗯。。愿天下打工人都不用通勤

最后编辑于：2021.08.21 09:20:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345