接着上一个帖子,在总结出我说可以通过爬虫获得两个基因命名规则匹配的文本文件,但是肥肥让我想到了一个办法可以在网站上直接下载该文件,这个神奇的网站就是 Ensembel Plant bioMart
本身该网站就可以直接转基因ID,参考bioinfowen,但是对于番茄SL2.5基因ID(SolycXXgXXXXXX),它的识别是基于Protein stable ID[e.g. Solyc00g007010.3.1]和 STRING ID,二者一致,都是对应具体蛋白,如果我们对转录本进行ID转换是可以的,但是我们是对基因进行转换,因此没有后面的小数点等后缀。那么该如何办呢?
办法:直接下载网站的参考的ID转换文件,自己修改。
具体步骤:选择好参考基因组后,等网站刷新完,依次点击 Attributes,EXTERNAL,在 External References 下勾选 NCBI gene ID,STRING ID ,然后点左上角的 Count,等待其刷新完
点击Results,后面出来表格,选好格式,直接点击GO下载就可以了,获得了文件,进行文本操作就能得到最终的结果,结果文件我放在github
名字开头是 sly。注意这个结果文件中的会有重复值,也就是会有几个EntrezID对应同一个基因名或者转录本名。
所以这个办法应该适用于所有能够在Ensemble Plant查到的物种而不只是番茄
补充:昨天我发现一个问题,就是Ensemble Plant 上面的文件有可能因为没有及时更新,所以匹配的基因名可能比现在在Entrez上面搜到的要少很多,因此还是建议去NCBI的官方FTP去下载最新的基因名匹配注释文件,更加准确一些