2021/03/11
RNA database
Noncode, miRBase, Rfam, and SILVA
一、Noncode 当前版本v6.0 http://www.noncode.org/
1、建立于2005年,是关于ncRNA尤其是lncRNA(tRNA 和 rRNA 除外)最详尽的通用数据库之一。
2、39种物种,包括16种动物,23种植物。
3、Noncode试图提供最完整的非编码RNA的收集和注释。它不仅提供lncRNA的基本信息,如位置,链,外显子数量,长度和序列,而且还提供高级信息,如表达谱,外来体表达谱,保守性信息,预测功能和疾病关系。
4、Seqeunces of NONOCDEv6 (.fa)
LncRNA and LncRNA Genes of NONCODEv6 (.bed)
二、miRBase 当前版本22.1:2018年10月 http://www.mirbase.org/
1、建立于2002年,是miRNA数据库。
2、ftp站点:ftp://mirbase.org/pub/mirbase/CURRENT/
三、Rfam 当前版本14.4(2020年12月,3941个families)http://rfam.xfam.org/
1、ftp站点:ftp://ftp.ebi.ac.uk/pub/databases/Rfam
2、是ncRNA家族的数据库
3、Rfam提供了一个公共的只读MySQL数据库,其中包含最新版本的Rfam数据。该数据库将随每个发行版进行更新。
# 在命令行上连接到数据库
mysql --user rfamro --host mysql-rfam-public.ebi.ac.uk --port 4497 --database Rfam
# 或使用客户端
4、使用示例:Non-coding RNA analysis using the Rfam database
5、协方差模型的Rfam库可与Infernal软件一起用于搜索与已知非编码RNA同源的序列(包括整个基因组)
使用Infernal和Rfam注释古细菌基因组中的RNA的示例
(1)1. 下载,构建和安装Infernal。
wget eddylab.org/infernal/infernal-1.1.2.tar.gz
tar xf infernal-1.1.2.tar.gz
cd infernal-1.1.2
make
(2)从Rfam下载 cm 和 clanin
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz
gunzip Rfam.cm.gz
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.clanin
(3)用Infernal程序cmpress索引Rfam.cm文件
cmpress Rfam.cm
(4)确定要注释的基因组的总数据库大小
esl-seqstat infernal-1.1.2/mrum-genome.fa
Total # of residues: 2937203
(5)使用cmscan程序来注释反刍动物短杆菌基因组中Rfam中代表的RNA
cmscan -Z 5.874406 --cut_ga --rfam --nohmmonly --tblout mrum-genome.tblout --fmt 2 --clanin Rfam.clanin Rfam.cm tutorial/mrum-genome.fa > mrum-genome.cmscan
# -Z 5.874406: 序列数据库的大小(以百万个核苷酸为单位)为5.874406,它是在步骤4中计算出的数字。此选项可确保报告的E值准确无误。
# --rfam: 在“快速”模式下运行,与用于Rfam注释和确定GA阈值的模式相同
# --tblout: 将创建一个表格输出文件。
(6)从tblout文件中删除得分较低的重叠
grep -v " = " mrum-genome.tblout > mrum-genome.deoverlapped.tblout
四、SILVA 2020年8月27日,SILVA SSU和LSU数据库138.1 https://www.arb-silva.de/
1、是用于质量检查和比对的核糖体RNA序列数据的综合在线资源。
2、被用于识别EMBL数据库中假定的rRNA
3、 FASTA or ARB format下载数据 https://www.arb-silva.de/download/archive/