1、简介
注释文件
就是基因组的说明书。告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以下三个提供参考基因组的网站中都有提供,比如Ensemble、NCBI 、UCSC。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。
基因组注释(genomic features)
通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser进行可视化比较。
Bed文件和GFF文件
最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。
两种文件的区别
在于,BED文件中起始坐标为0,结束坐标至少是1,; GFF中起始坐标是1而结束坐标至少是1。
处理Bed格式和GFF格式的工具
主要有 BedTools和Tophat 。
2、文件格式介绍
BED文件每行至少包括chrom,chromStart,chromEnd三列(必选
); 另外还可以添加额外的9列(可选
),这些列的顺序是固定的。
必选的三列:
-
chrom
- 染色体的名称(例如chr3,chrY,chr2_random)或支架(例如scaffold10671)。 -
chromStart
- 染色体或支架中特征的起始位置。染色体中的第一个碱基编号为0。 -
chromEnd
- 染色体或支架中特征的结束位置。所述 chromEnd碱没有包括在特征的显示。例如,染色体的前100个碱基定义为chromStart = 0,chromEnd = 100,并跨越编号为0-99的碱基。
9个可选的BED字段:
-
name
- 定义BED行的名称。当轨道打开到完全显示模式时,此标签显示在Genome浏览器窗口中BED行的左侧,或者在打包模式下直接显示在项目的左侧。 -
score
- 得分在0到1000之间。如果此注释数据集的轨迹线useScore属性设置为1,则得分值将确定显示此要素的灰度级别(较高的数字=较深的灰色)。此表显示 Genome Browser将BED分数值转换为灰色阴影: -
strand
- 定义strand。要么“。” (=无绞线)或“+”或“ - ”。 -
thickStart
- 绘制特征的起始位置(例如,基因显示中的起始密码子)。当没有厚部分时,thickStart和thickEnd通常设置为chromStart位置。 -
thickEnd
- 绘制特征的结束位置(例如基因显示中的终止密码子)。 -
itemRgb
- R,G,B形式的RGB值(例如255,0,0)。如果轨道行 itemRgb属性设置为“On”,则此RBG值将确定此BED行中包含的数据的显示颜色。注意:建议使用此属性的简单颜色方案(八种颜色或更少颜色),以避免压倒Genome浏览器和Internet浏览器的颜色资源。 -
blockCount
- BED行中的块(外显子)数。 -
blockSizes
- 块大小的逗号分隔列表。此列表中的项目数应与blockCount相对应。 -
blockStarts
- 以逗号分隔的块开始列表。应该相对于chromStart计算所有 blockStart位置。此列表中的项目数应与blockCount相对应。
例如:
[bio@ubuntu ~]$ less -S GRCh38.gene.bed
chr3 124792319 124792562 ENSG00000276626 RF00100 -
chr1 92700819 92700934 ENSG00000201317 RNU4-59P -
chr14 100951856 100951933 ENSG00000200823 SNORD114-2 +
chr22 45200954 45201019 ENSG00000221598 MIR1249 -
chr1 161699506 161699607 ENSG00000199595 RF00019 +
3、基因组注释文件下载
以gencode
最为权威,Ensemble、NCBI 、UCSC也有提供下载。
genecode的FTP:ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/
gencode官网的统计信息
#下载release_24所有的gtf文件
wget -c -r -np -nd -k -L -A “*gtf.gz” ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/