关于参考基因组和注释

常用的参考基因组数据库:

1、Ensembl

是由European Bioinformatics Institute(EBI)与Wellcome Trust Sanger Institute(WTSI)共同合作开发的数据库项目。涵盖大量物种的参考基因组信息,并且数据更新及时,是参考基因组下载的好选择。

http://www.ensembl.org/index.html

2、NCBI

是National Center for Biotechnology Information的缩写,指美国国立生物技术信息中心。

http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data

3、UCSC

由University of California Santa Cruz(UCSC)创立和维护,主要包含了人类、小鼠、果蝇等多种常见动物的基因组信息。

http://genome.ucsc.edu

4、FlyBase

整合了果蝇遗传和基因组数据,并提供了基因和分子水平的检索和可视化。

http://flybase.org/

5、illumina的iGenomes打包了各物种齐全的参考数据信息。

https://support.illumina.com/sequencing/sequencing_software/igenome.html

以果蝇为例


一般在三个网站下载参考基因组:Ensembl、NCBI和UCSC:

参考基因组:对于人类来说,目前比较常用的参考基因组有hg19、hg38、GRCh37、GRCh38。hg系列是UCSC的叫法,GRCh系列是NCBI和Ensembl的叫法。同一版本的序列是一样的,hg19对应GRCh37,hg38对应GRCh38。

注释文件:三个来源同一版本的DNA序列虽然相同,但是它们的注释是不同的,更新频率也不一样。NCBI 的注释是refseq数据集,UCSC 和 Ensembl 注释都将其作为自己的一个子集,如UCSC 的refGene。而UCSC 的注释比较混乱,同样ID的基因会出现在不同链或不同染色体位置上。Ensembl的注释通常比UCSC更多(例如snRNA、miRNA、假基因,所以噪音更多一点),但是ID处理比较好,所以ID更容易进行转换。Ensembl还经常更新它的注释,更新一次作为一个版本发布。不同的来源的基因组序列名称不一样,1号染色体在 UCSC 中是 chr1,而在 Ensembl的基因组和GTF文件中是1。使用时序列和注释要统一,UCSC的基因组序列需要对应使用UCSC的gtf/gff3注释文件,Ensembl则对应使用其同一版本对应的gtf/gff3注释文件。GeneCode(http://www.gencodegenes.org/)也可以下载人类和小鼠的基因注释文件。

选择注释资源应遵循的原则:当进行强调可重复性和稳健的基因表达估计的研究时,优先选较为简单的基因组注释,如 RefGene。当进行更具探索性的研究时,更全面的注释更优,比如选择Ensembl。而UCSC则不太建议使用。



参考基因组:

2种组装形式:

toplevel - Includes haplotype information 包含了单倍体型和patch信息。单倍体型的信息会使得比对软件如STAR/hisat2/bowtie2(除了BWA)很难处理好。

primary_assembly - Single reference base per position 每个位置只有一个参考碱基。适合用于序列相似性搜索。STAR推荐使用Ensembl primary_assembly参考基因组。

3种重复序列处理方式:

dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase) 将重复核苷酸转换为小写。主要的比对软件如BWA、bowtie2等都忽略这些soft-mask,直接把小写字母当做大写字母比对。

dna_rm - Repeats masked (converts repeats to to N’s) 用N代替重复区域和低复杂区。会给后续的比对带来很大的问题,不建议选用。

dna - No masking 不标记重复序列。推荐使用。


注释文件gtf/gff3:

.gtf - 对应primary assembly.fa。包含全部的注释,除了human和mouse这两个物种只包含primary assembly(不包含patch and haplotype)。

.chr.gtf - 只含染色体上的注释,不包含toplevel scaffolds(patch and haplotypes)。

.chr_patch_hapl_scaff - 对应toplevel。只出现在human和mouse这两个物种中,包含全部注释(包括patch and haplotype)。也可以用。

.abinitio.gtf - 基于.gtf增加了使用Genscan和其他abinitio prediction tools得到的一些注释信息。

推荐:

人类:Ensembl的primary_assembly,dna(或dna_sm效果相同),以及对应的.gtf(或.chr_patch_hapl_scaff含有其它信息)。

果蝇:Ensembl的toplevel,dna(或dna_sm效果相同),以及对应的.gtf。


GTF(General Transfer Format):即GFF2。GTF是GFF便于传输版。分为9列,以Tab分割:

seqname - 染色体或scaffold的名称。

source - 生成这个特征的项目名称,或数据库来源。

feature - 特征类型名称,如gene、transcript、exon、CDS。

start  end  score

strand - 正链或负链+/-。

frame - 密码子的第几个碱基0/1/2。

attribute - 附加信息。

GFF3(General Feature Format):

seqid - 染色体或scaffold的名称。

source - 生成这个特征的项目名称,或数据库来源。

feature - 特征类型名称,来自SOFA sequence ontology。

start  end  score

strand - 正链或负链+/-。

phase - 密码子的第几个碱基0/1/2。

attribute - 附加信息。A semicolon-separated list of tag-value pairs。

GTF和GFF之间的区别:

数据结构:都是由9列构成,分别是reference sequence name; annotation source; feature type; start coordinate; end coordinate; score; strand; frame; attributes.前8列都是相同的,第9列不同。

GFF第9列:都是以键值对的形式,键值之间用“=”连接,不同属性之间用“;”分隔,都是以ID这个属性开始。下图中有两个ID,说明是不同的序列。

GTF第9列:同样以键值对的形式,键值之间是以空格区分,值用双引号括起来;不同属性之间用“;”分隔;开头必须是geneid, transciptid两个属性。

来自Ensembl的gtf文件
来自UCSC的gtf文件



Ensembl:

https://asia.ensembl.org/Drosophila_melanogaster/Info/Index

果蝇:

ftp://ftp.ensembl.org/pub/release-99/fasta/drosophila_melanogaster/dna/

ftp://ftp.ensembl.org/pub/release-99/gtf/drosophila_melanogaster/

人类:

ftp://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/

ftp://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/

文件命名规律:<species>物种. <assembly>版本号. <sequence type>序列类型. <id type>基因组类型. <id>序列编号. fa.gz

TOPLEVEL:包含了所有的序列区域(比如染色体、非染色体以及用大量N填充的单倍型haplotypes或基因组补丁patches区域)。

PRIMARY ASSEMBLY:在上面toplevel的基础上,排除了单倍型或基因组补丁区域。如果看到目录中不存在这种类型的数据(比如这里果蝇就没有,而人类的基因组数据就存在),那么就意味着基因组不包含单倍型或基因组补丁区域,其实也就是等同于TOPLEVEL。

TOPLEVEL:人类(含patch and haplotype,对应.chr_patch_hapl_scaff),果蝇(不含patch and haplotype,对应.gtf)。

PRIMARY ASSEMBLY:人类(不含patch and haplotype,对应.gtf)。

Ensembl果蝇的参考基因组
Ensembl果蝇的注释文件
Ensembl人类的参考基因组
Ensembl人类的注释文件




UCSC:

http://genome.ucsc.edu/index.html

最新版本:

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/latest/

latest

hg38.chromFa.tar.gz - The assembly sequence in one file per chromosome.

hg38.fa.gz - "Soft-masked" assembly sequence in one file.

分析集文件:

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/analysisSet/

analysisSet

hg38.analysisSet.chroms.tar.gz - analysis set sequence one file per chromosome. 与NCBI的GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz相同。


NCBI:

https://www.ncbi.nlm.nih.gov/genome/guide/human/

最新版本:

ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.fna.gz

ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.gff.gz

分析集文件:

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/

seqs_for_alignment_pipelines

可使用:ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345

推荐阅读更多精彩内容