ref一个写的很好的帖子: 思考-在比对时,关于是否将chr*_random和chrUn_*序列放在参考基因组中的思考 - Lablueee's website
如果参考基因组序列中不包含chr*_random 和 chrUn_*序列,那么原来属于chr*_random 和 chrUn_*的read则有可能比对到(不是一定)chr1-22,chrX,chrY上的相似区域(这些区域与chr*_random 和 chrUn_*中的部分区域相似),造成假阳性比对,后续这些reads提供的信息都是不可靠的。
如果参考基因组序列中包含chr*_random 和 chrUn_*序列,那么来自这些区域的reads则会正确的比对到这个地方,没有假阳性比对,只不过后续分析不需要考虑chr*_random 和 chrUn_*即可。
结论:
建议保留这些chr*_random 和 chrUn_*序列!
GRCh37
Genome Reference Consortium(基因组参照序列联盟),由英国Wellcome Trust Sanger研究中心(the Wellcome Trust Sanger Center)、华盛顿大学基因组中心(The Washington University Genome Center)、欧洲生物信息研究所(the European Bioinformatics Institute)和美国国家生物技术信息中心(NCBI)联合组成。
GRCH37版本发布之后,也会有小的更新,比如GRCh37.p2,大的更新比如由GRCh37升级到GRCh38,填补gap,修改部分序列,其目的是提供一个完整的基因组序列assemble。GRCh38已经在2013年发布,多数基因组数据库正在兼容或者更新到该版本。
该版本包含人类chr1到chr22,chrX,chrY,MT染色体以及
“unlocalized sequences”:知道来自哪条染色体但不知道具体位置的序列
“unplaced sequences”:知道来自人类基因组序列,但不知道与染色体的关系
“alternate loci”:来自基因组特定区域,代表该区域序列的多样性
下载地址: ftp://ftp.ncbi.nih.gov/genomes/Homo_sapiens
hg19
UCSC提供,容易下载,因为UCSC方便下载各种坐标文件(bed,gtf等),该版本可以与这些坐标对应。与GRCh38对应的是hg38版本。
该版本序列包括chr1到chr22,chrX,chrY序列与GRCh37完全一致(完全一致,完全一致),线粒体序列稍微不一样,以及
“chr*_random sequences” 知道来自哪条染色体但不知道具体位置的序列
“chrUn_* sequences” 知道来自人类基因组序列,但不知道与染色体的关系
UCSC与GRCh不同的地方有:
在重复区域repeat region有小写来表示,这点和GRCh不同
此外染色体有chr前缀,而GRCh没有chr前缀。
线粒体序列版本不一样
下载地址: ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes
参考: hg19、GRCH37、b37、hs37d5介绍和区别 - Lablueee's website
ref另一篇分析:关于人参考基因组fasta文件的组成部分说明 - 简书