人类参考基因组知识点(更新ing~)

一、人类基因组有多大

     chr       size size2
1   chr1  248956422  249M
2   chr2  242193529  242M
3   chr3  198295559  198M
4   chr4  190214555  190M
5   chr5  181538259  182M
6   chr6  170805979  171M
7   chr7  159345973  159M
8   chrX  156040895  156M
9   chr8  145138636  145M
10  chr9  138394717  138M
11 chr11  135086622  135M
12 chr10  133797422  134M
13 chr12  133275309  133M
14 chr13  114364328  114M
15 chr14  107043718  107M
16 chr15  101991189  102M
17 chr16   90338345   90M
18 chr17   83257441   83M
19 chr18   80373285   80M
20 chr20   64444167   64M
21 chr19   58617616   59M
22  chrY   57227415   57M
23 chr22   50818468   51M
24 chr21   46709983   47M
25   SUM 3088269832 3088M
#未考虑M线粒体,其长度较短,为16569,16Kbp,
  • 如上可看出染色体序号越靠前的,长度越大,范围在50M~250M之间;
  • 由于人为二倍体,所以基因组由60亿个碱基组成;
  • 参考基因组一般保存为纯文本格式,即直接记录“A”、“T”、“C”、“G”这样的 ASCII 码字符。
  • 而1个 ASCII 字符,大小是 1B,所以,如果按纯文本保存 30亿个字母(单链),就是30亿字母 = 3,000,000,000 B = 3 GB。
from NCBI

二、奇怪的染色体name(chrUn,random,alt)

  • 同样以UCSC里的hg38版本为例
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
gunzip hg38.fa.gz
#提取染色体id
grep "^>" hg38.fa > chr.id
wc -l chr.id
#455 chr.id
head chr.id
####
>chr1
>chr10
>chr11
>chr11_KI270721v1_random
>chr12
>chr13
>chr14
>chr14_GL000009v2_random
>chr14_GL000225v1_random
>chr14_KI270722v1_random
  • 如上发现,序列并不是只有25条(22+X+Y+M),加起来共有455条。其它特殊的序列可分为三类。
  • 在此之前需要简单了解由最初的测序read数据组装成基因组的染色体序列需要经历contigs与scaffolds两个过程,如下图所示。contigs是依靠read间的重叠拼接的序列(a few kbp long),特点是不含有N碱基;scaffolds则主要依靠read pairs关系进一步拼接contigs,特点是会产生N碱基(a few hundred kbp);最终由scaffolds拼接成染色体序列。


    read→contigs→scaffolds

    read→chromosomes

2.1 Unlocalized scaffolds(*****random)

  • a sequence found in an assembly that is associated with a specific chromosome but cannot be ordered or oriented on that chromosome.
  • 简单理解:知道这个scaffolds在哪条染色体上,但不知道其在染色体的具体位置及方向
  • format: chr{chromosome number orname}_{sequence_accession}v{sequence_version}_random
grep "random" chr.id > chr.random
wc -l chr.random
#42 chr.random
head chr.random
###
>chr11_KI270721v1_random
>chr14_GL000009v2_random
>chr14_GL000225v1_random
>chr14_KI270722v1_random
>chr14_GL000194v1_random
>chr14_KI270723v1_random
>chr14_KI270724v1_random
>chr14_KI270725v1_random
>chr14_KI270726v1_random

2.2 Unplaced scaffolds(chrUn******)

  • a sequence found in an assembly that is not associated with any chromosome.
  • 简单理解:不知道这条scaffolds的所属染色体信息
  • format: chrUn_{sequence_accession}v{sequence_version}
grep "chrUn" chr.id > chr.chrUn
wc -l chr.chrUn
#127 chr.chrUn
head chr.chrUn
###
>chrUn_KI270302v1
>chrUn_KI270304v1
>chrUn_KI270303v1
>chrUn_KI270305v1
>chrUn_KI270322v1
>chrUn_KI270320v1
>chrUn_KI270310v1
>chrUn_KI270316v1
>chrUn_KI270315v1
>chrUn_KI270312v1

2.3 Alternate loci scaffolds(*****alt)

  • a scaffold that provides an alternate representation of a locus found in the primary assembly. These sequences do not represent a complete chromosome sequence although there is no hard limit on the size of the alternate locus; currently these are less than 1 Mb. These could either be NOVEL patch sequences, added through patch releases, or present in the initial assembly release.
  • 简单理解:参考基因组存在的主要依据是人类99.9%的序列是一致的。但是会存在一些序列在不同人群中不一致。例如49%人群该基因组特定位置为序列A,而49%人群则为序列B,都是正常的。但拿其中一种作为参考基因组都可能不太合适,因此标记出Alternate loci scaffolds。
  • format: chr{chromosome number or name}_{sequence_accession}v{sequence_version}_alt
  • Alternate loci scaffolds为hg38版本基因组新添类型Sequence,此前hg19版本还没有。
grep "alt" chr.id > chr.alt
wc -l chr.alt
#261 chr.alt
head chr.alt
###
>chr1_KI270762v1_alt
>chr1_KI270766v1_alt
>chr1_KI270760v1_alt
>chr1_KI270765v1_alt
>chr1_GL383518v1_alt
>chr1_GL383519v1_alt
>chr1_GL383520v2_alt
>chr1_KI270764v1_alt
>chr1_KI270763v1_alt
>chr1_KI270759v1_alt

注意:以上具体的chromosome name均为ucsc的hg版本,与GRCh38略有差异,但基本也是这几种类型sequence

三、编码基因占比多少

  • 在30亿碱基基因组中,能够编码蛋白质的基因总长度只占总长度的5%,而其中转录本exon单元总长度只占总长度的1.5%;
  • 人类染色体共编码2w~3w个蛋白基因,分布于不同染色体中。平均长度有10Kbp长度左右,而实际上基因的长度分布十分广泛(from a few hundred bases to more than 2 million bases)
wget https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/genes/hg38.refGene.gtf.gz
awk '{print$1, $10}' hg38.refGene.gtf |sort -k 2|uniq|grep -v alt | grep -v random | grep -v alt | grep -v fix| sort -k 1 > chr.gene
cut -d" " -f 1 chr.gene | uniq -c
###
   1113 chr10
   1676 chr11
   1392 chr12
    632 chr13
    946 chr14
   1010 chr15
   1146 chr16
   1574 chr17
    434 chr18
   1791 chr19
   2832 chr1
    780 chr20
    414 chr21
    644 chr22
   1817 chr2
   1563 chr3
   1088 chr4
   1313 chr5
   1453 chr6
   1341 chr7
   1029 chr8
   1114 chr9
      1 chrM
   1157 chrX
    143 chrY

四、下载参考基因组

  • 目前常用的基因组版本为GRCh38/37,hg38/19,前者可通过NCBI/Ensembl下载,后者可通过UCSC网站下载。如下图所示GRCh38可认为等同于hg38,GRCh37可认为等同于hg19。


    human genome version
  • 以下载GRCh38/hg38为例,如下

4.1 NCBI

wget -c ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.fna.gz
NCBI

4.2 ensembl

wget -c http://ftp.ensembl.org/pub/release-103/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz
ensembl

4.3 UCSC

wget -c http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
UCSC

五、更新ing~

  • 如有错误欢迎指正;
  • 以及关于生信研究中人类参考基因组其它常见问题,也可评论区留言,让我们一起弄明白,加油~
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容