基因组的那些事儿--基础

偶然间翻出来了18年学习jimmy的”直播我的基因组系列“所做的一些理解,文章写于18.7.30,因为当时感觉工程浩大,所以迟迟没有发出来,但现在我想,“攒着攒着就烂了”,好的内容不能浪费,不踏出第一步,之前的努力就都白费了。当然自己可能还有一些理解不到位的地方,后续内容会补充完整

关于基因组

正常人都是有22对常染色体加XY性染色体。基因组是指生物体所携带的一套完整的单倍体序列,也就是22条+X+Y。每个染色体包括全套基因和间隔序列。他们由A、T、C、G碱基组成,总共长度大约是30亿个碱基。


关于基因检测

随着社会的发展,人们对于健康愈发重视,开始涌现了大量的基因检测,它的个性化定制再加上后续的医师指导,更加准确和便捷获得自身健康信息,预计未来会代替传统体检。

基因检测是在分子水平上对人体遗传密码进行破译,通过单核苷酸多态性GWAS的分析对人体患病风险进行预测,从而进行预防干预及个体化治疗。目前全基因组测序成本(30X)已经不足一万元,这种测序就是来检测全部的30亿个碱基对是如何排列的,得到从第一个到第30亿个碱基的排列方式。

全基因组检测帮助确诊引起某个疾病的病因,尤其是癌症病人;或者指导有家族性后发遗传病的病人进行有针对性的治疗,比如安吉丽娜·朱莉接受预防性的双侧乳腺切除。

怎么测: 最常用illumina的二代测序,测序长度在150-250bp,取几百万的细胞破碎后,把所有的染色体随机打断成小片段,一个个进行测序,会测得上亿个片段

【还有一种是三代测序,不需要PCR过程,直接对每一条DNA分子进行测序,长度1w-5w nt(因为没有经过PCR,一直是单链状态测,所以不存在碱基对bp,只能称之为碱基nt),准确度要低一些】

测哪里: 也就是测序的样本从哪里获得?

唾液?:唾液肯定可以提取出DNA,而且也最方便。但是会混在口腔微生物的DNA,即使后来通过比对人类参考基因组来去除污染,但最后大概三成数据是要被浪费的。目前基于取唾液兴起的基因检测是测一部分高频变异位点,那不是做的全基因组测序,是利用基因芯片技术进行,成本在三位数


23魔方

血液?除非提供者正患有菌血症(外界的细菌经由体表的入口或是感染的入口进入血液系统后,在人体血液内繁殖并随血流在全身播散),一般血液是最纯净的。从血液里面分离白细胞然后提取DNA的技术也是非常成熟的。

测序报告:


处理流程

数据来源:

一般推荐:全基因组测序,覆盖度30X,也就是90G的raw data,测序策略是PE150,采用illumina的HiSeq X,DNA小片段文库(350bp)进行建库。

几个名词:

  • 覆盖度30X:平均下来能把身体内的30亿个碱基每个都测到30次,因为测序是随机的,必然有一些测序深度高一点,有些低一点

    这个30的标准怎么定的?为什么不是20X或者更高的40、50X?
    有研究做过饱和度分析~看看5~60X的模拟梯度对寻找遗传变异的能力差异大小,结果发现平均深度达到30X的时候,可以覆盖基因组的95%;另外测序深度越高,价格越贵,30X的高性价比足够挖掘到一定量的遗传变异Sequencing depth and coverage: key considerations in genomic analyses - Nature Reviews (2014)

  • 90G raw data:测序深度30X,人类基因组大约30亿碱基,而一亿108 就等于1Gb的测序数据;拿到的就是3Gb*30X=90Gb。【注意这里的Gb是测序字符的数量】

  • 测序策略PE150:也就是标准的双端测序模式(Paired End),目前双端比单端价格还要便宜,而且一条序列这边测一次,另一边测一次,更准确。所以一般分析基本也没有用单端的了。150就是这边测150bp,那边测150bp。【当然打断的片段一般是大于300bp的,所以每个reads中间会有一部分测不到,这就对了!毕竟reads是随机打断,也就是打断的位置不同。虽然这一条reads的中间部分区域测不到,但是另外的reads就能测到。如果说,一条reads长度200却采用双端150bp,那么中间就会有重叠区域,被测了两遍,这在高通量测序中是非常浪费资源的,每次测都是要花钱的啊!】

  • Hiseq :美国Illumina公司作为二代测序仪生产领先企业,自2006年进军基因测序市场以来,陆续发布了HiSeq,MiSeq,NextSeq,NovaSeq等一系列测序仪器。

Hiseq系列~HiSeq 2000,HiSeq 2500,HiSeq 3000,HiSeq 4000
HiSeq系列测序仪问世以来,以通量高,产量大,生产规模著称,能够快速、经济的进行大规模平行测序,在大型全基因组测序,全转录组,全外显子组测序,靶向基因测序方面优势明显。HiSeq 3000/4000系统基于成熟的HiSeq 2500系统,采用创新的有序流动槽技术最大限度提高效率,3.5天内可完成12个基因组、100个转录组或180个外显子组测序

HiSeq X系列——HiSeq X Five,HiSeq X Ten
HiSeq X Ten系统的问世完成了人类历史上一大里程碑事件——千元基因组时代的到来。HiSeq X Ten系统是由一套共10台超高通量的HiSeq X仪器组成,其中每台仪器可在3天内产生高达1.8 Tb测序数据,即每天高达600 Gb。10台联合工作,每年能带来超过18,000个人类基因组,而每个基因组的价格约为1000美元,让癌症和复杂疾病的研究达到新的水平

至于NovaSeq嘛,应该是17年开始交付使用,被称为“史上最贵洗衣机”的NovaSeq6000,以其酷炫的外形和美丽的价格(100w美金)成为了高端测序领导者,旨在冲刺“100美元基因组测序”。它的通量更高,运行周期48小时,2个flowcell每次产生大于2Tb的数据。另外还有它兄弟Novaseq 5000,差异就是他们的流动槽,5000可以运行S1、S2两种,6000可以运行S1、S2、S3、S4四种,一个S4流动槽每次运行可达到80-100亿数量的reads / clusters。双S4流动槽运行可以不到两天内解码48个人类基因组(6万亿硷基通量),比双S2流动槽通量翻三倍

  • DNA小片段(350bp)建库:根据公司不同,将DNA用超声波随机打断成一定长度(如350bp),加接头,作为测序前的准备工作,

  • Gb与GB你混了吗:

    Gb是测序中的数据量1 Gigabase= 十亿碱基。人类全基因组测序得到了90G的原始数据,也就是900亿碱基。原始数据是fastq格式,而fastq格式是这样的:第二行中一个碱基对应第四行中的一个测序质量

    得到的900亿碱基,也对应900亿个质量值,加起来就是1800亿个字符
    第一行是测序说明,一般是45个字符,也就是说,每一条测序reads中第一行就有大概45个字符。

    那么多少条reads呢?根据PE150计算:测序策略是一条reads包括150bp,现在900亿碱基,就对应900亿/150=60亿条reads 。因此第一行总字符是:60亿*45=270亿个字符。
    注意到fastq文件共四行,其中1、2、4行的总数量分别为270亿、900亿、900亿,第三行就是一个+,基本可以忽略不计。加起来总共2070亿字符。计算机中,根据编码规则不同,字符与字节对换关系不同。

    Fastq文件是ASCII编码文件,其中每一个字符就对应一个ASCII码,也就等于一个字节。计算机的1 GB(Gigabytes) 是10243 个字节
    因此,二者对换关系就是:全基因组测序的90Gb对应(2070*108 /10243 )=

    193GB计算机存储空间

    或者更快的计算: 测序报告会给出reads数,如果测序策略是PE150,那么占用硬盘空间大小就是n(reads)(150+150+45)/10243*

    另外,测序仪下机后的数据都是用gz压缩后的文件.fastq.gz,能压缩2.7倍,大概71G左右。


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容