基因组的那些事儿--基础

偶然间翻出来了18年学习jimmy的”直播我的基因组系列“所做的一些理解，文章写于18.7.30，因为当时感觉工程浩大，所以迟迟没有发出来，但现在我想，“攒着攒着就烂了”，好的内容不能浪费，不踏出第一步，之前的努力就都白费了。当然自己可能还有一些理解不到位的地方，后续内容会补充完整

关于基因组

正常人都是有22对常染色体加XY性染色体。基因组是指生物体所携带的一套完整的单倍体序列，也就是22条+X+Y。每个染色体包括全套基因和间隔序列。他们由A、T、C、G碱基组成，总共长度大约是30亿个碱基。

关于基因检测

随着社会的发展，人们对于健康愈发重视，开始涌现了大量的基因检测，它的个性化定制再加上后续的医师指导，更加准确和便捷获得自身健康信息，预计未来会代替传统体检。

基因检测是在分子水平上对人体遗传密码进行破译，通过单核苷酸多态性和GWAS的分析对人体患病风险进行预测，从而进行预防干预及个体化治疗。目前全基因组测序成本（30X）已经不足一万元，这种测序就是来检测全部的30亿个碱基对是如何排列的，得到从第一个到第30亿个碱基的排列方式。

全基因组检测帮助确诊引起某个疾病的病因，尤其是癌症病人；或者指导有家族性后发遗传病的病人进行有针对性的治疗，比如安吉丽娜·朱莉接受预防性的双侧乳腺切除。

怎么测： 最常用illumina的二代测序，测序长度在150-250bp，取几百万的细胞破碎后，把所有的染色体随机打断成小片段，一个个进行测序，会测得上亿个片段

【还有一种是三代测序，不需要PCR过程，直接对每一条DNA分子进行测序，长度1w-5w nt（因为没有经过PCR，一直是单链状态测，所以不存在碱基对bp，只能称之为碱基nt），准确度要低一些】

测哪里： 也就是测序的样本从哪里获得？

唾液？：唾液肯定可以提取出DNA，而且也最方便。但是会混在口腔微生物的DNA，即使后来通过比对人类参考基因组来去除污染，但最后大概三成数据是要被浪费的。目前基于取唾液兴起的基因检测是测一部分高频变异位点，那不是做的全基因组测序，是利用基因芯片技术进行，成本在三位数

23魔方

血液？除非提供者正患有菌血症（外界的细菌经由体表的入口或是感染的入口进入血液系统后，在人体血液内繁殖并随血流在全身播散），一般血液是最纯净的。从血液里面分离白细胞然后提取DNA的技术也是非常成熟的。

测序报告：

处理流程

数据来源：

一般推荐：全基因组测序，覆盖度30X，也就是90G的raw data，测序策略是PE150，采用illumina的HiSeq X，DNA小片段文库(350bp)进行建库。

几个名词：

覆盖度30X：平均下来能把身体内的30亿个碱基每个都测到30次，因为测序是随机的，必然有一些测序深度高一点，有些低一点

这个30的标准怎么定的？为什么不是20X或者更高的40、50X？
有研究做过饱和度分析～看看5~60X的模拟梯度对寻找遗传变异的能力差异大小，结果发现平均深度达到30X的时候，可以覆盖基因组的95%；另外测序深度越高，价格越贵，30X的高性价比足够挖掘到一定量的遗传变异Sequencing depth and coverage: key considerations in genomic analyses - Nature Reviews (2014)
90G raw data：测序深度30X，人类基因组大约30亿碱基，而一亿10⁸ 就等于1Gb的测序数据；拿到的就是3Gb*30X=90Gb。【注意这里的Gb是测序字符的数量】
测序策略PE150:也就是标准的双端测序模式（Paired End），目前双端比单端价格还要便宜，而且一条序列这边测一次，另一边测一次，更准确。所以一般分析基本也没有用单端的了。150就是这边测150bp，那边测150bp。【当然打断的片段一般是大于300bp的，所以每个reads中间会有一部分测不到，这就对了！毕竟reads是随机打断，也就是打断的位置不同。虽然这一条reads的中间部分区域测不到，但是另外的reads就能测到。如果说，一条reads长度200却采用双端150bp，那么中间就会有重叠区域，被测了两遍，这在高通量测序中是非常浪费资源的，每次测都是要花钱的啊！】
Hiseq ：美国Illumina公司作为二代测序仪生产领先企业，自2006年进军基因测序市场以来，陆续发布了HiSeq，MiSeq，NextSeq，NovaSeq等一系列测序仪器。

Hiseq系列～HiSeq 2000，HiSeq 2500，HiSeq 3000，HiSeq 4000
HiSeq系列测序仪问世以来，以通量高，产量大，生产规模著称，能够快速、经济的进行大规模平行测序，在大型全基因组测序，全转录组，全外显子组测序，靶向基因测序方面优势明显。HiSeq 3000/4000系统基于成熟的HiSeq 2500系统，采用创新的有序流动槽技术最大限度提高效率，3.5天内可完成12个基因组、100个转录组或180个外显子组测序

HiSeq X系列——HiSeq X Five，HiSeq X Ten
HiSeq X Ten系统的问世完成了人类历史上一大里程碑事件——千元基因组时代的到来。HiSeq X Ten系统是由一套共10台超高通量的HiSeq X仪器组成，其中每台仪器可在3天内产生高达1.8 Tb测序数据，即每天高达600 Gb。10台联合工作，每年能带来超过18,000个人类基因组，而每个基因组的价格约为1000美元，让癌症和复杂疾病的研究达到新的水平

至于NovaSeq嘛，应该是17年开始交付使用，被称为“史上最贵洗衣机”的NovaSeq6000，以其酷炫的外形和美丽的价格（100w美金）成为了高端测序领导者，旨在冲刺“100美元基因组测序”。它的通量更高，运行周期48小时，2个flowcell每次产生大于2Tb的数据。另外还有它兄弟Novaseq 5000，差异就是他们的流动槽，5000可以运行S1、S2两种，6000可以运行S1、S2、S3、S4四种，一个S4流动槽每次运行可达到80-100亿数量的reads / clusters。双S4流动槽运行可以不到两天内解码48个人类基因组（6万亿硷基通量），比双S2流动槽通量翻三倍

DNA小片段（350bp）建库：根据公司不同，将DNA用超声波随机打断成一定长度（如350bp），加接头，作为测序前的准备工作，
Gb与GB你混了吗：

Gb是测序中的数据量，1 Gigabase= 十亿碱基。人类全基因组测序得到了90G的原始数据，也就是900亿碱基。原始数据是fastq格式，而fastq格式是这样的：第二行中一个碱基对应第四行中的一个测序质量

得到的900亿碱基，也对应900亿个质量值，加起来就是1800亿个字符。
第一行是测序说明，一般是45个字符，也就是说，每一条测序reads中第一行就有大概45个字符。

那么多少条reads呢？根据PE150计算：测序策略是一条reads包括150bp，现在900亿碱基，就对应900亿/150=60亿条reads 。因此第一行总字符是：60亿*45=270亿个字符。
注意到fastq文件共四行，其中1、2、4行的总数量分别为270亿、900亿、900亿，第三行就是一个+，基本可以忽略不计。加起来总共2070亿字符。计算机中，根据编码规则不同，字符与字节对换关系不同。

Fastq文件是ASCII编码文件，其中每一个字符就对应一个ASCII码，也就等于一个字节。计算机的1 GB（Gigabytes） 是1024³ 个字节
因此，二者对换关系就是：全基因组测序的90Gb对应（2070*10⁸ /1024³ ）=

193GB计算机存储空间。

或者更快的计算： 测序报告会给出reads数，如果测序策略是PE150，那么占用硬盘空间大小就是n(reads)(150+150+45)/1024³*

另外，测序仪下机后的数据都是用gz压缩后的文件.fastq.gz，能压缩2.7倍，大概71G左右。

欢迎关注我们的公众号～_～　　
我们是两个农转生信的小硕，打造生信星球，想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345