[TOC]
文中1、2自刘小泽处学习,https://www.jianshu.com/p/101c14c3a1d2
学习自相见很不晚https://www.jianshu.com/p/0ae1dc30bb04
1.Sanger测序
每次测一条,溶液中他的复制本很多,将溶液分成四份,
-
加入原料:
原材料 功能 备注 ddNTP(放射性标记) 链终止,并指示碱基类型 4种ddNTP到4份溶液 dNTP 链增长 4份一样 primer 链增长 4份一样 DNA polymerase 链增长 4份一样
由于复制本大,成千上万,而ddNTP 与DNA单链的结合是随机的,因此会产生长度不一致的复制半成品
- 电泳区分长度
- 荧光标记指示碱基类型
优点:
- 精度高:99.999%
- 读长长:1000bp
缺点:
- 酶活性不能一直保持,因此1000bp之后测序准确率就会急速下降。
- 一次只能测一条链,无法高通量
- 成本高
2.NGS
第二代测序(NGS)技术,主要学习基于Illumina的边合成边测序(Sequence by Synthesis, SBS)技术
2.1 反应装置
从大到小,层级划分
- flowcell:NGS测序反应的基本容器
- lane*8:测序反应的平行泳道,试剂添加、洗脱的发生未知
- swath*2:?
- tile*60:cluster generation的场所,每次荧光扫描的位置,肉眼不可见
2.2 SBS反应过程
2.2.1 将DNA随机打断成DNA片段(fragment)
或者叫构建DNA文库。
- DNA molecules =超声波==>300-500bp fragments
- 酶补平为平末端
- 3‘端加一个A碱基(方便adapter接上,他的3’端有一个T碱基)
- 两端加上互补配对的adapter
- 其实还有其他的,Primer binding site,index(barcode)等
- P7和P5末端---(注意:tile上为P7和P5‘,因此只有P5端能结合到tile)
5'端-P5-index2-Adapter-引物结合位点1-
-fragment-
-引物结合位点2-Adapter-index1-P7-3'端
- PCR扩增
- 单链DNA文库
2.2.2 将DNA fragment加到flowcell上
将文库的待测序列实现配好一定浓度,经过lane的时候,会在特异的化学试剂作用下,强力随机附着在lane上(tile上)。
2.2.3 Cluster generation
通过桥式PCR进行簇生成,测序使用的是tile上P7生成的链
-
扩增模板:只有待测序列的P5 端结合到tile上
- tile上的P5’ 链增长,成双链
去杂:NaOH强碱溶液变性,洗脱掉待测序列,留下P5‘ 链
-
桥式形成:加入缓冲液,P5' 链的P7’ 端与tile上的P7结合,成桥,复制成双链!
PCR,每个fragment会在一定区域内成簇
-
强碱解链,甲酰胺基嘧啶糖苷酶(Fpg)选择性的切掉lane 上p5‘ 连接的链,只留下了与lane p7连接的链即Forward Strand
2.2.4 双末端测序(PE seq)
一次加入一个荧光碱基,用完失效
2.2.4.1.第一轮-Forward Strand
- 加入primer到靠近P5端(现在P5端在上面)的primer binding
site1上
加入荧光碱基
该碱基的接有荧光基团,用于发光并抑制链增长
拍照
减去荧光基团并洗脱(或?加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基),再次加入荧光碱基,重复
2.2.4.2 index1检测
- P7端index1检测
洗脱掉第一轮的产物(read product),然后加入index1 primer与P7端index1互补配对。测完后洗脱产物
- P5端index2检测
P5与index2 primer互补配对,测完后洗脱
2.2.4.3 第二轮-Reverse Strand
此时为桥式,扩增成双链,变性成单链,分别结合在tile上的P5‘ 和P7。出去Forward Strand。测Reverse Strand之后的流程与第一轮类似。
2.2.5 单末端测序(SE seq)
single-end只将index,Primer binding site以及P7/P5添加到 fragment 的一端,另一端直接连上P5/P7,将片段固定在Flowcell上桥式PCR生成DNA簇,然后单端测序读取序列
3.几个名词
3.1 基因组重测序Genome Re-sequencing
全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。
3.2 从头测序 de novo sequencing
de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。
3.3 全外显子测序whole exon sequencing
外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。
3.4 ChIP-Seq
染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。
3.5 SNP和SNV
单核苷酸多态性singlenucleotide polymorphism,SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。
3.6 测序深度和覆盖度
测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。