这是Broad研究所和安捷伦公司合作于2009年在《nature biotechnology》发表的一篇文章 《使用超长寡核苷酸的液相杂交捕获应用于大规模平行靶向测序》 ,文章详细介绍了早期安捷伦的探针的捕获原理。后续安捷伦公司在此方法基础上又进行了优化,但仍可作为了解杂交捕获原理的一篇经典文章。
1 摘要
大规模平行测序过程中,靶向捕获特定的基因组区域需要用新的方法来富集测序模板。文章开发了一种捕获方法,使用生物素化的RNA “诱饵” 从DNA片段的 “池塘” 中捕获目标。RNA由PCR扩增的寡核苷酸在芯片上转录生成,产生足够多的高浓度探针进行多重捕获,以驱动杂交。文章以长度170 mer 探针测试了这种方法,该探针以超过15000个编码区的外显子(2.5 Mb)和四个区域(总共1.7 Mb)作为目标区域,使用Illumina测序仪进行测序。约90%的碱基比对到唯一的区域,这些碱基基本集中在探针序列或附近,大约有50%在外显子上。该方法具有良好的均一性,即外显子测试中“捕获” 约 60% 的目标碱基,区域测试中捕获约 80% 的目标碱基,至少具有平均一半的覆盖率。Illumina序列的一个 lane 足以对89%的目标外显子区域进行高置信基因型鉴定。
2 引言
以蛋白质编码的外显子组测序及特定区域靶向测序,相对于全基因组测序经济性更高,能节省大量测序成本。由于传统的单一或多重PCR在这方面有很多的不足,一些研发小组开发了“基因组分割”方法,对感兴趣的目标区域进行高度富集,产生复杂测序模板混合物。目前只有两种方法在足够复杂的目标集上进行了测试。
第一种方法,微阵列捕获,它使用合成寡核苷酸阵列与目标序列进行杂交,对随机剪切、接头连接的基因组DNA模板进行捕获。该方法已经应用于超过 200000 个编码区的外显子。阵列捕获最适用于捕获基因组DNA片段为500bp的序列,从而限制了短的分散目标序列的富集和测序效率,例如中位数大小为120 bp的人类蛋白质编码外显子。
第二种方法, 多重扩增,首先在芯片上合成寡核苷酸,随后使用PCR进行分离和扩增。在溶液中进行定位和分子反转反应,探针被延伸和环化,整个过程是以复制而不是直接捕获的方式来获取目标序列。这种将合成和反应步骤分开的形式是有一定优势的,它允许重复使用单批寡核苷酸探针进行质量测试。但是,这种方法不像单独的扩增反应那样很好理解,不能进行单独反应的优化。正如已发表的文献中,在一个单一反应中多重扩增会缺失掉超过80%的目标外显子,并显示出高度的测序不均一性,技术重复性差。
在这里,文章描述了一种克服了以前方法的一些弱点的方法。它结合了寡核苷酸杂交的简单和稳健性能,以及芯片合成寡核苷酸和在溶液中进行特定筛选反应的优点。
3 结果
3.1 杂交筛选方法
文章开发了一种捕获测序目标的方法,该方法结合了微阵列上寡核苷酸合成的灵活性和经济性,以及在溶液中良好的杂交动力学,过程如图1所示。该方法可以在芯片上一次性合成大量的探针,方便进行质控和、存储和重复使用,适用于大型靶向测序计划。
1、在安捷伦芯片上并行合成 200mer 的超长寡核苷酸序列,每条寡核苷酸序列由 170mer 的目标特异性序列构成,其左右两端各15bp的通用引物序列构成(通用引物序列的作用是进行后续的PCR扩增);
2、在初始PCR扩增后,T7 promoter 会在第二轮PCR过程中加入到寡核苷酸序列的一端;
3、在生物素-UTP存在的条件下,在体外转录生成单链 RNA 杂交 ‘诱饵’,用于捕获经过随机打断、接头连接、PCR扩增的人基因组DNA;
4、杂交过程是由过量的RNA探针驱动的,而且RNA探针之间不能结合。使用表面包裹链霉亲和素的磁珠拉取“目标序列”;
5、洗脱之后,使用通用进行进行PCR扩增,在二代测序仪上进行测序
3.2 捕获和测序外显子靶区
在一项初步研究中,文章随机选择了1900个人类基因,以防受到长度、重复序列或碱基组成的影响。文章设计了22000个长度为170bp碱基的探针序列,针对这些基因的所有15565个蛋白质编码外显子。探针采用平铺设计,没有重叠或间隙,这样可以覆盖整个编码序列。这种简单的设计最大限度地减少了所需的合成寡核苷酸数量。对于人类基因组中75%的编码外显子,一个寡核苷酸就足够了。由于蛋白质编码外显子的中位数大小仅为120 bp ,许多探针长度超出了它们的目标外显子。我们捕获外显子的测试探针长度为3.7 Mb,目标外显子长度为2.5 Mb(67%)。
测试的目标基因组DNA来自人Coriell NA15510细胞系,随机打断后,连接到标准Illumina测序接头,选择长度为200-350 bp(平均插入大小为250 bp)序列,进行12个周期的PCR扩增。文章将500ng的全基因组片段库与500ng生物素化RNA探针杂交,PCR扩增杂交捕获的DNA片段,并进行Illumina双端测序。最终获得了85 Mb唯一比对到人类基因组上的序列,其中76 Mb在探针序列的500bp以内。
杂交筛选的高特异性捕获了包含大量探针序列的片段。与捕获序列中间部分(有较少重叠)相比,在探针两端序重叠较多,覆盖深度较高。因此,采用reads较短的PE36进行测序,就会导致探针末端附近的覆盖率提高,中心的覆盖率明显下降如图Fig2a所示。
采用鸟枪法测序取代末端捕获,具体而言,文章将全基因组片段文库上的Illumina接头改为独立于测序方法的通用接头,并在其 5′ 端携带 NotI 位点的PCR引物对捕获物进行扩增。修改方法后覆盖较好的区域由末端转移到中间(FIg 2b)。
当采用reads稍长的PE76代替PE36测序时,较长的reads导致单峰,中心覆盖深度较好(Fig2c)。
3.3 特异性
表1显示了三个靶向外显子实验的特异性数据以及原始和唯一比对的Illumina序列的详细信息。
3.4 区域捕获和测序
文章又设计并测试了一组170 mer的探针,用于对大小在0.22至0.75 Mb之间的四个基因组区域进行靶向测序。这些区域的总跨度为1.68 Mb。目标区域包括编码区ENr113的大部分以及IGF2BP2、CDKN2A、CDKN2B和CDKAL1基因。在一个初步实验中,文章设计了不重叠的170mers探针,在很大程度上排除了重复序列的干扰。探针长度总计0.75 Mb,而剩余的0.93 Mb由于序列内容重复而未覆盖。文章在一个含有350- 500 bp的人类基因组DNA片段(Coriell NA15510)的细胞系中进行捕获。随后使用PE36的鸟枪法和PE76进行了测序。
基本上,在非探针覆盖区域的所有捕获序列都在探针序列500 bp范围内,这表明这些序列是通过与探针的特异性杂交捕获的。Fig3 中显示了一个11 kb的典型覆盖区域。正如预期的那样,覆盖范围并不均匀,在探针池的独特部分有峰值,在探针池外的大部分重复区域有深谷或深洞。探针在4个靶区覆盖75万个基因组碱基,平均覆盖深度为221X。
3.5 覆盖均匀性
捕获的均匀性和特异性是任何用于靶向测序批量富集方法的效率和实用性的主要决定因素。相对丰度的差异越大,序列就必须越深,以覆盖代表性不足的目标。文章尝试以一种独立于序列绝对数量的形式显示数据(FIg 4)。具体来说,文章将每个碱基的覆盖率标准化为整个目标集观察到的平均覆盖率。这允许比较数据量差异很大的实验结果,不同的模板制备方法或不同的测序仪器结果。
3.6 碱基组成的影响
根据GC含量将外显子捕获诱饵分为五类,揭示了覆盖范围的系统性差异——GC含量在50-60%范围内的目标获得最高的覆盖范围,而GC含量非常高(70-80%)或非常低(30-40%)的目标获得最少的覆盖范围(supplementary Fig3)。碱基组成的影响很可能反映了杂交行为中真正的系统差异。然而,也可以想象,流程中其他步骤的GC偏差会导致这种效果。例如,从芯片分析中了解到,PCR可以耗尽具有极端碱基组成的寡核苷酸序列,最多可达5倍(数据未显示)。此外,寡核苷酸合成步骤的偏倚也可能起作用。PCR扩增捕获物和测序本身也会引入偏倚。
3.7 重复性
为了评估靶向外显子测序的可重复性,文章比较了两个独立技术重复的结果。具体来说,文章使用从同源DNA (Coriell NA15510)制备250bp片段进行了两次单独的杂交捕获,使用Illumina鸟枪法生成在两个Lane中。在两个实验中,单个外显子的平均归一化序列覆盖率的比值紧密分布在1附近,表明实验与实验之间的变异性远小于靶与靶之间的变异性(Fig 5a)。逐个碱基在外显子上的覆盖深度统计图(Fig 5b)能更好的显示重复性。
3.8 检测单核苷酸SNP的准确性
为了评估SNP检测的准确性,文章对3个不同的人细胞系(Coriell NA11830, NA11992 and NA11994)进行了外显子捕获,这些细胞系已经被HapMap计划测定了genotype类型。一共在外显子编码区检测到了7712种基因类型,以便与标准基因型数据进行比较。与预期一致,检测的灵敏度为67%(共检测到了11544 个HapMap突变中的 7712 个高可信突变),这与外显子碱基数目占整个基因组的比例(64%)一致。
高置信度位点的不一致率较低(0.6%),接近于HapMap基因型的估计错误率。值得注意的是在Illumina全基因组测序实验中,同一位点的HapMap不一致率基本相同(0.6%)。因此,没有证据表明混合捕获过程本身会影响准确性。
4 讨论
文章开发了一种混合捕获方法来富集基因组的特定区域,这种方法灵活、可扩展和高效。它结合了寡核苷酸芯片合成的经济性和RNA驱动的液相杂交的良好动力学,适用于短的分散片段以及长连续区域的捕获。通过进一步优化,混合捕获能够一次性对数千个外显子区域以及Mb大小的区域进行捕获,有针对性的进行下一代测序。
之前杂交捕获方法是使用的克隆DNA,如细菌人工染色体或质粒,对cDAN或DNA片段进行捕获。克隆产生探针的方法有一些劣势。克隆通常包含无关的序列,cDNA捕获较短的exon效率不高。文章使用在芯片上并行合成的超长定制寡核苷酸池,这种方法提供了更大的灵活性。原则上,可以以任意序列为目标。与所有基于杂交的方法一样,重复序列必须要么在探针设计阶段被排除,要么在杂交过程中被物理阻断。目前文章两者都在做。杂交的方法在区分近亲、基因家族成员、假基因或片段重复方面还是有基本的限制。
捕获敏感性的提升一部分原因是使用了单链RNA作为探针。虽然5'端生物素化的双链PCR产物具有同样的特异性(数据未显示),但它不是很好的杂交驱动器。在单链RNA的杂交捕获过程中,每个探针都比其同源目标序列多出很多(数百倍)。多余的RNA能驱动杂交反应,减少了所需目标序列的数量。此外,使用过量的探针可用以使目标分子饱和,可以防止一些目标分子捕获发生遗漏,造成后续检测过程的偏倚。
捕获短而分散的目标(如外显子)的一个重要参数是片段大小。较长的片段超出了它们的探针,因此会包含更多偏离目标的序列。另一方面,将基因组DNA剪切到更短的尺寸范围会产生更少的片段,这些片段足够长,可以在高严格度下与给定的诱饵杂交。由于诱饵高度过量,文章的方案在平均插入尺寸为250 bp的全基因组文库中表现更高,即仅略长于平均蛋白质编码外显子和最小目标片段大小(分别为164和170 bp)。
总之,文章所描述的技术应该可以对基因组中的目标位点进行广泛的测序。但是,该方法还有不完善的地方,在选择上存在一些不平衡,在覆盖范围上存在一些差距。幸运的是,这些缺陷似乎在很大程度上是系统的可重复的。文章预计,基于物理化学和经验规则的优化更复杂的诱饵设计可以提升性能,有助于靶向捕获和相关突变的检测。
5 参考文献
[1] Gnirke A , Melnikov A , Maguire J , et al. Solution hybrid selection with ultra-long oligonucleotides for massively parallel targeted sequencing.[J]. Nature Biotechnology, 2009, 27(2):182-9.