Q: 什么是碱基不平衡?
答:对于一个基因来说,它所包含的碱基种类越多,则碱基复杂度越高;如果各种碱基的百分含量越接近一致(即A、T、C、G分别占~25%),则碱基组成越平衡。如果某一碱基含量过高,则碱基组成不平衡,或者复杂性低。
Q: 为什么会有碱基不平衡?
PCR扩增步骤,由于片段之间不一致扩增导致碱基组成不均衡。
One of the most likely sources of bias is the PCR amplification step, which could yield uneven base composition due to the fact that amplification is not uniform among fragments. Samples with high GC or AT content are not amplified as efficiently, and when this inefficiency is amplified exponentially(指数级的) over several cycles in PCR, it leads to notable inaccuracies in sequencing results. To avoid this, special caution is needed in selecting DNA polymerases used for the amplification step. A comparative study published in Nature Methods assessing biases in PCR amplification during NGS library preparation assessed the efficiency of several DNA polymerases under different reaction conditions to amplify adapter-ligated fragments for Illumina sequencing. They tested several microbial genomes with differing GC content (from approximately 20% to 70%) for depth of coverage under different experimental conditions, such as standard amplification, with a qPCR formulation or with annealing and extension at 60oC. Their results stated that KAPA HiFi DNA polymerase was the optimal enzyme for NGS library amplification. Genomic coverage was also reported to be highly uniform using the KAPA HiFI DNA polymerase enzyme, and was very close to results obtained without PCR for all tested GC contents.
RNA-Seq also faces several challenges during library preparation, such as removal of highly abundant ribosomal RNA and PCR bias during amplification of the adapter-ligated library. A publication that reviewed reported biases in DNA and RNA library preparation found that KAPA HiFi DNA polymerase performed better than most enzymes and suggests that KAPA HiFi is a better choice than traditional polymerases for the amplification step. Since the RNA-Seq workflow includes more steps to convert RNA to cDNA prior to library construction, reducing PCR bias could help alleviate bias introduced in the process.
Annealing of random hexamer primers to fragmented RNA is not random, which results in depletion of reads at both 5’ and 3’ ends. This makes the identification of the true start and end of novel transcripts a challenge, as well as underestimating expression level of short genes(不是很理解). Second, PCR can introduce bias based on GC content and length due to non-linear amplification(RNA-Seq)
Q: 碱基不平衡对测序结果有什么影响?
答:Illumina 测序仪在收集信号时,并不是拍摄一张彩色照片一次完成的,而是分 A、C、G、T 4 个波长,分别拍摄 4 张单色照片,然后通过软件处理把这 4 张图叠加成一张。这是一种权宜之计,目的是减少图片文件的大小,从而降低对于数据存贮空间的要求。但也有缺点,一旦某一张或几张照片的信号强度不够,或者没有信号,则图片的叠加就不能准确完成。碱基不平衡文库(即A、G、C、T 四种碱基的含量远远偏离 25%)在测序时会导致某些图片(波长)没有信号或者信号很弱,在碱基识别时准确性降低。常见的碱基不平衡文库有BS甲基化文库、单细胞转录组文库、PCR产物文库等,为了减少碱基不平衡对测序结果的影响,通常会混入一定比例的phix文库。
Q: Phix文库的作用?
答:Phix 文库是校准文库,是 illumina 的一种试剂,来源于病毒基因组DNA。其基因序列已精确知晓,GC 比例约为 40%,与人类、哺乳类的基因组的 GC 比例接近。其基因序列又与人类的基因序列相去甚远,且不含有index。在与哺乳类基因组一起测序时,可以通过基因序列比对或数据拆分而将之去除。在测碱基不平衡的文库样本时,可以加入大量的 phix 文库,以部分抵消样本的不平衡性。也可以少量地加入phix文库,以作为 control library 来验证测序质量。
Phix文库最主要的目的1)是调节碱基平衡,改善测序仪的空间校正,便于后期提高base calling的准确性,2)由于Phix序列已知基因组较小,在测序的过程中Illumina的测序仪就开始将测的read与phix基因组进行比较,预估测序指标。我也遇到过,Illumina工程师在维护测序仪时,用Phix文库测试。转载内容详见下文
Illumina公司
PhiX对照品v3是一款可靠、连接接头的文库,适合用作Illumina测序运行的对照品。该文库来源于已妥善分析特征的小型PhiX基因组,并具备多项测序和比对优点。
通用型PhiX对照品v3不仅能用作即用型文库,还可用于多种应用,以增加工作流程价值及提高结果的可信度。PhiX文库提供适用于簇生成、测序和比对的质量对照品,以及适用于串扰矩阵生成、定相和预定相的校正对照品。可快速对其进行比对以预估相关边合成边测序(SBS)指标,比如定相和错误率。PhiX对照品v3还可用作:
- 适用于碱基不均衡样本(AT或GC内容低于40%或高于60%的基因组)的高浓度外标对照品
- 低浓度掺入,适用于比对和定量效率的计算
- 可在多样性较低样本旁的设置照品通道
- 适用于簇生成问题故障诊断,便于确定错误是否与文库制备有关
Mars-Zhan
Illumina的测序根本原理是用4种颜色荧光基团标记4种dNTP。在显微扫描镜下,通过对4种颜色的荧光进行分别扫描,得到4张照片,每张照片对应于一种颜色的荧光。把4张照片进行对比,把各张照片上的光点重合,计算每个光点的光的颜色强度,倒过来推算出这个点是哪种荧光基团,进尔再推算出这个点是哪种碱基。但请注意,因为这4张照片都是纳米级的分辨率,而测序过程中芯片是移动的,所以每次拍照多少存在一定程度的空间偏差。这就需要进行空间校正。
文库复杂度不够高带来的影响:如果是文库的复杂度足够高,也就是在一个测序循环中,A/C/G/T四种碱基的比例较接近于各25%,那么4张照片上都会有足够多的明亮的光点,可供空间校正之用。但是如果文库的复杂度不够高,典型的例子就是PCR扩增产物,比如说第一个循环,99%的碱基都是A,那么C/G/T三种碱基加起来也只有1%。这就导致C/G/T这三张照片都很暗,上面没有足够多的光点可供测序仪来分辨,更难于做空间校正。 测序仪就会把大多数无法准确分辨的点给舍弃。最终的结果就是:测序得到的有效数据量(PF data,Pass Filter data)很少,而且数据的质量(Q值)也偏低。
上述的原因,让Illumina的MiSeq和HiSeq 2000/2500在测复杂度低的文库(PCR扩增文库、Bisulfite处理的甲基化文库、简化基因组文库等)时,如果没有加入弥补的方法,软件就不 能很好识别的光点,导致最后的有效数据量减少、测序数据质量也偏低。
目前的解决方案是:在测低复杂度的文库时,掺入一定量的高复杂度文库。最常用的掺入文库是Illumina出品的PhiX文库.
PhiX文库有以下的特点:
* PhiX文库中GC含量约为45%,是碱基比例较为平衡的样本。
* PhiX DNA就是ΦX174噬菌体的DNA,其基因组的长度是4kb略多,其序列已清楚地被测定。
* PhiX DNA文库没有Index,所以在样本Demultiplex的过程中,被挪到undetermined的文件中,不会与别的有Index的文库相混。
* PhiX的序列是已知的,所以,在测序过程中,仪器会对PhiX的序列进行比对,算出Phasing和Pre-Phasing(一个簇中,有多少比例的DNA是少合成了一个碱基(Phasing),又有多少比例的DNA是多合成了一个碱基(Pre-Phasing))
陈云地老师
常见的碱基组成不平衡的样本类型比如:甲基化、扩增子、转录组、ChIP、重复序列测序(16S rDNA, HLA…)等等,其中重亚硫酸盐处理后的甲基化样本是碱基组成极度不平衡的,基本没有C,只有A、T、G三种碱基,而T的含量又比正常样本增加几乎一倍。
碱基不平衡的样本可以与碱基平衡的样本混合以改善平衡程度,常见碱基平衡的样本比如人全基因组、人外显子组、Illumina标准品文库PhiX等。平衡与不平衡样本的混合比例,根据样本的不平衡的严重程度调整。样本的碱基越不平衡,Phix文库的比例越高。其中PhiX可以同时起到两个作用:改善碱基平衡度,作为阳性对照监控测序操作是否成功。
后记:搞了半天,还是不清楚为什么我的文库属于碱基不平衡文库,在考虑送测序的时候,被各个公司嫌弃,甚至不愿意接收我的样本。如果PCR扩增引起,那应该所有被扩增的文库都存在碱基不平衡,PCR只是放大了这种效应。所以,如果特异强调我的文库是不平衡的,那么应该是文库被扩增之前的实验步骤导致的不平衡。我的思维停留在甲基化修饰的A碱基上,因为对本领域实验理解不透彻,一直想不出究竟是什么原因。直到师姐发给我一段话才想明白,m6A甲基化文库建库过程中IP步骤,实际上是对甲基化的A碱基富集,所以导致文库中A碱基的比例偏高,对应的GC含量会偏低(具体差异是多少,还没有找到具体的文献支持,说是约在5%以内,这样的话,其实差异不大,测序公司通常要求文库GC含量在40%~60%范围之内)。常规转录组不存在特异碱基的富集,因此碱基平衡。
目前为止,IP引起的文库碱基不平衡,是我比较信服的答案,那么问题又来了,这个空间校正又是怎么回事,怎么做到的呢,具体原理是什么呢? 问题先留在这里,以后遇到再说吧....