作者:Raymon T
编辑:angelica
外显子组分析有助检测出和疾病相关的编码区突变,从而研究DNA变异对正常生物学机制与疾病发病机制的影响。
继上篇关于外显子在实验方面的问题盘点之后,小编带大家一起看看外显子的其他问题吧~
1. SNP注释中的Allele_Balance列的意义?
Allele Balance在vcf中是表示杂合基因型中等位基因的偏离程度。
The proportion of reads covering a variant’s location that support the variant. For example, if a variant’s location is covered by 100 reads, of which 25 support the variant and 75 do not, then the variant would have an allelic balance of 25/100 = 0.25.
2. vcf或注释文件里,GT:AD:DP 以及对应的0/1:85,60:145是什么意思?
注意喔 各个":"为分隔,并不代表比例问题。
GT:Genotype,基因型。有三种情况:0/0、1/1、0/1。其中0表示与参考基因组位点相同,1表示变异位点。所以0/0和1/1表示纯合,0/1表示杂合。
AD:Allelic depths for the ref and alt alleles,参考序列和突变位点的等位基因测序深度,为样本中每一种allele的reads覆盖度。在diploid(二倍体)中用逗号分割的两个值,前者对应ref基因型,后者对应variant基因型。
DP:Depth,为样本中该位点的覆盖度。
3. SNP和Indel非常多,有什么方法能缩减到几百个或者更少,以便于做进一步的实验验证?
●一般而言,call突变的软件都会有默认的筛选和过滤标准,可以尝试严格的阈值进行突变位点过滤;
●根据实际课题需求或者疾病的研究进展,针对相关基因筛选突变位点也许会获得好的分析效果;
●此外,其一,编码区域的SNP突变可能会影响到氨基酸的编码,进而影响基因功能。其中非同义突变是比较重要的有害突变;其二,编码区域的Indel突变可能同样会影响到氨基酸的编码进而影响基因功能,其中移码突变更有害。所以,可以对编码区域的非同义突变和移码突变进行筛选,以缩小关注范围;
●筛选千人基因组中MAF值较低的,说明是比较罕见的突变,可能会有新发现;
●参考SIFT和polyphen2软件预测的突变位点有害性,根据这两个数据来做相应删减。
4. 二代测序筛选出的突变位点,进行一代验证找不到?
1、两次实验是否使用同一管样本,可能会产生批次效应;另外是否可能存在取样中突变细胞比例不均一的情况。
2、样本处理条件的不同以及样本制备过程中引起的DNA创伤也同样可能会造成检测的不一致。
3、文库制备中PCR扩增的过程也有可能引入扩增错误,当然也包括正反义链捕获差异造成的假阳性变异或者假阴性结果,但可以比较同一批样本位点来大致几乎排除此类偏差。
4、测序均会存在一定的测序错误率,不同的测序平台都存在测序错误的纠正机制,但是仍不能完全避免该问题,由此也会造成检测结果上的差异。
5、上述解答均为客观存在的可能,出现二代测序与一代位点验证不一致,一般情况不建议后续使用,因为该突变的辅助数据存在不客观性、交叉验证后的变异位点的可信度和客观性才更具说服力。
6、但是,如果该位点确实是研究的重点内容。第一,可以增加二代的测序深度,验证位点的真实性;第二,重新进行一代验证,避免一代测序错误。
希望能帮大家解决实际困惑,并给相关分析工作提供一些参考~