溶瘤病毒基因组denovo组装
溶瘤病毒一直抗癌药靶向和免疫疗法外的另一个分支。一些病毒,如呼吸道病毒肠道病毒、新城疫病毒和流行性腮腺炎病毒,是天然的溶瘤病毒,而其它病毒,包括麻疹病毒、腺病毒和牛痘病毒,都可以通过调整或修饰,如基因编辑,使其在表达特定癌相关抗原(如EGFR或HER-2)的癌细胞中优先进行感染和复制,从而特异性的杀死癌细胞。 病毒在宿主细胞的传代培养过程中基因组是否一直保持完整?修饰处理后后目的片段的插入/敲除位置是否准确?这些问题都可以通过测序技术来回答。
目前业不少测序服务公司都可承接病毒denovo组装业务,但这些公司的流水线运作模式要么要求送检样本经过高度纯化处理,要么出于其它考虑建议客户直接做三代测序或者2+3混合组装,但实际项目显示----对传统denovo组装分析流程稍作修改后,送检样本不需要做复杂的纯化处理,廉价的二代测序往往也能组装出高质量的scaffold,同时结合经典的一代Sanger测序对插入片段起始具体位置进行验证就能达到研究目的。虽然这部分业经验务没有肿瘤体细胞突变和RNA-seq(待更新后重新发布)多,但临时决定还是把这部分内容也总结分享一下:
一. 测序前--评估及预处理
1.1 病毒基因组GC比例要求
基于PCR扩增原理的NGS技术不适用于物种基因组GC比例过高或者过低的情况, 对于病毒denovo组装,待测病毒基因组GC含量在30%-70%之间,可采用NGS技术,否则需要考虑三代测序。
1.2 样本预处理及测序深度等要求
显而易见,简单离心处理后的病毒样本相较于未作任何处理的培养混合物有助于提高原始测序数据中来自病毒序列的比例(但噬菌体应注意宿主中前噬菌体序列的影响)。鉴于Illumina X10平台的测序数据市场价格已经降到了60-70元/G左右,常见溶瘤病毒基因组只有几十到几百kb之间,直接测上10,000X,1G左右的原始下机数据 ---保证混合物中病毒序列有足够的覆盖度;
二. 测序后--denovo组装
2.1 分析流程(见图1)
虽然这个流程图有些丑陋,但也算简洁明了,各类型的溶瘤病毒在NCBI上基本上都能找到参考基因组,因此主要参考下图中绿色线条所示流程即可;
2.2. 数据质控/组装结果评估
下机数据是目的病毒、宿主甚至其它外源物种的混合物,常规质控指标不再适用,其数据质控可通过组装效果来衡定--N50/N90;contig/scoffold数目及覆盖度情况(数目越少、覆盖度越高越好);与参考基因组GC比例的比较;map到参考基因组上的序列占比以及共线性分析等;
2.3. 目的插入/敲除序列分析
通过本地BLAST等方法将目的片段与组装得到的contig/scoffold进行局部比对来对基因组上目的片段插入/敲除的具体位置进行分析,但对于插入序列,由于在排污步骤中可能将带有外源插入片段的reads丢掉,从经济的角度考虑可在排污处理后引入携带外源插入序列片段的reads后再进行后续组装,从精确的角度考虑则可以对插入区域额外做一代Sanger测序验证;
2.4. 组装效果差的原因
实际项目中上述方法对约1/10的病毒样本没有很好的组装效果,其原因可能是:1. 原始测序数据中目的病毒丰度较低;2. 组装方法有待改进;
三.补充:
2020年初的新冠疫情,国家生物信息中心推出了面向新冠病毒的在线组装及下游分析工具:上传原始测序数据,直接输出分析结果,其组装方法同样适用于其它病毒。
修改与2021年1月5日