作者:大行山
审稿:童蒙
编辑:angelica
背景
在人类基因组中有近一半的序列为重复序列,根据重复序列的重复单元长度分为STR、微卫星、转座元件等。目前已知有30多种疾病跟STR有关。这里介绍的软件tandem-genotypes,主要针对STRs。
软件操作
软件tandem-genotypes的主要操作步骤包括:
1.基因组数据库构建
2.数据比对
3.检测重复序列
4.多样本合并
5.结果展示及可视化
1.数据库构建
在检测TRs分析中,推荐使用GRCh38,该版本的基因组注释更全,得到的STRs相对更准确。该步骤,所有项目都是一样的,其实就是检索参考基因组中的重复序列,包括4步。
windowmasker -mk_counts -mem 10000 -in Homo_sapiens.GRCh38.100.chr.fa > GRCh38.wmstat
windowmasker -ustat GRCh38.wmstat -outfmt fasta -in Homo_sapiens.GRCh38.100.chr.fa > GRCh38.wm.fa
lastdb -P 8 -u YASS -R 11 -c GRCh38_db GRCh38.wm.fa
tantan -f 4 -w 2000 Homo_sapiens.GRCh38.100.chr.fa > GRCh38.tantan_out
2.比对
在该步骤中可以参考上面的流程图,主要包括2步,第一步是预测测序的碱基错误率,第二步是比对。
last-train -P 8 -Q 0 GRCh38_db M430a1.par
lastal -P 8 -p M430a1.par GRCh38_db M430a0.ccs.fq |last-split > M430a0.maf
3.检测重复序列
可以看到前面的分析主要使用的是其他软件,到这里才开始使用tandem-genotypes,该软件主要用来鉴定STR。
tandem-genotypes -n 10 -g GRCh38_refGene.flat.txt GRCh38.tantan_out M430a0.maf > M430a0.TR.genotype
4.多样本结果合并
这个步骤主要是在人群上比较不同样本之间STRs的差异,便于筛选候选致病的STRs。
tandem-genotypes-join M430*genotype > sample.M430.merge.out
5.结果显示及可视化
这里展示3个样本的合并结果中的第一个结果。表1 结果示例
对该结果进行可视化,命令如下:
/minicoda3/bin/python3.9 /tandem-genotypes-master/tandem-genotypes-plot sample_all.merge.out
注意
在数据库构建过程中,为了加快速度,可以考虑拆分为单个染色体进行,最后再合并。
总结
软件tandem-genotypes支持在全基因组范围内检测STR,需要输入的数据包括三代测序数据,参考基因组fa文件,参考基因组基因信息。如果参考基因组版本不变,其中的建库步骤可以一次完成,多次使用。该软件整体使用友好,结果可读性好,满足STR的基本需求。
参考资料
- Koning A D , et al. Repetitive elements may comprise over two-thirds of the human genome.[J]. PLoS Genetics, 2011, 7(12):e1002384.
- Liehr, T. Repetitive Elements in Humans. Int. J. Mol. Sci. 2021, 22, 2072
- Mitsuhashi, S. , et al. "Tandem-genotypes: robust detection of tandem repeat expansions from long DNA reads." Genome Biology 20.1(2019):58-.
- Tandem-genotypes:https://gitee.com/bucongfan/tandem-genotypes