1.什么是GATK
GATK是Genome Analysis Toolkit的缩写,是用来处理高通量测序数据的一套软件。最初,GATK被设计用来分析人类基因组和外显子,主要用来寻找SNP和indel。后开,GATK的功能越来越丰富,增加了short variant calling、计算copy number(CNV)和结构变异(SV)等新功能。同时,GATK也越来越广泛地应用于其他物种的数据分析中。现在,GATK已经成为了基因组和RNA-seq分析过程中,寻找变异的行业标准。
2. GATK分析的pepline
用GATK寻找SNP和Indel,有一个标准的分析流程叫做GATK Best Practise主要包括以下几个步骤:
数据预处理:对从测序仪下机后的数据进行质控,去除低质量的reads,将过滤后的reads比对到参考基因组上,产生BAM格式的比对文件。
寻找变异:进行variant calling,寻找SNP和Indel,将比对数据存储在VCF格式的文件中。
使用寻找出的变异位点进行后续的分析。
3.计算机平台和运行环境
GATK支持Linux和MacOS X,不支持Windows系统。GATK是用java语言写的,所以需要系统安装Java 1.8,其中的一些工具还依赖R和Python。
4.GATK4中的工具
GATK中提供了丰富的工具,供我们对数据进行操作和处理,主要涵盖以下方面:
Copy Number Variant Discovery
Coverage Analysis
Diagnostics and Quality Control
Intervals Manipulation
Metagenomics
Other
Read Data Manipulation
Reference
Short Variant Discovery
Structural Variant Discovery
Variant Evaluation and Refinement
Variant Filtering
Variant Manipulation
Base Calling
Read Filters
Variant Annotations
具体的工具和使用方法可参考官网。
另外,在GATK4中新增加了Picard Toolkit,用来对测序数据进行质控。所有的Picard工具都可以使用GATK命令行调用。