GATK4流程学习之背景知识与前期准备

GATK4流程学习之背景知识与前期准备 - 简书
 GATK4流程学习之DNA-Seq variant calling(Germline：SNP+INDEL) - 简书
 GATK4流程学习之RNA-Seq variant calling(SNP+INDEL) - 简书
 补：Mutect2+scRNAseq+cancer cell - 简书

说明：由于一些原因，中途在一个新服务器账号创建了GATK分析环境，故后面系列分析的路径可能与在下文的路径不一致，但数据与软件都是一致的。

要点一、GATK学习

1、GATK简介

The GATK is the industry standard for identifying SNPs and indels in germline DNA and RNAseq data.
Its scope is now expanding to include somatic short variant calling, and to tackle copy number (CNV) and structural variation (SV).

variant calling pipeline

简单理解就是gatk4是根据bam文件，生成vcf文件的软件；不仅如此，gatk开发团队(broad institute)对整个从fatsq→vcf分析流程都建立了标准的分析pipeline，即GATK Best Practices系列

关于SNP、INDEL等变异类型可参考之前的VCF格式详解笔记
(插一句就是我登录broad institute GATK页面总是有问题，不知道其他小伙伴也遇到类似问题。)
生信格式之fasta、fastq - 简书 https://www.jianshu.com/p/5bd5848eb596
生信格式之sam、bam - 简书 https://www.jianshu.com/p/f0f1f293f0bd
生信格式之vcf格式 - 简书 https://www.jianshu.com/p/34c1e22c92c8

2、相关概念区别

2.1 DNA-seq与RNA-seq

https://sciberg.com/resources/bioinformatics-faqs/the-differences-between-dna-and-rna-sequencing.html
（1） DNA-seq

如下图，DNA-seq包括三种测序手段，分别为Whole Genome Sequencing (WGS,全基因组测序), Whole Exome Sequencing (WES or WXS,全外显子测序) and targeted sequencing(靶向测序).
WGS是对样本整个基因组的全部测序，而WES则仅对能携带遗传信息，参与编码mRNA的外显子序列(仅占基因组大小的3%)进行测序。
以WGS与WES为代表的DNA-seq，主要用于研究rare mutations and/or common variants associated with a disorder or phenotype.

DNA-seq

（2）RNA-seq

如下图，RNA-seq主要是捕捉DNA的转录产物mRNA以及非编码RNA（lncRNA，circRNA和miRNA等），分为mRNA-seq、miRNA-seq、circRNA， Whole Transcriptome Sequencing (WTS,全转录组测序)。
相比DNA-seq的测序步骤，RNA-seq首先需要提取特定类型RNA，再反转录成cDNA(complementary DNA,互补DNA)，然后构建文库，进行测序。
相比DNA-seq的测序分析，RNA-seq的研究包括the detection of changes in gene expression, alternative splicing, post-transcriptional modifications, gene fusions as well as detection of mutations and SNPs.

RNA-seq

2.2、germline mutation与somatic mutation

https://www.zhihu.com/question/38765318
（1）germline mutation 胚系突变

germline mutation是指上一代的生殖细胞（germ cells）精子或卵子发生突变(如下图左)，然后经减数分裂，形成合子，在子代中不断分化增殖(有丝分裂，直接复制)，从而在该个体的所有体细胞中都存在germline mutation。
即取正常组织测序，在某一特定位点，germline突变的频率理论上只有2种：50%突变（精子或卵子一方突变），或100%突变（精子与卵子均突变）【该个体的生殖细胞也是带有突变】
所以胚系突变的特点是可遗传性。如下图右是仅父代精子胚系突变，导致该个体产生的精子中会有50%的遗传性
germline mutation是遗传性疾病的研究重点；只有一少部分癌症，是与遗传相关的（研究最广泛的遗传性癌症就是乳腺癌，携带BRCA1/2基因的突变会导致患乳腺癌、卵巢癌的几率增加）。

image.png

（2）somatic mutation 体细胞突变

如上图有，somatic mutation与精卵子配体是否发生突变无关，而是在胚胎后期发育过程中，体细胞分裂过程中发生的突变。由于体细胞已经高度分化，仅影响该类体细胞(皮肤，肝脏，骨髓，眼睛等的细胞均为体细胞)相关区域。
由于大部分somatic mutation 不会影响生殖细胞，所以somatic mutation是不会遗传的。
绝大多数癌症，都是由于后天体细胞突变导致；研究时一般取癌组织与癌旁组织对比研究，即在Call Somatic mutations 的时候最好有同一个体的正常组织进行参照。

3、笔记内容

基于GATK Best Practices的identifying SNPs and indels in germline DNA and RNAseq data的流程学习；
主要以用为主，通过示例数据操作为主，同时再尽量解释清楚每一步的含义，但背后深入算法还是并不太明白，例如pairHMM算法。

1、下载相关软件

sra-tools、aspera 是两个常用的下载公共数据库测序数据的软件；
fastqc、trimmomatic是对fastq测序文件质控的两个软件；
bwa、star是两个常用的比对软件，各有所长；
GATK4是variant calling的常规软件，目前已发布第4版本；
其它seqtk、tree......

软件安装一般到官网或者github主页，根据提示下载安装即可；有的是解压即用，有的需要make之类的操作(编译)一下。建议选择合适的文件路径，方便以后管理方便。

https://github.com/lh3/bwa

2、conda创建GATK分析环境

区别上述的方法，conda环境下可以软件命令的操作更加方便，不需要考虑环境变量因素。
conda的基础学习可参考前面的笔记--Linux的conda软件管家https://www.jianshu.com/p/84a0d5c407aa

conda create -n GATK python=3
conda activate GATK
conda install -c bioconda -y sra-tools  seqtk
conda install -c bioconda -y fastqc trimmomatic samtools
conda install -c bioconda -y bwa gatk4
# aspera比较特殊，需从hcc channel源下载
conda install -c hcc aspera-cli
conda list

根据后面的踩坑教训，有两个软件需要安装指定版本才可以

conda install -c bioconda -y star=2.7.1a
conda install -c bioconda  -y sambamba=0.6.6
conda list

但是还是建议手动安装下上述所有软件，我是分别建立了一个GATKconda环境与biosoft文件加下安装了上述软件。

3、下载参考数据库

#部分数据集特别大，耗时，建议后台运行
mkdir -p ~/path/to/GATK/bundle/hg38
cd ~/path/to/GATK/bundle/hg38

（1）下载参考基因组

nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.fasta.gz >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.fasta.fai >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.dict >/dev/null 2>&1 &

如下，bwa与star是两个测序数据比对软件，比对时需要建立索引文件。根据GATK流程推荐，bwa适合DNA-seq数据找变异；star适合RNA-seq数据找变异

（2）bwa建立参考基因组(human)索引

#比较耗时，1-2h
mkdir bwa_index 
cd bwa_index
nohup ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p gatk_hg38 ../Homo_sapiens_assembly38.fasta >/dev/null 2>&1 &

（3）下载star的参考基因组(human)索引

由于STAR建立索引十分耗资源，因此这里下载搭建好的STAR软件比对人类参考基因组数据的全套数据(31G)。因为这套数据里的比对索引是star 2.7.1a建立的，故后面比对时需要使用对应版本的star，以及找变异时使用版本一致的基因组文件。

mkdir  /home/shensuo/biosoft/star/STAR-2.7.7a/db/
cd /home/shensuo/biosoft/star/STAR-2.7.7a/db/
#网速好的话，一晚上可以下载好
wget -c https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/GRCh38_gencode_v22_CTAT_lib_Apr032020.plug-n-play.tar.gz
# -c参数表示断点续传，下载大文件时建议使用
tar -zcvf GRCh38_gencode_v22_CTAT_lib_Apr032020.plug-n-play.tar.gz
cd GRCh38_gencode_v22_CTAT_lib_Apr032020.plug-n-play/ctat_genome_lib_build_dir/
gatk CreateSequenceDictionary -R ref_genome.fa
ls

image.png

（4）下载人类基因组参考变异注释数据

nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/dbsnp_146.hg38.vcf.gz >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/dbsnp_146.hg38.vcf.gz.tbi >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz.tbi >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/1000G_phase1.snps.high_confsampleence.hg38.vcf.gz >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/1000G_phase1.snps.high_confsampleence.hg38.vcf.gz.tbi >/dev/null 2>&1 &

nohup搭配&是后台不断线的下载。因为有的数据比较大，以及建立索引都比较耗时。
此外都是人类测序的相关分析数据。

最后编辑于：2021.02.24 10:06:22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342

GATK4流程学习之背景知识与前期准备

要点一、GATK学习

1、GATK简介

2、相关概念区别

2.1 DNA-seq与RNA-seq

2.2、germline mutation与somatic mutation

3、笔记内容

1、下载相关软件

2、conda创建GATK分析环境

3、下载参考数据库

（1）下载参考基因组

（2）bwa建立参考基因组(human)索引

（3）下载star的参考基因组(human)索引

（4）下载人类基因组参考变异注释数据

推荐阅读更多精彩内容