GATK4流程学习之背景知识与前期准备

GATK4流程学习之背景知识与前期准备 - 简书
GATK4流程学习之DNA-Seq variant calling(Germline:SNP+INDEL) - 简书
GATK4流程学习之RNA-Seq variant calling(SNP+INDEL) - 简书
补:Mutect2+scRNAseq+cancer cell - 简书

说明:由于一些原因,中途在一个新服务器账号创建了GATK分析环境,故后面系列分析的路径可能与在下文的路径不一致,但数据与软件都是一致的。

要点一、GATK学习

1、GATK简介

  • The GATK is the industry standard for identifying SNPs and indels in germline DNA and RNAseq data.
  • Its scope is now expanding to include somatic short variant calling, and to tackle copy number (CNV) and structural variation (SV).
variant calling pipeline
  • 简单理解就是gatk4是根据bam文件,生成vcf文件的软件;不仅如此,gatk开发团队(broad institute)对整个从fatsq→vcf分析流程都建立了标准的分析pipeline,即GATK Best Practices系列

关于SNP、INDEL等变异类型可参考之前的VCF格式详解笔记
(插一句就是我登录broad institute GATK页面总是有问题,不知道其他小伙伴也遇到类似问题。)
生信格式之fasta、fastq - 简书 https://www.jianshu.com/p/5bd5848eb596
生信格式之sam、bam - 简书 https://www.jianshu.com/p/f0f1f293f0bd
生信格式之vcf格式 - 简书 https://www.jianshu.com/p/34c1e22c92c8

2、相关概念区别

2.1 DNA-seq与RNA-seq

https://sciberg.com/resources/bioinformatics-faqs/the-differences-between-dna-and-rna-sequencing.html
(1) DNA-seq

  • 如下图,DNA-seq包括三种测序手段,分别为Whole Genome Sequencing (WGS,全基因组测序), Whole Exome Sequencing (WES or WXS,全外显子测序) and targeted sequencing(靶向测序).
  • WGS是对样本整个基因组的全部测序,而WES则仅对能携带遗传信息,参与编码mRNA的外显子序列(仅占基因组大小的3%)进行测序。
  • 以WGS与WES为代表的DNA-seq,主要用于研究rare mutations and/or common variants associated with a disorder or phenotype.
    DNA-seq

(2)RNA-seq

  • 如下图,RNA-seq主要是捕捉DNA的转录产物mRNA以及非编码RNA(lncRNA,circRNA和miRNA等),分为mRNA-seq、miRNA-seq、circRNA, Whole Transcriptome Sequencing (WTS,全转录组测序)。
  • 相比DNA-seq的测序步骤,RNA-seq首先需要提取特定类型RNA,再反转录成cDNA(complementary DNA,互补DNA),然后构建文库,进行测序。
  • 相比DNA-seq的测序分析,RNA-seq的研究包括the detection of changes in gene expression, alternative splicing, post-transcriptional modifications, gene fusions as well as detection of mutations and SNPs.
RNA-seq
2.2、germline mutation与somatic mutation

https://www.zhihu.com/question/38765318
(1)germline mutation 胚系突变

  • germline mutation是指上一代的生殖细胞(germ cells)精子或卵子发生突变(如下图左),然后经减数分裂,形成合子,在子代中不断分化增殖(有丝分裂,直接复制),从而在该个体的所有体细胞中都存在germline mutation。
  • 即取正常组织测序,在某一特定位点,germline突变的频率理论上只有2种:50%突变(精子或卵子一方突变),或100%突变(精子与卵子均突变)【该个体的生殖细胞也是带有突变】
  • 所以胚系突变的特点是可遗传性。如下图右是仅父代精子胚系突变,导致该个体产生的精子中会有50%的遗传性
  • germline mutation是遗传性疾病的研究重点;只有一少部分癌症,是与遗传相关的(研究最广泛的遗传性癌症就是乳腺癌,携带BRCA1/2基因的突变会导致患乳腺癌、卵巢癌的几率增加)。


    image.png

(2)somatic mutation 体细胞突变

  • 如上图有,somatic mutation与精卵子配体是否发生突变无关,而是在胚胎后期发育过程中,体细胞分裂过程中发生的突变。由于体细胞已经高度分化,仅影响该类体细胞(皮肤,肝脏,骨髓,眼睛等的细胞均为体细胞)相关区域。
  • 由于大部分somatic mutation 不会影响生殖细胞,所以somatic mutation是不会遗传的。
  • 绝大多数癌症,都是由于后天体细胞突变导致;研究时一般取癌组织与癌旁组织对比研究,即在Call Somatic mutations 的时候最好有同一个体的正常组织进行参照。

3、笔记内容

  • 基于GATK Best Practices的identifying SNPs and indels in germline DNA and RNAseq data的流程学习;
  • 主要以用为主,通过示例数据操作为主,同时再尽量解释清楚每一步的含义,但背后深入算法还是并不太明白,例如pairHMM算法。

1、下载相关软件

  • sra-toolsaspera 是两个常用的下载公共数据库测序数据的软件;
  • fastqctrimmomatic是对fastq测序文件质控的两个软件;
  • bwastar是两个常用的比对软件,各有所长;
  • GATK4是variant calling的常规软件,目前已发布第4版本;
  • 其它seqtktree......

软件安装一般到官网或者github主页,根据提示下载安装即可;有的是解压即用,有的需要make之类的操作(编译)一下。建议选择合适的文件路径,方便以后管理方便。

https://github.com/lh3/bwa

2、conda创建GATK分析环境

  • 区别上述的方法,conda环境下可以软件命令的操作更加方便,不需要考虑环境变量因素。
  • conda的基础学习可参考前面的笔记--Linux的conda软件管家https://www.jianshu.com/p/84a0d5c407aa
conda create -n GATK python=3
conda activate GATK
conda install -c bioconda -y sra-tools  seqtk
conda install -c bioconda -y fastqc trimmomatic samtools
conda install -c bioconda -y bwa gatk4
# aspera比较特殊,需从hcc channel源下载
conda install -c hcc aspera-cli
conda list
  • 根据后面的踩坑教训,有两个软件需要安装指定版本才可以
conda install -c bioconda -y star=2.7.1a
conda install -c bioconda  -y sambamba=0.6.6
conda list

但是还是建议手动安装下上述所有软件,我是分别建立了一个GATKconda环境与biosoft文件加下安装了上述软件。

3、下载参考数据库

#部分数据集特别大,耗时,建议后台运行
mkdir -p ~/path/to/GATK/bundle/hg38
cd ~/path/to/GATK/bundle/hg38

(1)下载参考基因组

nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.fasta.gz >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.fasta.fai >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.dict >/dev/null 2>&1 &

如下,bwa与star是两个测序数据比对软件,比对时需要建立索引文件。根据GATK流程推荐,bwa适合DNA-seq数据找变异;star适合RNA-seq数据找变异

(2)bwa建立参考基因组(human)索引

#比较耗时,1-2h
mkdir bwa_index 
cd bwa_index
nohup ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p gatk_hg38 ../Homo_sapiens_assembly38.fasta >/dev/null 2>&1 &

(3)下载star的参考基因组(human)索引

  • 由于STAR建立索引十分耗资源,因此这里下载搭建好的STAR软件比对人类参考基因组数据的全套数据(31G)。因为这套数据里的比对索引是star 2.7.1a建立的,故后面比对时需要使用对应版本的star,以及找变异时使用版本一致的基因组文件。
mkdir  /home/shensuo/biosoft/star/STAR-2.7.7a/db/
cd /home/shensuo/biosoft/star/STAR-2.7.7a/db/
#网速好的话,一晚上可以下载好
wget -c https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/GRCh38_gencode_v22_CTAT_lib_Apr032020.plug-n-play.tar.gz
# -c参数表示断点续传,下载大文件时建议使用
tar -zcvf GRCh38_gencode_v22_CTAT_lib_Apr032020.plug-n-play.tar.gz
cd GRCh38_gencode_v22_CTAT_lib_Apr032020.plug-n-play/ctat_genome_lib_build_dir/
gatk CreateSequenceDictionary -R ref_genome.fa
ls
image.png

(4)下载人类基因组参考变异注释数据

nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/dbsnp_146.hg38.vcf.gz >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/dbsnp_146.hg38.vcf.gz.tbi >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz.tbi >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/1000G_phase1.snps.high_confsampleence.hg38.vcf.gz >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/1000G_phase1.snps.high_confsampleence.hg38.vcf.gz.tbi >/dev/null 2>&1 &

nohup搭配&是后台不断线的下载。因为有的数据比较大,以及建立索引都比较耗时。
此外都是人类测序的相关分析数据。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容