最近在学习利用转录组数据进行变异检测的相关分析方法,找到了一篇关于samtools的教程SAMtools - Primer / Tutorial,原文提供分析过程用到的数据,非常好的学习素材,简单记录自己的重复过程。(前两天试着用conda安装了samtools-1.8-3, 但是使用的时候遇到了报错
典型的二代测序数据分析流程主要包括五个步骤(A typical work-flow for next-generation sequence analysis is usually composed of the following steps:)
1 DNA is extracted from a sample(DNA提取)
2 DNA is sequenced.(测序)
3 Raw sequencing reads are aligned to a reference genome(reads比对到参考基因组)
4 Aligned reads are evaluated and visualized.(比对结果评估和可视化)
5 Genomic variants, variants, including single nucleotide polymorphisms (SNPs), small insertions and deletions are identified(SNP,Indel检测)
步骤4,5用到 samtools
1 Align the reads to the reference E.coli genome with Bowtie2(比对reads到参考基因组)
2 convert the aligned reads from the SAM file format to BAM(将SAM格式转换为BAM格式)
3 sort and index the BAM file (index该怎么翻译呢?)
4 identify genomic variants(变异检测)
5 visualize the reads and genomic variants(可视化)
Bowtie 2: Manual 这个链接是Bowtie2的帮助文档,内容非常详细,只是要看懂还得费些力气
index参考基因组用到的命令是 bowtie2-bulid (命令后的参数很多自己也还有很多参数没有搞懂),通常直接用默认参数,用到的命令为 bowtie2-build input_file.fasta output_index_name
-x参数指定index后的参考基因组位置 -U reads所在的位置 -S 指定输出文件的位置及文件名
这个是单端数据,如果是PE 用-1和-2分别指定reads
我们的目标是鉴定基因组变异,第一步要做的是将sam转换为bam,下游的分析需要BAM文件作为输入(our goal is to identity the set of genomic variants within the E.coli data set. To do so, our first step is to convert the SAM file to BAM. This is an important prerequisite, as all the downstream steps, including the identification of genomic variants visualization of reads, require BAM as input)
转换sam为bam用到samtools view 命令
接下来是sort和index bam文件,分别用到samtools sort 和 samtools index
sort的时候可能因为samtools的版本不一样重复原文命令会遇到报错,需要我们自己加上一个 -o 参数指定输出文件
通过2导入参考基因组fasta文件,通过1导入index后的bam文件(index时生成的后缀为fai的文件也必须同时存在),通过4和5 可以缩小和放大参考基因组显示的区域,通过改变3破折号前后的数字可以选择要展示的基因组区域(IGV好像还有很多小工具有机会可以探索一下)
IGV查看比对结果所用到的文件 百度云链接密码 il9q
第一步使用samtools mpileup 计算 the genotype likelihoods supported by the aligned reads in our sample