LINUX练习题
- 把突变记录的vcf文件区分成 INDEL和SNP条目
- 统计INDEL和SNP条目的各自的平均测序深度
- 把INDEL条目再区分成insertion和deletion情况
- 统计SNP条目的突变组合分布频率
- 找到基因型不是 1/1 的条目,个数
- 筛选测序深度大于20的条目
- 筛选变异位点质量值大于30的条目
- 组合筛选变异位点质量值大于30并且深度大于20的条目
- 理解DP4=4,7,11,18 这样的字段,就是 Number of high-quality ref-forward , ref-reverse, alt-forward and alt-reverse bases 计算每个变异位点的 AF
- 在前面步骤的bam文件里面找到这个vcf文件的某一个突变位点的测序深度表明的那些reads,并且在IGV里面可视化bam和vcf定位到该变异位点。
第一步查看文件
- 把突变记录的vcf文件区分成 INDEL和SNP条目
- 统计INDEL和SNP条目的各自的平均测序深度
cat ABC.raw.vcf |grep -v '##' |head -50
# DP
grep -v '#' ABC.raw.vcf |cut -f 8|cut -d ';' -f 3|head -10
grep -v '#' ABC.raw.vcf |cut -f 8|cut -d ';' -f 6|head -10
# QUAL
grep -v '#' ABC.raw.vcf |cut -f 8|cut -d ';' -f 12|head -10
第一题,第二题
vcftools --vcf ABC.raw.vcf --remove-indels --recode --recode-INFO-all --out SNPs_only
vcftools --vcf SNPs_only.recode.vcf --depth -c
vcftools --vcf ABC.raw.vcf --keep-only-indels --recode --recode-INFO-all --out indel_only
vcftools --vcf indel_only.recode.vcf --depth -c