参考文章:
1.如何统计BAM文件中的reads数
2.Samtools常用命令的总结
当你有很多个bam文件时,想知道这些bam文件里有多少个比对上的reads,并且把它们输出的时候,应该怎么做?当然你可以选择读取bowtie2的日志文件,像这样的:
31991083 reads; of these:
31991083 (100.00%) were unpaired; of these:
6844445 (21.39%) aligned 0 times
18391269 (57.49%) aligned exactly 1 time
6755369 (21.12%) aligned >1 times
78.61% overall alignment rate
但是有时候我们从别人那里拿到的只是个bam文件怎么办?
samtools工具里有一个功能帮你实现这个要求。
(一)计算alignments数
alignment数并不是mapped read数,因为一条read有可能比对到基因组多个位置。所以这种方法要比实际的reads数要多。首先如果你有很多个样品,建议你先弄一个txt,里面是你的样品名,像这样,比如我有8个bam文件:
$ cat file_names.txt
A_1
A_2
A_3
A_4
A_5
A_6
A_7
A_8
上面是我的样品名前缀。
#写个脚本,批量统计
#!/bin/bash
cat file_names.txt | while read line
do
export alignment_number=$(samtools view -c ${line}_q30_rmdup_sorted.bam)
echo ${line} alignment_number ${alignment_number}
done
输出结果:
A_1 alignment_number 23150364
A_2 alignment_number 12724502
A_3 alignment_number 17724364
A_4 alignment_number 14102860
A_5 alignment_number 18809748
A_6 alignment_number 12566000
A_7 alignment_number 19047440
A_8 alignment_number 11808528
(二)统计双端测序比对上的reads数
统计双端测序bam文件里一对read都比对上的数量:
#!/bin/bash
cat file_names.txt | while read line
do
export mapped_reads=$(samtools view -c -f 1 -F 12 ${line}.bam)
echo ${line} mapped_reads_number ${mapped_reads}
done
输出的内容:
A_1 mapped_reads_number 23150364
A_2 mapped_reads_number 12724502
A_3 mapped_reads_number 17724364
A_4 mapped_reads_number 14102860
A_5 mapped_reads_number 18809748
A_6 mapped_reads_number 12566000
A_7 mapped_reads_number 19047440
A_8 mapped_reads_number 11808528
这里你会发现我两种比对的结果是一样的,是因为我从老板那里拿到的bam文件是他用picard去重过滤之后的bam文件,所以两种结果是一样的,如果你用没有去重过滤的bam文件进行计算,这两个结果是不一样的!
上面两种都是比较简单的统计数量,如果你想要具体的信息,比如比对率之类的,可以用这个代码:
$ samtools flagstat file.bam
23150364 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
0 + 0 duplicates
23150364 + 0 mapped (100.00% : N/A)
23150364 + 0 paired in sequencing
11575182 + 0 read1
11575182 + 0 read2
22447746 + 0 properly paired (96.96% : N/A)
23150364 + 0 with itself and mate mapped
0 + 0 singletons (0.00% : N/A)
0 + 0 with mate mapped to a different chr
0 + 0 with mate mapped to a different chr (mapQ>=5)
(三)合并两个及以上的bam文件
如果你想合并sorted的bam文件,可以这样:
$ samtools merge finalBamFile.bam *.bam
finalBamFile指的是合并完的bam文件名;后面跟的是你想合并的bam文件,如果只有两个,你可以依次列出;如果有多个,可以像上面一样,用*来表示。
samtools的merge功能在合并之后,输出的文件也是保持着原来的顺序,即sort的顺序,所以你不用再次sort。
在merge后,再次检查mapped reads数(我是把8个文件两两合并):
merge_1.bam mapped_reads_number 41960112
merge_2.bam mapped_reads_number 25290502
merge_3.bam mapped_reads_number 36771804
merge_4.bam mapped_reads_number 25911388