BAM 文件是一种存储高通量测序数据比对结果的二进制格式。
统计 Reads 数量
要获得 BAM 文件中的 reads(reads 通常指单个测序反应生成的序列,而 pair-end reads 会以两个 reads 的形式出现)总数,您可以使用samtools view命令:
samtools view input.bam | wc -l
这个命令会输出 BAM 文件中非头部行的总数,每个 read 占一行,因此这个数字就是 reads 的数量。如果是 pair-end 数据,这个数字将是 reads 的两倍。
统计碱基数量
要统计 BAM 文件中的总碱基数量,您可以使用samtools和seqtk:
samtools view -c input.bam && samtools view input.bam | seqtk seq -A | wc -l
第一条命令samtools view -c input.bam统计 BAM 文件中的 reads 数量。第二条命令提取所有 reads 的序列,并用wc -l统计碱基对数量,这里假设 FASTA 格式每行包含一个碱基对。