原先一直以为测序的bp和byte是等价的,原来对fastq来说,其实:
利用
(公式要怎么换行啊?)
举例:
如果测序reads总量4,000,000,average read length为150bp,基因组大小是50M,估算基因组coverage/depth大小?
应该是,
总长 4,000,000x150 bp=600,000,000 bp /4=150,000,000 BT=150M
但其实fastq格式储存的数据大小要比实际的数据量虚高一些,所以实际的fastq文件要大。
coverage=测序数据大小150M/基因组大小50M = 3
结语:
熟知单位换算对预测测序结果提前估量有一定的帮助,当测序结果未达到要求时,可以合理要求测序公司对不符合的样本重新上机测序。有关问题欢迎一起来探讨啊
参考:
Base vs Byte: Estimating the storage requirement of sequencing - SEQOME