2021.10.08 号 fastp 重磅更新了,让我们来了解体验一下吧!
Fastp的创建与发展
NGS 测序FASTQ文件的质量控制和预处理是为下游分析提供干净数据的关键。传统上,每个操作都使用不同的工具,如质量控制、接头修剪和质量过滤等,或多次读取和加载数据都会导致分析繁琐及效率低下。
为解决该问题,来自深圳海普洛斯公司的陈实富博士带领其团队开发了一个超快的fastq预处理开源软件fastp。它可以实现对数据的一次性处理,包括过滤低质量,过滤adapter,截取reads,split分割大文件,生成报告等。这个工具是用c++开发的,并且支持多线程。这导致fastp比其它FASTQ预处理工具(如Trimmomatic或Cutadapt)快2-5倍。最终其研究结果于2018发表在Bioiformatics(IF=6.937)杂志上, 至今其引用次数高达2000+。
Fastp 最新升级版本
自2018年第一版本发布以来,fastp 软件陆陆续续的不断的更新优化,目前已经更新37个版本。2021.10.08 陈博士重磅发布新版本fastp v0.23.0,该版本在性能上有了很大的改进。首先,线程和I/O模块已经被完全重写,以生成可重复的输出,并极大地提高性能。其次,引入了新的库libisal和libdeflate来取代运行缓慢的zlib。尽管这可能会给编译带来一些困难,但这些都值得改进性能。在这些改变下fastp v0.23.0 产生了重大的变化:
1. 在很多情况下fastp v0.23.0可以比以前的版本提速1倍以上速度, 特别是当压缩级别设置为6或更高时,性能增益非常明显。
2. 线程的随机性已经解决,所有结果都可以稳定重现,同一次命令重复运行,结果也不会有任何不同。
Fastp 安装测试
让我们下载安装测试一下新版本fastp v0.23.0与旧版本fastp的区别。当我们将压缩率都设置为6时候,新版本fastpv0.23.0 平均运行时间约31s,且重复三次运行后生成的质控后的文件大小一致,md5值不变。相对新版本,旧版本fastp v0.20.0 平均运行时间约为85s,重复三次运行之后产生的质控文件大小不一致,md5值存在差异。
现在,赶紧去升级你的fastp(https://github.com/OpenGene/fastp)软件吧!