2022-03-10使用fastp进行数据过滤的参数说明

fastp是啥?

它是一个针对FsastQ文件的数据过滤软件,“快”所以取名有fast,这个软件是用C++语言写的,支持多线程。就是rawdata到cleandata的过程需要的一款软件。It can perform quality control, adapter trimming, quality filtering,
per-read quality cutting and lots of other operations within a single scan of the FASTQ data

fastp如何使用(以rna数据过滤为例)

在Linux里安装fastp就略过了,直接上参数,看看如何使用。

用fastp --version查看我的fastp版本

首先,命令的语句是“fastp -i 序列文件名”或者“fastp --in1=序列文件名”,看自己喜欢用哪种。
然后fastp --help调出参数:

参数 解释
-i, --in1 需要进行过滤处理的read1的fastq文件名,这里肯定不能只写一个文件名啦,一定要把文件所在的路径一起补全软件才能找到fastq文件
-o, --out1 软件处理完后输出的fastq文件名,自己取一个好记住的,比如用输入文件名加个fastq
-I, --in2 如果是双端测序就还有1个输入文件read2放这里
-O, --out2 read2的输出文件,同样也是自己取个名
-6, --phred64 这个参数指的是你的输入测序数据是用的phred64体系评分的,它会被转换为phred33体系评分,所以输出的结果是phred33的)这2种评分方式这个博客里有很生动详细的解释:https://blog.csdn.net/whiffen_cann/article/details/56489649
-z, --compression gzip输出文件的压缩水平(1-9)。1表示最快,9表示压缩的最小。不输这个参数,那就算默认设置,即压缩水平就是2
-A, --disable_adapter_trimming 默认是要进行接头去除的。如果这个参数被具体赋值,则接头去除就不默认进行,按参数执行
-a, --adapter_sequence 设置read1的接头序列。如果是单端测序(SE),不指定软件就自动检测,如果是双端测序(PE),如果R1/R2没有重叠区域(overlap)就使用这个参数
--adapter_sequence_r2 设置read2的接头序列(只适用于双端测序)。 如果R1/R2没有重叠区域(overlap)就使用这个参数。如果没有具体指定,那就和上一个参数--adapter_sequence一样
-f, --trim_front1 去除read1的头部多少个碱基。默认设置是0
-t, --trim_tail1 去除read1的尾部多少个碱基。默认设置是0
-F, --trim_front2 去除read2的头部多少个碱基。默认设置和read1一样是0
-T, --trim_tail2 去除read2的尾部多少个碱基。默认设置和read2一样是0
-g, --trim_poly_g 进行PolyG尾的去除,对Illumina NextSeq/NovaSeq数据默认是去除的
--poly_g_min_len 检测polyG尾在read尾部的最小长度。默认是10
-G, --disable_trim_poly_g 不进行polyG尾去除,对Illumina NextSeq/NovaSeq数据默认是去除的
-5, --cut_by_quality5 对每个read切除5’端,默认是不切除(注意!:切除会影响重复数据的删除)
-3, --cut_by_quality3 对每个read切除3’端,默认是不切除(注意!:切除会影响重复数据的删除)
-W, --cut_window_size 设置滑窗大小,默认是4
-M, --cut_mean_quality 滑窗的平均质量阈值,低于这个阈值就被切除,默认是Q20
-Q, --disable_quality_filtering 质量过滤默认是开启的,选择了这个参数就关闭质量过滤
-q, --qualified_quality_phred 设置碱基质量阈值,默认是15,就是phred质量评分≥Q15。这个参数我们常常自行设,比如要求高一点设为20
-u, --unqualified_percent_limit 允许百分之多少的碱基不合格(0-100),默认是40(就是说40%),超过这个比例,整条read就被删除了
-n, --n_base_limit 如果一条read中N碱基的数量超过了多少个,那么这条read就被删除,默认是5(即这条read里有5个N)。这需要根据你实际项目需求改,比如你的read是150bp, 如果你要求使N含量不超过5%,那么150*0.05=7.5,但这里要填int型,不知道是填7.5会不会被软件接受,下次试一试
-L, --disable_length_filtering 长度过滤是默认开启的,如果填了这个参数那就关闭长度过滤。
-l, --length_required read小于这个参数设定长度会被丢弃或删除,默认是15
-c, --correction 对双端测序数据而言,选择这个参数就是开启重叠区域的碱基校正,默认是关闭的
-U, --umi 开启独特的分子标签(UMI)的预处理
--umi_loc 指出UMI的具体位置,可以是(index1/index2/read1/read2/per_index/per_read),默认是没有
--umi_len 如果UMI在read1/read2,应该提供它的长度
--umi_prefix 如果设置前缀,将会用下划线连接前缀和UMI,比如prefix设置为UMI, UMI是AATTCG, 那么最后结果就是UMI_AATTCG。默认是没前缀的
-p, --overrepresentation_analysis 开启过表达序列分析
-P, --overrepresentation_sampling 过表达序列会被进行分析(1-10000),越小越慢,默认是20,就是指1/20的序列会被进行分析
-j, --json 输出的json报告文件名,以“.json”结尾
-h, --html 输出的html报告文件名,以“.html”结尾
-R, --report_title 设置报告标题,默认是“fastp report”
-w, --thread 设置运行的线程数,默认是3
-s, --split 控制输出结果通过制定得到的总文件数量(2-999),一个连续的数字前缀编号将加到输出文件名上,比如 0001.out.fq, 0002.out.fq...,默认是不开启这个参数
-S, --split_by_lines 控制输出结果通过控制每个文件有多少行(≥1000),一个连续的数字前缀编号将加到输出文件名上,比如 0001.out.fq, 0002.out.fq...,默认是不开启这个参数
-d, --split_prefix_digits 用于顺序号填充的数字(1-10),默认是4,所以文件名会被填充像0001.xxx,0表示禁用填充。
-?, --help 要求助就输入这个

然后我从NCBI上下载了一个单端测序的数据试了一下,用时714s,代码见图的最下方:

image-20220310093250079.png

其他

参考文献:[1] Chen, S. , Zhou, Y. , Chen, Y. , & Jia, G. . (2018). Fastp: an ultra-fast all-in-one fastq preprocessor. Bioinformatics, 34(17), i884-i890.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容