DNA甲基化分析②数据质控

质控原则

好的结果需要好的数据。
原始下机测序数据(raw data)中,有些reads包含有测序接头序列,这些序列不属于测序物种中的原有序列,因此质控过程中需要剪切去除。同时,下机数据中还包含许多低质量的reads序列(如平均测序质量值较低的reads,序列某些位置碱基质量值过低,含N较多的reads等),同样需要过滤去除。
质控核心思想:trim(剪切)+fliter(过滤)

软件

使用fastp和fastqc作为质控软件。fastp主要用来剪切和过滤reads,fastqc用以生成更详细的质控报告。

fastp参数选择

文件读写及程序运行基本选项:
-i,输入文件1,双端测序raw reads R1;
-o,输出文件1,双端测序clean reads R1;
-I,输入文件2,双端测序raw reads R2;
-O,输出文件2,双端测序clean reads R2;
-6,输入fastq文件phred格式为phred64,将其转化为phred33,输出fastq文件phred33;
-z,gzip压缩水平,取值1-9,数值越高压缩空间越小但速度越慢,默认为2;
-j,输出的json文件名称,默认fastp.json;
-h,输出的html文件名称,默认fastp.html;
-w,程序运行线程数,默认3线程;
-s,可根据指定文件个数拆分文件,默认不拆分;
-S,可根据指定行数拆分文件,默认不拆分;
reads接头序列裁剪功能:
-A,若此参数存在,则关闭裁剪测序接头序列功能,默认启用;
-a,接头序列,默认自动检测;
reads全局裁剪功能:
-f,裁剪reads1 5'端该长度的碱基,默认无;
-t,裁剪reads1 3'端该长度的碱基,默认无;
-F,裁剪reads2 5'端该长度的碱基,默认无;
-T,裁剪reads2 3'端该长度的碱基,默认无;
reads polyG裁剪功能:
-g,执行polyG裁剪功能;默认情况下,仅识别Illumina NextSeq/NovaSeq数据执行polyG裁剪;
-G,关闭polyG裁剪功能;默认情况下,仅识别Illumina NextSeq/NovaSeq数据执行polyG裁剪;
reads滑窗裁剪功能:
-5,在reads 5'端启用根据碱基质量值的裁剪,默认无,(该参数启用会影响后续分析中对deduplication数据的识别);
-3,在reads 3'端启用根据碱基质量值的裁剪,默认无,(该参数启用会影响后续分析中对deduplication数据的识别);
-W,设定reads裁剪的滑窗大小,默认4碱基为一滑窗;
-M,滑窗中碱基平均质量低于该设定阈值时,将被裁剪,默认阈值为q20;
reads过滤功能(根据碱基质量、N碱基数量、长度等):
-Q,若此参数存在,则关闭质量筛查功能,默认启用;
-q,设定期望碱基质量值,质量值低于该值的碱基视为不合格,默认值15表示phred quality >= q15合格;
-u,允许reads中存在多少个碱基不合格,取值0-100,默认值40表示40%;
-n,如果一个read中的N碱基大于此设定值,该read将被剔除,默认值为5;
-L,若此参数存在,则关闭长度筛选功能,默认启用;
-l,如果一个read的长度低于此设定值,该read将被剔除,默认值为15;
reads碱基校正功能:
-c,若为双端测序数据(paired-end reads,PE reads),可根据reads重叠区执行碱基校正,默认禁用;
对带分子标签(UMI)的数据处理功能:
-U,启用unique molecular identifer (UMI)程序;
Over-represented序列分析功能:
-p,启用over-represented reads分析;
-P,统计over-represented reads在指定测序扩增循环次数中的基本信息,默认第20轮循环。

举例

使用fastp默认参数质控后fastqc显示的质控报告(read1的)


基本信息

碱基测序质量

碱基分布情况

根据图中显示的问题(第80个碱基往后质量值较低,5'端序列质量值波动)进行参数调整
代码:

fastp -w 7 -f 9 -F 9 -3 -W 1 -M 20 -q 20 -u 40 -l 116 -i control_P_R1.fq.gz -I control_P_R2.fq.gz -o control_P_R1.p.fq -O control_P_R2.p.fq -h p.html

-w 7 线程数为7
reads全局裁剪功能
-f 9 全局裁剪,所有reads1 从5'端剪去9个碱基
-F 9 全局裁剪,所有reads2 从5'端剪去9个碱基

reads滑窗裁剪功能
-3 在reads 3'端启用根据碱基质量值的裁剪
-W 设定reads裁剪的滑窗大小为1,默认4碱基为一滑窗;数值越小,窗口所包含的碱基越容易被切除 非常之关键
-M 20 滑窗中碱基平均质量低于该设定阈值时,将被裁剪,默认阈值为20

reads过滤功能
-q 20 设定期望碱基质量值,质量值低于该值的碱基视为不合格
-u 40 允许reads中存在多少个碱基不合格,取值0-100,默认值40表示40%(若-u 30 一条read允许有30%的碱基不合格(Q值设为20),超过30%被过滤掉)
-q 20 -u 40 一个read最多只能有40%的碱基的质量值低于Q20,否则会被过滤掉
-l 116 如果一个read的长度低于116,该read将被剔除,默认值为15 (l值得确定是根据全局剪切的参数设置的,如果测序策略为PE125,-f 为5,此时大部分reads长度为116,-l的值此时就设为116,若设为125,则所有reads都被过滤掉了)

ps:滑窗裁剪和接头序列裁剪(-a,默认开启)都是局部裁剪

fastqc形成更清晰的质控报告

fastqc -o ~/WGBS/1_RawData/insulin.fastqc insulin_P_R1.fastp.fq insulin_P_R2.fastp.fq

调整fastp参数质控后的结果

碱基测序质量

碱基分布情况

fastqc和fastp同时执行:

fastp -w 7 -f 9 -F 9 -3 -W 1 -M 20 -q 20 -u 40 -l 116 -i insulin_P_R1.fq.gz -I insulin_P_R2.fq.gz -o insulin_P_R1.fastp.fq -O insulin_P_R2.fastp.fq -h insulin_P.html;fastqc -o ~/WGBS/1_Raw
Data/insulin.fastqc insulin_P_R1.fastp.fq insulin_P_R2.fastp.fq

参考

生信工具Fastp的安装及其在二代测序数据过滤质控中的使用说明
fastp: 极速全能的FASTQ文件自动质控 过滤 校正 预处理软件
RNA-seq从过滤低质量到去接头完整质控步骤

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345