我的ChIP-Seq(2): cutadapt/fastp/Trimmomatic 过滤软件选择

过滤软件的比较与选择：cutadapt/fastp/trimmomatic

注：还没有完全搞明白，先总结一下特点和使用，之后再慢慢体会、总结经验
本次只针对双端PE
算法都没好好读，因为看不懂==

首先，我们对数据进行过滤，是为了：

去掉接头
去掉低质量reads
去掉污染序列
在尽量去掉上述序列的同时，保留尽可能多的有用数据，减少损失

CutAdapt，2010

基于Python，作者是个德国人，长得还挺帅气(✧◡✧) 不过都9年过去了，嗯。。
不仅支持illumina，还支持SOLID，454等平台产出的数据
支持输入.gz
需要自己先检测接头类型（fastqc等），然后搜索接头序列是啥，手动输入到参数里。但是有一个参数 -n，若是两种接头，也可以指定然后去除：-n 2
一般命令：

cutadapt -a -A #a是read1的3'接头，A是read2的3'接头(5'接头的反向互补序列)
-e 0.1 -0.5 -m 50 #去除接头后read长度大于50才保留
-o -p #生成文件：过滤后的R1 R2
read1.fastq read2.fastq #输入文件

本次分析没用，所以详细参数可以阅读--help

fastp，2018

基于c++这种强大的语言所以算法比较高效，中科院深圳所发的。还没用过，不过身边做RNA-Seq的俩师兄强烈推荐，有空可以test一下。
主题就是ultra-fast，all-in-one，而且是只处理FASTQ也就是illuminate下机数据
特点：

能进行质控，生成比fastqc美观、全面的报告，但是我看了一遍，不如fastqc直观、fresh-friendly
号称去除低质量序列的方法类似于trimmomatic但是更快
自动识别序列并去除
支持illuminate short read，也一定程度支持Pacbio/Nanopore long reads，具体支持到什么程度，需要试验。
参数众多，但是挺有条理的，而且很多都是默认不是必需参数，不会“新手退散”

最简单的命令：
fastp -i r1.fq -o rr1.fq -i r2.fq -o rr2.fq
这篇介绍写的不错：知乎
但他说一般下机数据要经过fastqc+cutadapt+trimmomatic，有点不太理解，要这么麻烦吗？

Trimmomatic，2014

也是很好用的，引用量超高，good at去除低质量reads，只针对illuminate数据
最重要的特点：对数据的处理步骤与参数的顺序有关！
所以建议先去接头，否则接头被剪更无法有效去除。
PE数据常用参数：
ILLMINACLIP: 注意以下参数以：隔开
<fastaWithAdaptersEtc>: 指定包含接头和引物序列（所有被视为污染的序列）的 fasta 文件
<seed mismatches>: 第一步seed搜索时允许的mismatch个数，一般2。
<palindrome clip threshold>: 指定针对 PE的palindrome clip模式下，需要R1和 R2之间至少多少比对分值，才会进行接头切除，例如30。
<simple clip threshold>: 指定切除接头序列的最低比对分值，一般7-15之间。
<minAdapterLength>: 只对 PE 测序的 palindrome clip 模式有效，指定 palindrome 模式下可以切除的接头序列最短长度，默认值是 8。但实际上 palindrome 模式可以切除短至 1bp 的接头污染，所以可以设置为 1。
<keepBothReads> 重要参数！第一次做的时候没加这个参数，结果20%+的数据Unpaired，扔掉不现实，比对处理太麻烦！正确用法：只对 PE 测序的 palindrome clip 模式有效，R1 和 R2 在去除了接头序列之后剩余的部分是完全反向互补的，默认参数 false，意味着整条去除与 R1 完全反向互补的 R2，当做重复去除掉，但在有些情况下，例如需要用到 paired reads 的 bowtie2 流程，就要将这个参数改为 true，否则会损失一部分 paired reads。
本次所用命令：（也是公司报告中所用的）

java -jar trimmomatic-0.38.jar PE -threads 2 #双端模式，两个线程
ILLUMINACLIP: #顾名思义，去illumina接头
TruSeq3-PE.fa: #接头文件，需要指定全路径
2:30:10 # 默认格式为 2:30:10:8:false，可改做：2:30:10:8:true
LEADING:20 #从reads的起始端开始切除质量值低于设定的阈值的碱基，直到有一个碱基其质量值达到阈值。一般用LEADING:3???
TRAILING:20 #一般用3，因为Illumina 平台有些低质量的碱基质量值被标记为2，所以设置为 3 可以过滤掉这部分低质量碱基
SLIDINGWINDOW:4:20 #滑窗剪切，统计滑窗口中所有碱基的平均质量值，如果低于设定的阈值，则切掉窗口。此处设置4bp窗口，阈值20，一般阈值用15。
MINLEN:50 #可被保留的最短 read 长度

trimmomatic PE模式默认处理2个文件，也就是说，sh脚本中使用本办法只能一次列举R1 R2两个文件，不能 In_R1 In_R2 IP_R1 IP_R2这样四个文件都列出来，事实证明会报错，trimmomatic有点傻傻的不知道第三个开始的文件该干嘛。
所以要批量做，需要写循环，或者是认真阅读使用说明的参数。

trimmomatic的更多解读可以参考这个，写得很详细。目前我理解的是以上。

最后附一个图：
出自：Chen et al. Source Code for Biology and Medicine 2014, 9:8. Software for pre-processing Illumina nextgeneration sequencing short read sequences.

几种软件比较

以上。可以test一下trimmomatic的true参数，还有fastp试一下到底强大在哪里。

最后编辑于：2019.03.14 17:25:03

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343