第一次学习有不合适的地方欢迎小伙伴们留言!感谢简书提供的学习平台!
1.数据质控
由于使用的是cleandata,所以先对数据进行质控
#input
fastqc -t 8 -o /public/home/sss/ss/6mA/6mAinput-1_FKDL220023882-1a 6mAinput-1_FKDL220023882-1a_1.fq.gz \
fastqc -t 8 -o /public/home/sss/ss/6mA/6mAinput-1_FKDL220023882-1a 6mAinput-1_FKDL220023882-1a_2.fq.gz
#默认输出在当前路径下
-t 表示多少个线程
-o 输入路径,就是.gz文件所在的位置
将产生的htlm文件下载
由于universal adaptor 含量比较多,需要进一步去除adator含量
IP样本的质控同上
2.去除adaptor
使用的是trim_galore,trim_galore 是对fast qc 和cutadaptor的包装,适用于所有的高通量测序,包括RRBS,Nextera 和 small RNA 测序平台的双端和单端的测序数据,主要功能包括两步:1.去除低质量的碱基,然后去除3‘末端的adaptor,如果没有指定具体的adaptor,程序会自动检测前1 million 13bp的序列是否符合以下类型的adaptor:
1 Illumina: AGATCGGAAGAGC
2 Small RNA: TGGAATTCTCGG
3 Nextera: CTGTCTCTTATA
参数说明:
1 #–q | ––quality <INT>
除了去除接头,同时修剪3‘端低质量的碱基;默认的phred分数为20;对不同的样本处理方式不同;
RRBS样本:先修剪3‘末端低质量碱基,随后再去除接头;
其他类型样本:低质量碱基和接头一次性处理;
2#––phred33
适用于IlLumina 1.9+:指导cutadapt使用ASCII+33质量分数作为pared分数,默认使用。
3 #--phred64
适用于Illumina 1.5: 指导cutadapt使用ASCII+64质量分数作为pared分数
4 #––fastqc
当数据修剪完成以后以默认参数运行fastqc再次处理fastq文件
5#--stringency <INT>
接头序列最小配对碱基数:简单来说就是最多能允许末端残留多少个接头序列的碱基,默认值为极端值1;该参数与trimmomatic中ILLUMINACLIP <minAdapterLength>含义相同。
6#--paired
对于双端结果,一对reads中若一个read因为质量或其他原因被抛弃,则对应的另一个read也抛弃,但若使用--retain_unpaired选项可以保留
以自己测的数据为例进行 cut adaptor
trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 --paired ./6mAinput-1_FKDL220023882-1a_1.fq.gz ./6mAinput-1_FKDL220023882-1a_2.fq.gz -o ./
trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 --paired ./6mAIP-1_FKDL220023881-1a_1.fq.gz ./6mAIP-1_FKDL220023881-1a_2.fq.gz -o ./
去除adaptor以后进行数据质控
fastqc -t 8 -o /public/home/sss/ss/6mA/6mAIP-1_FKDL220023881-1a 6mAIP-1_FKDL220023881-1a_1_val_1.fq.gz \
fastqc -t 8 -o /public/home/sss/ss/6mA/6mAIP-1_FKDL220023881-1a 6mAIP-1_FKDL220023881-1a_2_val_2.fq.gz