第一步:将下载的sra格式的数据转换成fastq格式的数据输出到./project
这一部免费的云服务器就已经扛不住了
fastq-dump --gzip --split-3 -O ./project ./SRR6168921.sra
##可以用循环语句
ls ./1.SRA/*sra | while read id; do (fastq-dump --gzip --split-3 -O ./project ./${id}); done
第二步:质控
##step1:
fastqc -t 2 -o ./ ./sample_1.fastq.gz ./sample_2.fastq.gz
####双端测序sra数据转换成fastq文件的时候会生成两个文件:_1.fastq.gz _2.fastq.gz
##step2:filter data # conda install trim-galore
trim_galore --phred33 \
-q 25 -e 0.1 \
--length 36 --stringency 3 \
--paired -o ./ \
./sample_1.fastq.gz \
./sample_2.fastq.gz
multiqc ./ # 整合结果,整合qc报告需要conda install multiqc
批量质控暂时还不会
第三步:比对
step1 创建hg38参考基因组索引(HISAT2的索引)
参考cui老师的简书,有各种软件创建索引的方法
hisat2-build -p 4 ./hg38.fa hg38
###方法一:没有具体实践过
wget -c ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz ####方法二:非常慢
step 2 RNA-seq选择HISAT2进行比对
hisat2 -p 10 -x
/public/reference/index/hisat/hg38/genome -1 \
./${id}_1_val_1.fq.gz -2 ./${id}_2_val_2.fq.gz | \
samtools sort -@ 5 -o ./${id}.sort.bam -
###10指的是10线程
###hisat2生成Sam文件,在用samtools 生bam文件
第二个报错是samtools软件安装失败,需要下载官网的二进制版本安装。
第四步:差异分析featureCounts
featureCounts -T 5 -p -t exon -g gene_id \
-a /public/reference/gtf/gencode/gencode.v25.annotation.gtf.gz \
-o SRR1039$fn.counts.txt SRR1039$fn.hisat.sort.bam
###输出SRR1039$fn.counts.txt
###SRR1039$fn.hisat.sort.bam这个文件是hisat后的bam文件
第一个报错: