第一次转录组分析
公司提供的数据为双端fastq.gz,省略了sra转换这步,sra转换为fastq这步可以以后再说了
数据校验
公司的测序文件提供了md5码
md5sum -c ***.md5
-c或 --check:用来从文件中读取md5信息检查文件的一致性
参考:Linux命令详解:md5sum
https://blog.csdn.net/hanlizhong85/article/details/77844635
转录组入门(3):了解fastq测序数据
http://www.cnblogs.com/freescience/p/7277620.html
校验所有目录下的md5
find ../ -name "*.md5" -print0 | xargs -0 md5sum -c
原理解读https://www.jianshu.com/p/82d315a89a1f
tips:
- 终端活用tab补全长文件名
- 活用终端命令# Linux终端命令全面介绍
质控
mkdir qc #新建文件夹
cd qc
find ../../chem/ -name "*.gz" -print| xargs ls |while read id;do(/mnt/hgfs/linuxshare/biosoft/FastQC/fastqc $id -o /mnt/hgfs/linuxshare/chem/qc -t 3);done
原理解读https://www.jianshu.com/p/06de287783c3
质控解读
结果显示有大量支原体污染...
另外有大量接头
参https://www.jianshu.com/p/d72c62b907e9
序列比对
参考转录组入门(5): 序列比对https://www.jianshu.com/p/681e02e7f9af
还是迅雷好用...不知道是不是多线程不符合规定...下载后解压缩至hg19文件夹
使用hisat2比对
for i in `0 2 4`
do
hisat2 -t -x ../hg19/genome -1 ../../${i}h/${i}h_combined_R1.fastq.gz -2 ../../${i}h/R19000257LR01-${i}h_combined_R2.fastq.gz -S ../../aligned/${i}h.sam
done
参https://www.jianshu.com/p/be74422b74aa
比对结果解读
57.25%的配对数据一次都没有比对,40.05%的数据比是唯一比对,2.70%是多个比对。剩下的部分单端数据进行比对,95.89%数据没比对上,3.37%的数据比对一次,0.73%比对超过一次。总共才50.03%的比对率。
考虑到前面QC的两个问题,一个是支原体,一个是adapter,接下来尝试用支原体的index比对一下。
果然36.21%的是支原体,加上adaptor的话,能够解释为什么只有50%的比对率了...
参https://www.jianshu.com/p/5ddbe9508b69
去除adaptor(待做)
AdapterRemoval
bam
samtools sort -@ 5 -o 6h.bam 6h.sam