Hisat2和STAR是目前转录组分析过程中用来做比对的两款主要工具,记得有一篇好像是2017年的文章专门比较了几款转录组比对工具对结果的影响,结论中认为两款软件在实际使用过程中对结果影响及耗时区别不大,我认为选一款就可以,之前总是用STAR,今天试一下Hisat2。
一、官网下载软件及安装:
https://daehwankimlab.github.io/hisat2/
在Download页面,可以看到Hisat2非常友好地提供了二进制的程序及Index(比对时的索引文件),省去了后续的一些小麻烦。
下载完后unzip进行解压,一开始报错:
原来依赖的libstdc++.so.6需要高版本的库,我没有root权限,更新的话会很麻烦,果断降版本,下载的hisat2-2.1.0后,解压,尝试了一下,安装成功:
二、构建索引Index
Hisat2和STAR在比对时都需要索引文件,对于人及小鼠及常用模式生物,Hisat2官网提供了相应的索引文件,下载后就能用,对于非模式生物,需要自己建立索引文件。
区别于bowtie2的索引只有基因组序列信息,Hisat2建立索引时,应该把转录组信息加进去,此外,Hisat2还支持将SNP信息加入到索引中,这样比对的时候就可以考虑SNP的情况,需要通过下面命令将SNP文件转换成hisat2-build能使用的文件:
extract_snps.py snp142Common.txt >genome.snp
因为我研究的物种还没有集合SNP信息的文件,我只能建立涵盖基因组+转录组的索引:
Hisat2提供两个Python脚本将GTF文件转换成hisat2-build能使用的文件,依次运行下面三个命令:
extract_exons.py *.gtf > genome.exon
extract_splice_sites.py *.gtf > genome.ss
hisat2-build genome.fa -p 10 --ss genome.ss--exon genome.exon /path/to/genome_snp_tran
最终生成的8个*.ht是我们比对时需要的索引文件:
三、Hisat2比对:
-x 指定索引文件所在路径及前缀
-p 线程数
hisat2输出文件为sam格式,sam文件格式比较大,通常会直接通过“|”传输给samtools转为bam文件,并对bam文件进行sort排序,以便后面处理(此步骤通过生信技能树-健明老师帖子进行改进,在此致谢)。
四、结果
结果会生成bam文件,为二进制格式,无法直接查看,可以导入IGV进行可视化,一般后面结果没有异常时,我不会去用IGV去看看比对结果去。而比对过程中的日志结果需要我们记录一下:
我的总体比对率是73.19%,是比较低的,人的话得90%以上才认为是比较好,我的是非模式生物,目前也只能先接受这个结果了,后面得想办法再优化。
参考
Kim, D., Paggi,J.M., Park, C. et al. Graph-based genome alignment andgenotyping with HISAT2 and HISAT-genotype. Nat Biotechnol 37,907–915 (2019). https://doi.org/10.1038/s41587-019-0201-4
http://www.360doc.com/content/21/0714/12/76149697_986501798.shtml
本文使用 文章同步助手 同步