- 很接近bowtie2与bwa
1. 基本流程
1.1. 建立参考基因组
1.2. 比对样本reads
1.3. 下游SAMtools/BCFtools分析
samtools view将SAM转化为BAM
samtools sort将BAM转化为sorted BAM
sorted BAM方便长期储存
samtools mpileup,bcf view产生VCF文件
2. 安装搭建
HISAT2:Download | HISAT2 (daehwankimlab.github.io)
- 下载后解压,转到当前目录后make
- HISTAT2可直接支持sra数据,需要安装NCBI-NGS,make并设置参数如下:
make USE_SRA=1 NCBI_NGS_DIR=/path/to/NCBI-NGS-directory NCBI_VDB_DIR=/path/to/NCBI-NGS-directory
- 将一下所有路径添加进PATH:hisat2, hisat2-align-s, hisat2-align-l, hisat2-build, hisat2-build-s, hisat2-build-l, hisat2-inspect, hisat2-inspect-s and hisat2-inspect-l
3. 函数的书写
函数类型:L线性、C常数、S平方根、G log
示例:L,-0.4,-0.6等同于f(x) = -0.4 + -0.6 * x、G,1,5.4等同于f(x) = 1.0 + 5.4 * ln(x)
4. indexer
短于4 billion nucleotides的参考序列,建立32-bit的small index,扩展名.ht2
较长时,建立64-bit的large index,扩展名.ht2l
wrapper scripts会自动区分处理两种index
running time 和 memory usage之间的平衡-p/--packed, --bmax/--bmaxdivn, 和 --dcv
4.1. 主要参数
4.2. 其他参数
- 涉及很多比对原理
--large-index:强制作large index
--dcv:difference-cover sample,越大,占内存越小,索引更慢
--nodc:difference-cover sample关闭
-r/--noref:不创建NAME.3.ht2 and NAME.4.ht2,bitpacked参考序列,主要用于双末端比对
-3/--justref:只创建NAME.3.ht2 and NAME.4.ht2
--localoffrate:为local index做标记
--localftabchars:为local index作ftab
--snp:提供snp信息(HISAT2自建的格式) - 网站提供了脚本从dbSNP file和 VCF file提取
--ss:提供splice site信息(HISAT2自建的格式) - 提供了脚本从GTF文件提取splice sites
--exon:提供exons信息(HISAT2自建的格式) - 提供了脚本从GTF文件提取exons
-h/--help:Print usage information and quit.
--version:Print version information and quit.
5. 比对
5.1. 主要参数(输入与输出)
-x:index file 不需加后缀
-1:read1 需要后缀
-U:unpaired reads
--sra-acc:sra accession number
-S:SAM output
5.2. 输入参数
5.3. 比对参数
5.4. 评分参数
--mp MX,MN:惩罚分数,默认6,2
--sp MX,MN:soft-clip惩罚分数,默认2,1
--rdg:read gap和extend惩罚,默认Default: 5, 3
--rfg:reference gap和extend惩罚,默认5, 3
--score-min: 输入函数,根据read长度设置valid比对的下限,默认L,0,-0.2
- bowtie2写的比较详细,建议去看一下
5.5. 剪切点(splice sites)惩罚
5.6. 报告参数
--max-seeds:seed-and-extend approaches,越大,运行越慢。默认值时maximum of 5 and -k为2
5.7. 双末端
5.8. 输出参数
-t/--time:输出wall-clock time
--un, --un-gz, --un-bz2:输出unpaired reads
--al, --al-gz, --al-bz2:输出unpaired reads that align at least once
--un-conc,--un-conc-gz,--un-conc-bz2:输出paired-end reads that fail to align concordantly
--al-conc,--al-conc-gz,--al-conc-bz2:输出paired-end reads that align concordantly at least once
--summary-file:alignment summary
--new-summary:alignment summary in a new style, which is more machine-friendly
5.9. SAM参数
--no-sq:不输出@SQ header
--rg-id:SAM添加@RG header
--rg:添加@RG header
5.10. 运行参数
--reorder:SAM ordered,会导致跑得慢
--mm:Use memory-mapped I/O to load the index, rather than typical file I/O
--seed:pseudo-random number generator,默认0
--version:Print version information and quit.
-h/--help:Print usage information and quit.
6. index inspector
--snp:Print SNPs, and quit.
--ss:Print splice sites, and quit.
--ss-all:Print splice sites including those not in the global index, and quit.
--exon:Print exons, and quit.
-v/--verbose:Print verbose output (for debugging).
--version:Print version information and quit.
-h/--help:Print usage information and quit.