【块】生信上游-4 HISAT2

很接近bowtie2与bwa

1. 基本流程

1.1. 建立参考基因组
hisat2-build
可为UCSC、NCBI、Ensembl等来源的fasta文件，多个文件以逗号分隔
1.2. 比对样本reads
hisat2
输出为SAM文件
1.3. 下游SAMtools/BCFtools分析
samtools view将SAM转化为BAM
samtools sort将BAM转化为sorted BAM
sorted BAM方便长期储存
samtools mpileup，bcf view产生VCF文件

2. 安装搭建

下载链接：
HISAT2：Download | HISAT2 (daehwankimlab.github.io)
NCBI-NGS：https://github.com/ncbi/ngs/wiki/Downloads

下载后解压，转到当前目录后make
HISTAT2可直接支持sra数据，需要安装NCBI-NGS，make并设置参数如下:

make USE_SRA=1 NCBI_NGS_DIR=/path/to/NCBI-NGS-directory NCBI_VDB_DIR=/path/to/NCBI-NGS-directory

将一下所有路径添加进PATH：hisat2, hisat2-align-s, hisat2-align-l, hisat2-build, hisat2-build-s, hisat2-build-l, hisat2-inspect, hisat2-inspect-s and hisat2-inspect-l

3. 函数的书写

一些选项的参数不是常数，而是输入一个函数。所以有特定的函数表达方式如下：
参数：F、常数：C、系数：A
函数类型：L线性、C常数、S平方根、G log
示例：L,-0.4,-0.6等同于f(x) = -0.4 + -0.6 * x、G,1,5.4等同于f(x) = 1.0 + 5.4 * ln(x)

4. indexer

短于4 billion nucleotides的参考序列，建立32-bit的small index，扩展名.ht2
较长时，建立64-bit的large index，扩展名.ht2l
wrapper scripts会自动区分处理两种index
running time 和 memory usage之间的平衡-p/--packed, --bmax/--bmaxdivn, 和 --dcv
hisat2-build会自动选择时间和内存的平衡点，-a/--noauto可取消
4.1. 主要参数
-f：<reference_in>：逗号分隔的fasta文件，-c输入序列
<ht2_base>：indexer输出文件
4.2. 其他参数

涉及很多比对原理
--large-index：强制作large index
-a/--noauto：自动选择下面两个参数
--bmax：一个格子里更多序列
--bmaxdivn：一个格子里更多参考组百分比
--dcv：difference-cover sample，越大，占内存越小，索引更慢
--nodc：difference-cover sample关闭
-r/--noref：不创建NAME.3.ht2 and NAME.4.ht2，bitpacked参考序列，主要用于双末端比对
-3/--justref：只创建NAME.3.ht2 and NAME.4.ht2
-o/--offrate：在不同的基因位置做标记，越大速度越快，内存占的越大。默认4
-t/--ftabchars：为基因位置作ftab，越大速度越快，内存越大。默认10
--localoffrate：为local index做标记
--localftabchars：为local index作ftab
-p：多线程，默认1
--snp：提供snp信息（HISAT2自建的格式）
网站提供了脚本从dbSNP file和 VCF file提取
--haplotype：提供haplotype信息（HISAT2自建的格式），上述脚本也可用
--ss：提供splice site信息（HISAT2自建的格式）
提供了脚本从GTF文件提取splice sites
--exon：提供exons信息（HISAT2自建的格式）
提供了脚本从GTF文件提取exons
--seed
--cutoff：忽略参考组的前几个碱基
-q/--quiet：只报错
-h/--help：Print usage information and quit.
--version：Print version information and quit.

5. 比对

HISAT2默认会soft-clip，即将一些5端与3端的碱基惩罚降低。
--sp设置惩罚值，--no-softclip可取消soft-clip
5.1. 主要参数（输入与输出）
-x：index file 不需加后缀
-1：read1 需要后缀
-2：read2
-U：unpaired reads
--sra-acc：sra accession number
-S：SAM output
5.2. 输入参数
-q：输入是fastq
-qseq：输入是qseq文件
-f：fasta文件
-r：一个序列一个文件
-c：命令行直接输入，逗号分隔序列
-s/--skip：跳过一定reads
-u：仅比对一定reads
-5：5端切碱基
-3：3端切碱基
--phred33：碱基质量格式
--phred64：碱基质量格式
--solexa-quals：Solexa转为phred
--int-quals：数字格式质量分数
5.3. 比对参数
--n-ceil：输入函数，根据read长度设置N上限，默认L,0,0.15
--ignore-quals：计算mismatch惩罚时，默认忽视该碱基的质量分数
--nofw/--norc：
5.4. 评分参数
--mp MX,MN：惩罚分数，默认6，2
--sp MX,MN：soft-clip惩罚分数，默认2，1
--no-softclip：
--np：N惩罚，默认1
--rdg：read gap和extend惩罚，默认Default: 5, 3
--rfg：reference gap和extend惩罚，默认5, 3
--score-min：输入函数，根据read长度设置valid比对的下限，默认L,0,-0.2

bowtie2写的比较详细，建议去看一下
5.5. 剪切点（splice sites）惩罚
5.6. 报告参数
-k：报告k个比对序列，值得注意的是HISAT2的匹配并非匹配到最优匹配，仅仅是找到较合适的匹配
--max-seeds：seed-and-extend approaches，越大，运行越慢。默认值时maximum of 5 and -k为2
-a/--all：报告所有比对结果，等同于--max-seeds、-k均设置为最大值
5.7. 双末端
-I/--minins：最短匹配长度
-X/--maxins：最长匹配长度，与-X差别越大，运行越慢，因为需要更细致的比对
--fr/--rf/--ff：定义双末端匹配方式，--fr为默认，较适合Illumina
--no-mixed：默认若找不到paired匹配，则为单末端寻找匹配，该选项可取消
--no-discordant：默认为双末端各自寻找匹配，该选项可取消
5.8. 输出参数
-t/--time：输出wall-clock time
--un, --un-gz, --un-bz2：输出unpaired reads
--al, --al-gz, --al-bz2：输出unpaired reads that align at least once
--un-conc,--un-conc-gz,--un-conc-bz2：输出paired-end reads that fail to align concordantly
--al-conc,--al-conc-gz,--al-conc-bz2：输出paired-end reads that align concordantly at least once
--quiet：不输出
--summary-file：alignment summary
--new-summary：alignment summary in a new style, which is more machine-friendly
--met-file
--met-stderr
--met
5.9. SAM参数
--no-unal：不输出没比对上的序列
--no-hd：不输出header
--no-sq：不输出@SQ header
--rg-id：SAM添加@RG header
--rg：添加@RG header
--remove-chrname：去除‘chr’这三个字母
--add-chrname
--omit-sec-seq
5.10. 运行参数
-p：多线程
--reorder：SAM ordered，会导致跑得慢
--mm：Use memory-mapped I/O to load the index, rather than typical file I/O
--seed：pseudo-random number generator，默认0
--version：Print version information and quit.
-h/--help：Print usage information and quit.

6. index inspector

提取index的信息，以及参考组信息
-a/--across：每行多少个碱基
-n/--names：输出参考序列名
-s/--summary：输出参考序列信息
--snp：Print SNPs, and quit.
--ss：Print splice sites, and quit.
--ss-all：Print splice sites including those not in the global index, and quit.
--exon：Print exons, and quit.
-v/--verbose：Print verbose output (for debugging).
--version：Print version information and quit.
-h/--help：Print usage information and quit.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,189评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,577评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,857评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,703评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,705评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,620评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,995评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,656评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,898评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,639评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,720评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,395评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,982评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,953评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,195评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,907评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,472评论 2赞 342