生信分析学习笔记 - RNAseq (五) HISAT2回帖及评估

声明:本文部分内容和部分图片来源于网络。本文为生信小白学习笔记,不能保证专业名词和内容全部正确或权威。       

       下图为某一条RNAseq从数据预处理,序列回帖到数据可视化的工作流程,包含了较多的软件(Linux环境运行)和若干个包(R语言环境运行),本系列将按下图,对每一个步骤进行学习和理解。

某RNAseq分析流程

HISAT2

简介

       HISAT2是将下一代测序读段结果基于图比对到一组基因组(graph-based alignment of next generation sequencing reads to a population of genomes)。

       HISAT2是一种快速而灵敏的比对程序,可用于将下一代测序数据(包括DNA和RNA)比对到人类基因组和单个参考基因组上。基于图的BWT扩展,创造性地设计并完成了一个图FM索引(GFM)。除了使用一个代表全人类基因组的全球GFM索引,HISAT2使用大量小的GFM索引,这些索引共同覆盖了全基因组。这些小的索引(也被称为局部索引),与集中比对方式结合在一起,能够实现快速和准确的序列比对。这个新的索引方案被称为层次图片FM索引(HGFM)。

HISAT2工作原理

1. HISAT2应用了基于bowtie2的方法处理很多低水平的用于构建和查询FM索引的操作。(*)

2. 与其他比对器相比,HISAT2应用了两类不同的索引类型,代表全基因组的全局FM索引和大量的局部小索引,每个索引代表64000bp。

3. 以人类基因组为例,创建了48000个局部索引,每一个覆盖1024bp,最终可以覆盖这个3 billion碱基的基因组。这种存在交叉(overlap)的边界可以轻松的比对那些跨区域的read(可变剪切体)。

4. 尽管有很多索引,但是HISAT2可以把他们使用合适的方式进行压缩,最终只占4GB左右的内存。

模式

报告模式

       报告模式管理HISAT2寻找多少个比对以及如何报告它们。

通常,当我们说一个读段有一个比对,是指它有一个有效比对。当我们说一个读段有多个比对时,是指它有多个有效且彼此不同的比对方式。

       默认情况下,HISAT2会对5‘和3’端进行温和地剪切。

比对总结

当HISAT2完成运行,会输出运行结果。这些信息将输入到‘标准错误’(stderr)文件中。对包含未匹配读段地数据文件,HISAT2总结可能如下所示:


针对包含已匹配读段的数据文件,HISAT2总结如下所示:


Alignment rate越高表示HISAT2对该文件比对成功率越高。

索引大小

hisat2-build能够索引任何尺寸的参考基因组。对小于40亿个核苷酸长度的基因组,hisat2-build使用32位数字在索引的不同位置建立一个‘小’索引。当基因组更长,hisat2-build能够使用64位数字建立较大的索引。小索引保存在.ht2文件中,而大索引会保存在.ht21文件中。使用者无需担心特定的索引的尺寸,HISAT2中的包装脚本将自动生成并使用合适的索引。

性能调试

如果运行的电脑有多线程或多核,可以使用 -p

-p选项可以使HISAT2启动一定数量的并行搜索线程。每一个线程运行在一个不同的中央处理器或核中,而所有的线程并行地查找比对,将比对量提高了大概并行线程的倍数(虽然在现实中,加速有时比线性较差)。

HISAT2使用

主要参数

⚪ hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA accession number>} [-S <hit>]

1.  -x <hisat2-idx>

参考基因组索引的名字。该名称是任何索引文件的名称。HISAT2会首先寻找在现有文件中特定的索引,然后再在HISAT2_INDEXES指定地环境变量的目录中搜索。

2.  -1 <m1>

逗号分隔的文件列表包括了双端测序的文件1,例如,-1 flyA_1.fq,flyB_1.fq。使用此命令指定的文件-文件的顺序必须与<m2>读取-读取的顺序相一致。

3.  -2 <m2>

逗号分隔的文件列表包括了双端测序的文件2,例如,-2 flyA_2.fq,flyB_2.fq。对文件顺序的要求同上。

4.  -U <r>

逗号分隔的文件列表包含待比对的未成功匹配(unpaired)读段,例如,lane1.fq,lane2.fq,lane3.fq,lane4.fq

5. --sra-acc <SRA accession number>

逗号分隔的SRA登录号文件列表,例如,--sra-acc SRR353653,SRR353654

6. -s <hit>

写入SAM比对结果的文件。

选项

输入选项

比对选项

计分选项

拼接对齐选项

报告选项

双端测序选项

输出选项

SAM选项

性能选项

其他选项

具体选项见链接

HISAT2比对操作

HISAT2提供了一些示例文件,这些示例文件的结果并不具有科学意义,这些文件只供运行HISAT2和相应的下游分析。

首先是获取和安装HISAT2,并设置相应的环境变量到包含hisat2, hisat2-build和hisat2-inspect的HISAT2目录中。

比对实例读段

从HISAT2网站获取待分析物种参考基因组,下一步将待分析读段比对到参考基因组上。命令如下:

$HISAT2_HOME/hisat2 -f -x $HISAT2_HOME/example/index/22_20-21M_snp -U $HISAT2_HOME/example/reads/reads_1.fa -S eg1.sam

本例使用的是使用hisat2-build构建的索引文件(22_20-21M_snp)。这行命令将一组未配对的读段数据比对到索引上。比对结果被写入进eg1.sam文件中,同时,一段简短的比对总结被写入进console。

可使用下列语句查看SAM文件的前几行。

head eg1.sam

可能会得到下图类似的结果。

上图前几行(以@开始)是SAM文件表头行,其他行是SAM比对结果,每读段或每对读段一行。

双端测序比对

为了使用HISAT2比对双端测序数据,首先,需要需要进入相同更多目录然后运行以下命令:

$HISAT2_HOME/hisat2 -f -x $HISAT2_HOME/example/index/22_20-21M_snp -1 $HISAT2_HOME/example/reads/reads_1.fa -2 $HISAT2_HOME/example/reads/reads_2.fa -S eg2.sam

SAMtools转换文件格式

SAMtools是管理和分析SAM和BAM比对文件的一组工具,提供了一个可以方便转换SAM和BAM文件格式。在HISAT2软件进行序列比对后,可用SAMtools将SAM文件转换为BAM文件,命令如下:

samtools view -bS eg2.sam > eg2.bam

同时,SAMtools也可以转换为BAM文件的同时进行排序(版本需要1.2或更高)。命令如下:

samtools sort eg2.bam -o eg2.sorted.bam

对BAM进行排序时非常有用的,因为比对通常是压缩的,这对于长期存储是很方便的,同时,排序的BAM文件也有助于突变的发现。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容