比对软件BWA(Burrows-Wheeler Aligner)

BWA (Burrows-Wheeler Aligner)

BWA主要是将reads比对到大型基因组上,主要功能是:序列比对。首先通过BWT(Burrows-Wheeler Transformation,BWT压缩算法)为大型参考基因组建立索引,然后将reads比对到基因组。特点是快速、准确、省内存。由三种类似算法组成:BWA-backtrack,BWA-SW和BWA-MEM。首推BWA-MEM。

三种算法的适用范围

  • BWA-backtrack:reads长度<70bp时,推荐本算法,建议输入reads长度 < 100bp。
  • BWA-SW:在reads具有频繁的gap时,比对更敏感,推荐本算法。reads长度一般为70bp-1Mbp,支持long-reads,split alignment。
  • BWA-MEM(首推):在reads长度在70bp-1Mbp范围时,推荐本算法(除了上面两种情况)。支持long-reads,split alignment。

语法

  • bwa index ref.fa #首先建立基因组索引
  • bwa mem ref.fa reads.fq > aln-se.sam # 调用BWA-MEM
  • bwa mem ref.fa read1.fq read2.fq > aln-pe.sam # 调用BWA-MEM
  • bwa aln ref.fa short_read.fq > aln_sa.sai # 调用BWA-backtrack
  • bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam # 调用BWA-backtrack
  • bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam # 调用BWA-backtrack
  • bwa bwasw ref.fa long_read.fq > aln.sam # 调用BWA-SW
  • 注意:BWA输入的是fastq/fq的原始测序数据。

BWA参数

SAM格式

short-reads比对

  • 比对精度
  • 评估插入长度分布
  • 比对速度
    比对速度很大程度取决于请求序列的错误率(r)。当接近完全匹配时,BWA速度最快。当允许多个失配时,BWA需要寻找更多的候选位点。允许太多失配时,不建议采用BWA。

BWA-0.6的改变

0.6版本以来,BWA可以处理长度在4G以上的基因组。这样有可能将正负链互补的基因组序列整合到一个索引(FM-index)中去,可以使BWA-short和BWA-SW更快。
最新版本BWA-SW同样可以处理长度大于100bp的pair-end reads。与BWA-short相比,BWA-SW对高度唯一的reads准确性更高和相对更长的插入与结构突变时更稳健。尽管如此,从许多次优比对中选取最优比对时,BWA-short更好。

其他情况

  1. 一个read有多部分匹配
    BWA-MEM / BWA-SW可以报告单个reads分段比对到基因组上不同位置。在结构变异,基因融合或参考序列错误组合等情况下,多部分比对是可能的。这需要后续分析。可使用选项'-M'将附加匹配标记为次要。
  2. BWA是否可以发现嵌合reads(chimeric reads)?
    是的,BWA-SW和BWA-MEM都能找到嵌合reads。 BWA通常为每次读取报告一个比对,但如果read/config是嵌合reads,则可以输出两个或多个比对。(我想:应与上面的1相同)
  3. BWA是否分析SNP?
    不,BWA只比对。其SAM格式输出结果,可通过如samtoolsGATK分析SNP。
  4. paired-end数据中一条reads具有很高的比对质量(high mapping quality),另一条是0
    这是对的。比对质量是分配给单个read,而不是读read pair。
  5. BWA是否能处理长度超过4GB的参考序列?
    是。自0.6.x以来,所有BWA算法都可以处理总长度超过4GB的基因组。但是,单个染色体不应超过2GB。
  6. 测序错误的容忍度是多少?
    Bwa-back主要为reads错误率小于2%而设计。可通过命令行参数调整算法对错误率的容忍度,但其性能会迅速降低。对于Illumina读取,bwa-backtrack可以在比对前将3'端低质量碱基修剪,3'尾部有高错误率的很多reads能够完成比对,这是Illumina数据的典型特征。
    BWA-SW和BWA-MEM在给定较长对准的情况下都容忍更多的错误。仿真表明,如果100bp对齐误差为2%,200bp误差为3%,500bp误差为5%,1000bp或更长对齐误差为10%,则仿真结果可能会很好。
  7. 有reads比对出染色体末端,并被标记为未映射(标志0x4)。这里发生了什么?
    BWA内部实现时,会将所有参考序列先连接成一个长序列。reads可以被映射到两个相邻参考序列的交点。在这种情况下,BWA会将读取标记为未映射,不过你会看到位置,CIGAR和所有标记。一个更好的解决方案是选择一个替代的位置或者调整最终的比对方式,但是这在编程中非常复杂,目前尚未实现。

本文主要参考BWA官方说明文档BWA手册

Published Articles:

  • The short read alignment component (bwa-short) has been published:
    Li H. and Durbin R. (2009) Fast and accurate short read alignment with Burrows-Wheeler Transform. Bioinformatics, 25:1754-60. [PMID: 19451168]
  • If you use BWA-SW, please cite:
    Li H. and Durbin R. (2010) Fast and accurate long-read alignment with Burrows-Wheeler Transform. Bioinformatics, Epub. [PMID: 20080505]
  • If you use the fastmap component of BWA, please cite:
    Li H. (2012) Exploring single-sample SNP and INDEL calling with whole-genome de novo assembly. Bioinformatics, 28, 1838-1844. [PMID: 22569178]
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335