Boyer-Moore字符串匹配

Boyer-Moore是一种快速的字符串匹配算法,它对目标字符串(模式串)进行倒序查找,并在字符串匹配失败时无需像暴力查找那样对整个模式串进行重新匹配,而是通过坏字符和好后缀计算滑动窗口,降低查询的时间复杂度。
如图:在 文本HERE IS A SIMPLE EXAMPLE中查找模式串EXAMPLE。Boyer-Moore算法(下文简称B-M算法)从模式串的最后一个位置开始与文本进行比较,模式串中的E与文本中的S不匹配,则称字符S为坏字符。


1.png

由于在一开始比较的时候,模式串和文本头部是对齐的。所以,此时文本的前7位字符不可能与模式串完全匹配,我们可以直接将模式串移动7位到文本S的后一位。如下图:


2.png

此时,文本中的P和模式串中的E不匹配,则P也是坏字符,但由于P字符同时出现在了模式串的第4位,于是将模式串右移2位,将两个P字符对齐。那么,通过坏字符进行移位的规则是什么呢,通过以上两次比较,总结出坏字符移位规则:

坏字符后移位数=坏字符在模式串中失配的位置-坏字符在模式串中上一次出现的位置
如果坏字符之前从未在模式串中出现,则位置默认为-1。比如:在第一次比较时,字符S出现在模式串的第6位,而在E字符左侧无字符S,即字符S从未在模式串中出现,则据计算规则得出模式串移动位数=6-(-1)=7。在第二次比较时,字符S的上一次出现是在模式串的第四位,则后移位数=6-4=2。


3.png

在将模式串中的P后移2位对齐后得到上图,此时从最后一位E开始比较:


4.png
  • 模式串字符E与文本字符E匹配,继续倒序比较


    5.png
  • 模式串字符L与文本字符L匹配,继续倒序比较


    6.png
  • 模式串字符P与文本字符P匹配,继续倒序比较


    8.png
  • 模式串字符M与文本字符M匹配,继续倒序比较


    9.png
  • 模式串字符A与文本字符I不匹配,I为坏字符
    此时,得到I为坏字符,而前面匹配成功的MPLE,PLE,LE,E则被称作好后缀。通过坏字符移位规则计算得到此时后移位数为2-(-1)=3位。那在这种部分字符有4位匹配的情况下,如果仅移动3位,显然移动后很可能最后一位仍然不匹配,那还有更好的移位方法么?

在此次的匹配中,我们得到了4个好后缀,在坏字符移位不够多的情况下,尝试计算好后缀的移位结果,选取最优解。好后缀的计算规则如下:

好后缀后移位数=好后缀的位置-好后缀在模式串中上一次出现时的位置
和坏字符类似,如果好后缀只出现一次,则其上一次出现位置为-1
好后缀的位置都指其最后一个字符在模式串中的位置
如有多个好后缀,则在计算时,除了最长的那个好后缀,其他好后缀必须出现在模式串头部中
以上文的好后缀MPLE,PLE,LE,E为例,接下来进行其好后缀移位计算:

MPLE,未出现,上一次出现位置为-1
PLE,未出现在头部,上一次出现位置为-1
LE,未出现在头部,上一次出现位置为-1
E,出现在头部,上一次出现位置为0
此处只能选取E进行好后缀计算,得到后移位数=6-0= 6位。而此时坏字符后移位数位3位,显然选用好后缀移位更多,此时选择好后缀后移,移动后,如下图:


12.png

此时,P字符失配,根据坏字符规则6-4=2位,后移2位,移位后效果如下图:


13.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342