KMP 字符串匹配算法

KMP(Knuth-Morris-Pratt) 算法是一种常见的字符串匹配算法,在主字符串 S 中查找字符串 M 出现的起始位置,通过 M 的自身信息来减少无效的查询次数。

下面以 S: ABDCABDFABDCABDEM: ABDCABDE 来演示匹配过程:

其中 i 表示扫描的 S 的字符位置,j 表示扫描的 M 的字符位置,n 表示匹配的字符串长度

普通匹配

普通匹配的过程为,从 S 的第一个字符开始的 len(M) 个字符串与 M 进行匹配,如果匹配成功则返回位置,如果不成功则从 S 的第二个字符开始的 len(M) 个字符串与 M 进行匹配,循环向后进行匹配判断,直到剩余的字符串长度小于 len(M),返回匹配失败。

  • 从 S 的第一个字符开始进行逐个扫描对比:

此时匹配的长度 n 为 7, i 指向的值 F 和 j 指向的值 E 不同

  • 回退 i 从 S 的第二个字符开始进行逐个扫描对比:

...

  • 从 S 的第五个字符开始进行逐个扫描对比:

采用这种方式最终也可以找到 M 匹配 S 中的位置,但是该方式的匹配过程中可能存在多次的回退,即 i 指向位置的字符与 M 的字符不匹配时,若已匹配长度 n 不为 0,则 i 需要回退 (n-1) 个位置,从已比较过的字符开始重新逐个比较。

KMP算法

在了解KMP算法之前,首先看两个貌似无关的概念:前缀和后缀。前缀是指除最后一个字符或多个字符的字符串组合,后缀是指除第一个字符或多个字符的字符串组合。示例:

对于字符串:ABCAB,其前缀为 (A,AB,ABC,ABCA),后缀为 (B,AB,CAB,BCAB)。取前缀和后缀中重复字符串的最大长度作为部分匹配长度。这里最长的重复字符串为:AB,即部分匹配长度为 2。

不妨以 len() 表示取字符串长度的函数。由概念可知,对于字符串 T,若其前缀和后缀的最长重复字符串为 PM,则 PM 完全匹配 T 的开头 len(PM) 个字符串,且完全匹配 T 的结尾 len(PM) 个字符串。即 PM 可以在字符串 T 中"滑动"匹配,"滑动"的长度为 len(T)-len(PM)。例如 T:ABCAB, PM:AB,则 PM "滑动"的长度为 5-2=3,即 AB 滑动 3 个字符后仍然完全匹配。

KMP算法中查找 M 在 S 中位置,在匹配过程中,通过分析 M 与 S 的已匹配字符串信息来避免回退现象,过程如下:

  • 从 S 的第一个字符开始进行逐个扫描对比:

此时匹配的长度 n 为 7, i 指向的值 F 和 j 指向的值 E 不同

此时已匹配的字符串为 T:ABDCABD,长度为 7,由之前的概念可知,该字符串的部分匹配长度为 3,即字符串 PM:ABD 的长度。且字符串 ABD 滑动 7-3=4 个字符后仍然完全匹配 T 的结尾,即字符串 M 向右滑动 4 个字符,仍然存在 T:ABD 为已匹配字符串。

  • 保持 i 指向的位置不变,将 M 右移 4 个字符继续进行扫描对比:

此时已匹配的字符串为 T:ABD,长度为 3, 部分匹配长度为 0,则下一步可以向右滑动 3-0=3 个字符。

  • 保持 i 指向的位置不变,将 M 右移 3 个字符继续进行扫描对比:

...

KMP 算法保证了 i 指向的 S 中位置不需要进行回退,可以减少无效的回退造成的性能浪费。在实际代码中不存在将 M 右移 len(T)-len(PM) 个字符的操作,可以直接更新 j 的值为 len(PM) 即可,指向待比较的字符位置。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容

  • KMP字符串匹配算法的实现 暴力查找 这是最简单的一种字符串匹配算法: 使用一个指针 i 跟踪目标文本 txt, ...
    芒果菠萝蛋炒饭阅读 694评论 0 0
  • 为什么要写KMP字符串匹配算法呢?因为近段时间在补数据结构和算法,然后重拾大学的《大话数据结构》,记录一下学习的进...
    一剑孤城阅读 4,328评论 0 8
  • 今天看了kmp算法,最开始看得特别混乱,最后终于看明白了,想记录一下。https://github.com/hym...
    不会code的程序猿阅读 965评论 0 4
  • KMP算法是非常高知名度字符串匹配算法,也非常的牛P,具体在哪呢?这个算法每次我想起来的时候,我就要看一遍,自信的...
    NewFinalNull阅读 401评论 1 2
  • 我就是那传说中的田螺姑娘吧,樊不二你觉得呢,哇哈哈…
    yoyo岛阅读 291评论 2 0