浅入浅出KMP算法

在看算法基础书籍时,看到KMP算法的解释是用的DFA(有限状态自动机),看的我一脸懵逼。所以,就去网上搜索有没有更容易理解的方式去实现KMP算法。

看了很多篇,感觉下面这篇博文讲的比较清楚,但是也花了我挺长时间去看懂的。(好吧好吧,智商不足=_=)

KMP,深入讲解next数组的求解

后面经过自己的思考总结,在这里记录一下自己对KMP算法的理解和实现。


KMP算法的原理

关于KMP算法的原理,上面给出的链接里写的很详细了,这里简要的说一下。

假如在字符串 "ABCDABEFABCDABDE" 要查找 "ABCDABD" 的话,当我们遍历匹配到最后一个字符D的时候:

ABCDAB E FABCDABDE      
ABCDAB D

发现不匹配的时候,按照最容易想到的暴力算法,应该是往后移一位,再重新从头开始进行比较:

A B C D A B E F ABCDABDE      
  A B C D A B D

显然,这些一位一位的往后移的比较是没有意义的,我们通过观察就能知道,应该直接往后移4位,让子字符串里的开头两个字符 AB 对齐原字符串,再从第三个字符 C 开始比较:

A B C D A B E F A B C DEABDE      
        A B C D A B D

所以重点是如何利用子字符串自己本身自带的这些信息来帮助我们跳过一些不必要的比较。下面来分析一下 "ABCDABD" 这个字符串的特点。

  • 假如我们在原字符串查找 "ABCDABD" 的第1个字符 A 就发现不匹配,那不用说,直接往后移1位。

  • 假如匹配到了 "ABCDABD" 的第2个字符 AB 发现不匹配,那还是直接往后移1位。

  • 假如匹配到了 第3,4,5个字符 ABCDA 发现不匹配,也没有可利用的条件,那还是直接往后移1位。

  • 当我们匹配到了 "ABCDABD" 的第6个字符 "ABCDAB" 的时候,发现不匹配,但是,前5个字符 "ABCDA" 是已经匹配成功了的,并且结尾的字符A与开头的字符A重复了.显然我们可以移动4位,让开头的字符A与结尾的字符A对齐,再比较后面的字符是否和原字符串匹配。如下所示:

原字符串:ABCDA X???????
子字符串:ABCDA B                //B与X不相等

结尾与开头重复字符数量:1,移动4位变成

原字符串:ABCDA X ???????
子字符串:    A B CDA B          //是不是发现移动后,还是比较B和X是否相等?这里是不是可以改进?(现在请忽视)
  • 当我们匹配到了第7个字符 "ABCDABD" 的时候,发现不匹配,而前6个字符 "ABCDAB" 是已经匹配成功了的,这时我们可以还是移动4位,让开头的字符AB与结尾的字符AB对齐,再比较后面的字符C是否和原字符串后面的字符相匹配。如下所示:
原字符串:ABCDAB ???????
子字符串:ABCDAB D

结尾与开头重复字符数量:2,移动4位变成:

原字符串:ABCDAB ? ??????
子字符串:    AB C DABD     //直接比较第3位的C是否和原字符串的?是否相等

说到这里,其实我们想要解决的问题就是:

在匹配失败的时候,怎么根据已经匹配过的字符的信息来决定往后移动多少位再重新进行匹配?

所以,我们接下来要做的事就是将上面对"ABCDABD"子字符串进行分析的过程总结出一个规律来,这也是部分匹配表的由来。如下图所示:

部分匹配值

部分匹配值也就是结尾字符与开头字符相等的数量,比如"ABCDAB"部分匹配值就是2,"AB"是重复的。并且可以推断出

移动位数 = 已匹配的字符数 - 对应的部分匹配值

将这些部分匹配值存到数组里,则变成了next数组。


next数组的求解思路

next数组的求解的关键思想在于:

利用前面的next值去求下一个next值

举个栗子:

如果next[i-1]对应的字符串是"ABABCABAB",此时next[i-1] = 4,代表最后4个字符"ABAB"和前4个字符是重复的。

  1. 假如next[i]对应的字符串是"ABABCABABC",即最后一个字符"C"跟上一次匹配成功的字符"ABAB"的下一个字符"C"相等,则匹配值在原来的next值上+1,即 next[i] = next[i-1]+1

  2. 假如next[i]对应的字符串是"ABABCABABD",即最后一个字符"D"跟上一次匹配成功的字符"ABAB"的下一个字符"C"不相等,我们可以观察出来匹配值next[i] = 0。那是不是意味着求next[i]的值只要看A[i]A[next[i-1]]是否相等就能得出next[i]的值是next[i-1]+1或者是0了呢?

  3. 假如next[i]对应的字符串是"ABABCABABA",最后一个字符"A"跟上一次匹配成功的字符"ABAB"的下一个字符"C"也不相等,但我们能观察的出来匹配值next[i] = 3而不是0。这里面藏着什么猫腻呢?

实际上,next[i-1]里保存的是i-1位置的最长公共前缀后缀的长度,比如字符串ABABCABAB,最长公共前缀后缀长度为4,也就是ABAB。但AB也是它的公共前缀后缀,只不过不是最长的罢了。所以,在上述的情况3中,当最后一个字符A匹配不成功时,我们还可以抢救一下它,退而求其次。既然想找理想的最长的公共前缀后缀失败,那就期望一下稍短一些的公共前缀后缀去匹配,那具体是去匹配多长的字符呢?

对于位置i-1而言,公共前缀后缀的长度依次为:next[i-1], next[next[i-1]-1], next[next[next[i-1]-1]-1]......

还是以ABABCABAB为例,next[8] = 4, 最长公共前缀后缀为ABABnext[next[8]-1] = next[3] = 2,次长公共前缀后缀为ABnext[next[3]-1] = next[1] = 0,说明最短的公共前缀后缀就是AB了,长度为2。

代码如下:

 public static int[] getNext(String pattern) {
        int N = pattern.length();
        int next[] = new int[N + 1];
        next[1] = 0;//显然字符串的第1个字符的最大前后缀长度为0
        int k =0;//最大公共前后缀长度
        for (int i = 1; i < N; i++) {
            while(k > 0 && pattern.charAt(i) != pattern.charAt(k))
                k = next[k-1];
           if(pattern.charAt(i) == pattern.charAt(k)){
               k++;
           }
            next[i] = k;
        }
        return next;
    }

上面代码里可能最难理解的就是for循环里的那个while循环了。其实这个while循环就是
上面所述的去匹配公共前缀后缀的过程,如果最长next[i-1]长度的没匹配到,就匹配稍短一点的next[next[i-1]-1],还没匹配到,就匹配更短一点的next[next[next[i-1]-1]-1]......直到实在是找不到公共前缀后缀了,也就是长度为0的时候,就跳出循环了。


KMP算法实现

先直接贴代码:

   /**
     * 在original字符串里查找子字符串find的位置
     * @param original 原始字符串
     * @param find 待匹配字符串
     * @return 查找成功则返回匹配的首字符索引位置,否则返回-1
     */
    public static int indexOf(String original, String find) {
        int next[] = getNext(find);
        int j = 0;
        for (int i = 0; i < original.length(); i++) {
            while (j > 0 && original.charAt(i) != find.charAt(j))
                j = next[j-1];
            if (original.charAt(i) == find.charAt(j))
                j++;
            if (j == find.length()) {
                return i - j + 1;
            }
        }
        return -1;
    }

上面代码里可能最不容易理解的就是内部的while循环了:

while (j > 0 && original.charAt(i) != find.charAt(j))
                j = next[j];

其实这个过程就是在根据部分匹配值来移动子字符串find的比较位置,跟我们最开始分析KMP原理的步骤是一样的。同样的,我们还是来举个栗子:

假如原字符串original是AACDABEAACDAADEF,待匹配的子字符串find是AACDAAD

在依次匹配字符的过程中,当i=5, j=5时,出现第一次不字符不匹配:

original.charAt(5) != find.charAt(5) //即 'B' != 'A'

AACDA B EAACDAADEF
AACDA A D

这时执行循环里的语句,j = next[j] = next[5] = 1; 这就意味着再次比较original.charAt(i) != find.charAt(j)的时候,变成了下面这样:

AACDA B EAACDAADEF
    A A CDAAD   // j=1,find.charAt(j) = 'A'

这就意味着将子字符串往后移动了4位,即移动位数4 = 已匹配的字符数5 - 对应的部分匹配值1

好的,KMP算法就到此结束了。~(~ ̄▽ ̄)~

更多思考

在前面移位的时候,我们举的栗子如下:

原字符串:ABCDA X???????
子字符串:ABCDA B                //B与X不相等

结尾与开头重复字符数量:1,移动4位变成

原字符串:ABCDA X ???????
子字符串:    A B CDA B         //是不是发现移动后,还是比较B和X是否相等?

可能大家看到这个栗子的时候也有点奇怪,既然移动后,还是比较B和X,可我们在移动前就已经比较过了,是不相等的。所以这里是不是可以再往后多移2位?

也就是说这里不用匹配成功了的ABCDA的匹配值1,而是使用当前匹配失败了的ABCDAB的匹配值2?当然了,更多细节问题也需要考虑在内的,这只是我的一点个人想法,欢迎大家提出自己的看法、

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容