KMP

看数据结构的书，字符串章节提到这个字符串匹配的算法。结果一看，真是比较难理解，不愧是三个人想出来的算法，以三个人的名字命名这个算法KMP。书上讲的也是看不明白，只能上网搜搜比较通俗易懂的回答。结果大部分都是复制粘贴，提到递归什么的，越看越糊涂，估计作者自己都不明白。后来还是在知乎上看到一个点赞数比较多的，结果一看，讲的不错。知乎不愧是程序员用户比较多的平台，大神就是吊。
自己看了看，想了想，动手抄一遍，运行一下，加深记忆理解。

原文地址：链接

直接开始废话，也都是抄这位作者的，只是为了自己写一遍

一、问题：定位出一个字符串在另一个字符串中完全匹配的位置。

比如目标字符串：abcabcdee 主字符串：xyzabcabcdeezzz
明显一看，结果就是3。在第3位置的a开始匹配到最后。
如果用朴素方法，直接遍历，两个字符串挨个对比，如果不匹配，目标字符串从头开开始，主字符串回到上次匹配位置的下一个位置。每次不匹配的时候，都需要从头开始。最差情况下，主字符串从头到最后，目标字符串每次都是到最后一个字符不匹配，所以时间复杂度就是O（m*n）。

二、朴素方法的弊端

朴素方法每次匹配失败的时候都要从头开始，比如匹配到第6个字符失败了，如果知道了失败了的位置之前到字符串，也就是前5个字符的前缀和后缀的交集，就可以从这个交集长度的位置开始下次匹配了，这样，目标字符串不用从0开始，主字符串也不用回溯到上一次开始的地方了。就节省了很多步。

三、字符串前缀和后缀的交集

前缀：一个字符串的子字符串，确保包含第一个字符，但不包含自身。
后缀：一个字符串的子字符串，确保包含最后一个字符，但不包含自身。
比如：abab
前缀集合：a、ab、aba。后缀集合：b、ab、bab。
所以集合的交集是ab。交集可能不止一个。需要的是最大长度。
有了前后缀交集的长度，说明可以重叠着么长，既然都重叠了，说明前面重叠部分不需要对比了，直接从重叠的下一个位置开始就行了。

KMP的关键就是求目标字符串每个位置的前后缀交集里最大长度。

四、部分匹配表

比如：字符串“abababca”

匹配数组.jpg

首先，对于这个数组，最后一个位置的值是用不上的。因为这个表的用处是在匹配失败的时候需要回溯，回溯位置是前面子字符串的表值+1。
比如目标这个字符串长度是8，匹配到位置6失败了，这时候需要回溯到前5个子字符串，第5位置的值是2，这时候需要回溯到3。从3位置的字符开始接着匹配。
妈的，乱七八糟，说不清。
所以真正用到的值是当前位置前一个位置的表值，最有一个位置的值只能在全部匹配完的时候才用到，但是全部匹配完意味着匹配成功，找到结果了，更用不上它了。所以最后一个值没什么卵用。
而且为了编程方便，就把每个位置对应的值往后推了一格，把最后一个扔了，反正也用不上，第一个空了出来，用-1代替。所以一般叫next数组。匹配失败的时候，回溯位置也不用上一个位置的值+1了，直接就是自己位置对应的值了。

void getNext(char *p, int *arr) {
    
    int i = 0;
    int j = -1;
    arr[0] = -1;
    
    while (i < strlen(p)-1) {
        if (j == -1 || p[i] == p[j]) {
            I++;
            j++;
            arr[i] = j;
        }else{
            j = arr[j];
        }
    }
}

跟着流程走一下，可以发现，这个匹配表的前两位固定是-1、0

寻找过程.jpg

i的位置表示自己的后缀字符串，j表示前缀字符串。
这里比较绕，说不清，真鸡儿难。该睡觉了。

KMP

int kmpMethod(char *str, char *target, int *next) {
    
    int i = 0;
    int j = 0;
    
    while (i < strlen(str) && j < (int)strlen(target)) {
        if (j == -1 || str[i] == target[j]) {
            I++;
            j++;
        }else{
            j = next[j];
        }
    }
    
    if (j == strlen(target)) {
        return i - j;
    }
    
    return -1;
}

匹配成功，各自往后走，各个位置+1。
如果匹配失败，就找当前位置的前面子字符串的匹配表的值，意味找最大重合部分，如果有重合部分，就不用比较前面的了，直接从重合部分开始比较后面的。如果当前位置前面子字符串值是0，意味着没有重合部分，就缩小范围，寻找上一个子字符串的前后缀重合部分，有的话就开始匹配，没有的话，就接着寻找上上一个，直到值是-1，意味着当前位置前面的子字符串没有一个完全没有重叠的部分，就只能从头开始，就各自+1，目标字符串从头开始了，回溯到0，主字符串是一直往后走的，不回溯。
注：strlen得到无符号整型，j的值是-1的时候，会出现-1>无符号数值的问题，所以需要用int强转一下。

说不明白，哈哈。总的来说KMP算法过程容易理解，求部分匹配表那个算法比较难理解。反正这阵子睡眠不好，刚好记录一下。想看的时候直接来简书看，方便。

最后编辑于：2019.09.29 08:20:27

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342

KMP

原文地址： 链接