KMP算法:详解

匹配

很简单,用next[x]表示前移数组。

// 伪代码
while(!complete()) {
    if(match(c[i], str[j]))
        i++,j++;
    else
        i = next[i];
}
return j+1-len(c);

next[i]的生成

匹配过程事实上非常简单,难的是next[x]的生成。

思路:用两个迭代器,递归思想。

记号:用c[x]表示待处理字符串,用next[x]表示前移数组。

朴素next生成算法

这样求出来的next[x]有以下性质:

  1. c[0]=>c[next[x-1]]的字符串匹配c[x-1-next[x-1]]=>c[x-1]的字符串
  2. next[x]是满足以上条件的最大值

从这一表达式可以看出,next[x]从数学上难以直观求解。

注:有人使用“前缀”“后缀”来表示1.条件,令人十分不习惯,还需要进一步翻译成数学语言,太不直接

使用两个迭代器i,k其中i在前,k在后。每一次迭代的结果是求出next[i+1]。上一次迭代之后,显然i=i+1k应当满足:

  1. 处于这样一个位置,即“从c[0]c[k]的字符序列完全匹配从c[i-k]c[i]的字符序列”。比如,"abab"k=2, i=4或者"aaaa"k=3,i=4。容易验证,空串(k=-1,i=0)满足这个状态。
  2. k是满足条件1.的最大可能值。

满足这一条件时,考虑next[i+1],可见直接让next[i+1]=k+1,我们便满足了next[x]的两条性质。且慢!这里要使递归进行下去,还要使末态满足下面两条性质。怎么做呢?

c[i+1]==c[k+1]是最皆大欢喜的事情。这时k=k+1自然满足条件。次好的事情是k==-1,如果c[i+1]==c[0]不满足,只要继续让k=-1就好了。不然的话怎么弄呢?需要减少匹配的字符数。本质上,这又是一个c与自己的匹配!这么考虑:“从c[0]c[k]的字符序列完全匹配从c[i-k]c[i]的字符序列”,c[i+1]==c[k+1]不满足。于是移动c,从下一个可能的匹配位置开始匹配,直到“从c[0]c[k']的字符序列完全匹配从c[i+1-k']c[i+1]的字符序列”.

// 循环内部
next[i+1]=k+1;
if(c[k+1]==c[i+1])
    k++;
else {
    if(k==-1)
        // 什么也不做
    else {
        k = k+1-KMP(c, c+i-k); // 伪代码,被匹配者最大到c+i+1
    }
}
i++;
// 上面伪代码事实上包括了特殊情况,自行验证一下!
// 循环内部
next[i+1]=k+1;
k = k+1-KMP(c, c+i-k);
i++;

我们试着把匹配过程写开。

next[i+1]=k+1;
m=0, n=0;
while(true) {
    if(c[m]==c[i-k+n]) {
        /* if(m>i) break; */ //不可能发生
        if(n>k+1) break; // n==k+2
        m++,n++;
    }
    else {
        m=next[m];
        if(m==-1) break;
    }
}
// k=k+1-((k+2)-(m+1))
k=m;
i++;

这种写法未免过于复杂。事实上,第一趟匹配中,c[0=>k]其实都是匹配好的。可以借此简化代码:

next[i+1]=k+1;
m=k+1, n=k+1;
while(m!=-1 && n<=k+1) {
    if(c[m]==c[i-k+n])
        m++,n++; // 事实上循环直接跳出了
    else
        m=next[m];
}
k=m;
i++;

我们发现变量n其实是多余的。

next[i+1]=k+1;
m = k+1;
while(m>=0 && c[m]!=c[i+1])
    m=next[m]; // k=next[k+1]-1
k=m;
i++;

m也是多余的。把上面的代码改写一下,成为如下简单形式:

while(k>=0 && c[k]!=c[i])
    k=next[k];
i++,k++;
next[i]=k;

优化的next生成算法

next数组满足的条件为:

  1. c[0]=>c[next[x-1]]的字符串匹配c[x-1-next[x-1]]=>c[x-1]的字符串
  2. c[x]!=c[next[x]]
  3. next[x]是满足以上条件的最大值

上面的算法脑抽了,要想匹配少,显然k越小越好。比如,要匹配"abababac",仅考虑前5位,next[5]应该为3. 但第6位b不匹配,第4位b也不可能匹配。这就其实可以进一步减小k的值,只需要加一个判断:

while(k>=0 && c[k]!=c[i])
    k=next[k];
i++,k++;
if(c[i]==c[k])
    next[i]=next[k];
else
    next[i]=k;

用数学归纳法可以证明,优化的这一算法生成的next[x]满足上面三点条件。

完整代码(C语言)

// KMP
#define MAX_LEN 50
typedef struct
{
    char c[MAX_LEN];
    int n;
} SeqString, *pSeqString;

void makeNext(pSeqString p, int next[])
{
    int i = 0, k = -1;
    next[0] = -1;

    while (i < p->n - 1)
    {
        while (k >= 0 && p->c[i] != p->c[k])
            k = next[k];
        i++;
        k++;
        // next[i] = k;
        if (p->c[i] == p->c[k])
            next[i] = next[k];
        else
            next[i] = k;
    }
}

int pMatch(pSeqString t, pSeqString p, int next[])
{
    int i = 0, j = 0;
    while (i < p->n && j < t->n)
        if (i == -1 || p->c[i] == t->c[j])
        {
            i++;
            j++;
        }
        else
            i = next[i];
    if (i >= p->n)
        return (j - p->n + 1);
    else
        return 0;
}

扩展

KMP算法的匹配,思想和“状态机”有一定的相似性。两个迭代器对应的字符进行比较,失败则改变一下“状态”,改变的方式由next[x]数组定义。KMP算法的一种进阶形式是AC自动机算法,可以处理更加复杂的多维匹配问题。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,755评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,305评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,138评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,791评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,794评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,631评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,362评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,264评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,724评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,900评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,040评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,742评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,364评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,944评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,060评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,247评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,979评论 2 355

推荐阅读更多精彩内容

  • 字符串匹配KMP算法详解 1. 引言 以前看过很多次KMP算法,一直觉得很有用,但都没有搞明白,一方面是网上很少有...
    张晨辉Allen阅读 2,404评论 0 3
  • KMP算法是解决字符串匹配的常用算法之一,也就是在主串(比如aabbccdd)中的子串(bc)定位问题。子串称为P...
    激情的狼王阅读 1,022评论 0 1
  • 原链接:KMP算法详解|CloudWong 传统的字符串匹配模式(暴力循环) 子串的定位操作通常称作串的串的匹配模...
    简Cloud阅读 3,913评论 1 22
  • 我们在做一件事情的时候总爱把困难无限的放大,其实真正做了就会发现“其实并没有我们想象中那么难” 我本人年龄不少了,...
    随心远行_67ad阅读 289评论 0 0
  • 一开始,我们会写明信片,寄给某个在远方的亲友。 无论是从旅途寄回故乡,或从自家寄往异乡,明信片多半是挥手招呼的姿态...
    brosharp阅读 614评论 0 3