详解编辑距离(Edit Distance)及其代码实现

概述

编辑距离（Minimum Edit Distance，MED），由俄罗斯科学家 Vladimir Levenshtein 在1965年提出，也因此而得名 Levenshtein Distance。

在信息论、语言学和计算机科学领域，Levenshtein Distance 是用来度量两个序列相似程度的指标。通俗地来讲，编辑距离指的是在两个单词 $<w_1,w_2>$ 之间，由其中一个单词 $w_1$ 转换为另一个单词 $w_2$ 所需要的最少单字符编辑操作次数。

在这里定义的单字符编辑操作有且仅有三种：

插入（Insertion）
删除（Deletion）
替换（Substitution）

譬如，"kitten" 和 "sitting" 这两个单词，由 "kitten" 转换为 "sitting" 需要的最少单字符编辑操作有：

1.kitten → sitten (substitution of "s" for "k")
2.sitten → sittin (substitution of "i" for "e")
3.sittin → sitting (insertion of "g" at the end)

因此，"kitten" 和 "sitting" 这两个单词之间的编辑距离为 3 。

形式化定义

我们将两个字符串 $a,b$ 的 Levenshtein Distance 表示为 $lev_{a,b}(|a|, |b|)$ ，其中 $|a|$ 和 $|b|$ 分别对应 $a,b$ 的长度。那么，在这里两个字符串 $a,b$ 的 Levenshtein Distance，即 $lev_{a,b}(|a|, |b|)$ 可用如下的数学语言描述：

定义 $lev_{a,b}(i, j)$ 指的是 $a$ 中前 $i$ 个字符和 $b$ 中前 $j$ 个字符之间的距离。为了方便理解，这里的 $i,j$ 可以看作是 $a,b$ 的长度。这里的字符串的第一个字符 index 从 1 开始（实际因为在表上运算的时候字符串前需要补 0），因此最后的编辑距离便是 $i = |a|, j = |b|$ 时的距离： $lev_{a,b}(|a|, |b|)$
当 $min(i, j) = 0$ 的时候，对应着字符串 $a$ 中前 $i$ 个字符和字符串 $b$ 中前 $j$ 个字符，此时的 $i,j$ 有一个值为 0 ，表示字符串 a 和 b 中有一个为空串，那么从 a 转换到 b 只需要进行 $max(i, j)$ 次单字符编辑操作即可，所以它们之间的编辑距离为 $max(i, j)$ ，即 $i, j$ 中的最大者。
当 $min(i, j) \ne 0$ 的时候， $lev_{a,b}(|a|, |b|)$ 为如下三种情况的最小值：
1. $lev_{a,b}(i-1, j) + 1$ 表示删除 $a_i$
2. $lev_{a,b}(i, j-1) + 1$ 表示插入 $b_j$
3. $lev_{a,b}(i-1, j-1)+1_{(a_i \ne b_j)}$ 表示替换 $b_j$
$1_{(a_i \ne b_j)}$ 为一个指示函数，表示当 $a_i = b_j$ 的时候取 0 ;当 $a_i \ne b_j$ 的时候，其值为 1。

过程示例

以 $xxc$ 和 $xyz$ 为例，建立一个矩阵，通过矩阵记录计算好的距离：

当 $min(i, j) = 0$ 时， $lev_{a,b}(i, j) = max(i, j)$ ，根据此初始化矩阵的第一行和第一列:

第一行（index = 0）初始化：
min(0, 0) = 0 ->  lev_{a, b}(0, 0) = max(0, 0) = 0
min(0, 1) = 0 ->  lev_{a, b}(0, 1) = max(0, 1) = 1
min(0, 2) = 0 ->  lev_{a, b}(0, 2) = max(0, 2) = 2
min(0, 3) = 0 ->  lev_{a, b}(0, 3) = max(0, 3) = 3

第一列（index = 0）初始化：
min(0, 0) = 0 ->  lev_{a, b}(0, 0) = max(0, 0) = 0
min(1, 0) = 0 ->  lev_{a, b}(1, 0) = max(1, 0) = 1
min(2, 0) = 0 ->  lev_{a, b}(2, 0) = max(2, 0) = 2
min(3, 0) = 0 ->  lev_{a, b}(3, 0) = max(3, 0) = 3

依据上面的公式可以继续推导出第二行：

第二行（index = 1）推导

$min(1, 1) \ne 0 \Rightarrow lev_{a, b}(1, 1) = min(lev_{a, b}(0, 1)+1, lev_{a, b}(1, 0)+1, lev_{a, b}(0, 0)) = 0$
$min(1, 2) \ne 0 \Rightarrow lev_{a, b}(1, 2) = min(lev_{a, b}(0, 2)+1, lev_{a, b}(1, 1)+1, lev_{a, b}(0, 1)+1) = 1$
$min(1, 3) \ne 0 \Rightarrow lev_{a, b}(1, 3) = min(lev_{a, b}(0, 3)+1, lev_{a, b}(1, 2)+1, lev_{a, b}(0, 3)+1) = 2$

继续迭代，第三行（index = 2）推导

$min(2, 1) \ne 0 \Rightarrow lev_{a, b}(2, 1) = min(lev_{a, b}(1, 1)+1, lev_{a, b}(2, 0)+1, lev_{a, b}(1, 0)) = 1$
$min(2, 2) \ne 0 \Rightarrow lev_{a, b}(2, 2) = min(lev_{a, b}(1, 2)+1, lev_{a, b}(2, 1)+1, lev_{a, b}(1, 1)+1) = 1$
$min(2, 3) \ne 0 \Rightarrow lev_{a, b}(2, 3) = min(lev_{a, b}(1, 3)+1, lev_{a, b}(2, 2)+1, lev_{a, b}(1, 2)+1) = 2$

直至推导出最终结果：

$min(3, 1) \ne 0 \Rightarrow lev_{a, b}(3, 1) = min(lev_{a, b}(2, 1)+1, lev_{a, b}(3, 0)+1, lev_{a, b}(2, 0)+1) = 2$
$min(3, 2) \ne 0 \Rightarrow lev_{a, b}(3, 2) = min(lev_{a, b}(2, 2)+1, lev_{a, b}(3, 1)+1, lev_{a, b}(2, 1)+1) = 2$
$min(3, 3) \ne 0 \Rightarrow lev_{a, b}(3, 3) = min(lev_{a, b}(2, 3)+1, lev_{a, b}(3, 2)+1, lev_{a, b}(2, 2)+1) = 2$

算法实现

1 递归方式

def Levenshtein_Distance_Recursive(str1, str2):

    if len(str1) == 0:
        return len(str2)
    elif len(str2) == 0:
        return len(str1)
    elif str1 == str2:
        return 0

    if str1[len(str1)-1] == str2[len(str2)-1]:
        d = 0
    else:
        d = 1
    
    return min(Levenshtein_Distance_Recursive(str1, str2[:-1]) + 1,
                Levenshtein_Distance_Recursive(str1[:-1], str2) + 1,
                Levenshtein_Distance_Recursive(str1[:-1], str2[:-1]) + d)

print(Levenshtein_Distance_Recursive("abc", "bd"))
>>>
2

2 动态规划
递归是从后向前分解，那与之相对的就是从前向后计算，逐渐推导出最终结果，此法被称之为动态规划，动态规划很适用于具有重叠计算性质的问题，但这个过程中会存储大量的中间计算的结果，一个好的动态规划算法会尽量减少空间复杂度。

def Levenshtein_Distance(str1, str2):
    """
    计算字符串 str1 和 str2 的编辑距离
    :param str1
    :param str2
    :return:
    """
    matrix = [[ i + j for j in range(len(str2) + 1)] for i in range(len(str1) + 1)]

    for i in range(1, len(str1)+1):
        for j in range(1, len(str2)+1):
            if(str1[i-1] == str2[j-1]):
                d = 0
            else:
                d = 1
            
            matrix[i][j] = min(matrix[i-1][j]+1, matrix[i][j-1]+1, matrix[i-1][j-1]+d)

    return matrix[len(str1)][len(str2)]


print(Levenshtein_Distance("abc", "bd"))

>>>
2

应用与思考

编辑距离是NLP基本的度量文本相似度的算法，可以作为文本相似任务的重要特征之一，其可应用于诸如拼写检查、论文查重、基因序列分析等多个方面。但是其缺点也很明显，算法基于文本自身的结构去计算，并没有办法获取到语义层面的信息。

由于需要利用矩阵，故空间复杂度为O(MN)。这个在两个字符串都比较短小的情况下，能获得不错的性能。不过，如果字符串比较长的情况下，就需要极大的空间存放矩阵。例如：两个字符串都是20000字符，则 LD 矩阵的大小为：20000 * 20000 * 2=800000000 Byte=800MB。

参考文献

[1] https://blog.csdn.net/ghsau/article/details/78903076
[2] https://en.wikipedia.org/wiki/Levenshtein_distance
[3] https://www.dreamxu.com/books/dsa/dp/edit-distance.html
[4] https://www.jianshu.com/p/a96095aa92bc

最后编辑于：2019.07.31 03:22:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345