笨办法学 Python · 续 练习 22:后缀数组

练习 22:后缀数组

原文:Exercise 22: Suffix Arrays

译者:飞龙

协议:CC BY-NC-SA 4.0

自豪地采用谷歌翻译

我想告诉你一个关于后缀数组的故事。在一段时间里,我正在西雅图的一家公司面试,当时好奇的是如何最有效地创建一个用于可执行二进制文件的diff。我的研究给我带来了后缀数组和后缀树。后缀数组只是,将字符串的所有后缀排序,储存到有序列表中。后缀树是类似的,但是比列表更像BSTree。这些算法相当简单,一旦你进行了排序操作,它们就具有很快的性能。他们解决的问题是,找到两个字符串之间最长的公共子串(或者在这种情况下是字节列表)。

你可以在 Python 中轻易创建一个后缀数组:

>>> magic = "abracadabra"
>>> magic_sa = []
>>> for i in range(0, len(magic)):
...     magic_sa.append(magic[i:])
...
>>> magic_sa
['abracadabra', 'bracadabra', 'racadabra', 'acadabra',
 'cadabra', 'adabra', 'dabra', 'abra', 'bra', 'ra', 'a']
>>> magic_sa = sorted(magic_sa)
>>> magic_sa
['a', 'abra', 'abracadabra', 'acadabra', 'adabra', 'bra',
 'bracadabra', 'cadabra', 'dabra', 'ra', 'racadabra']
>>>

正如你所看到的,我只是按顺序取下字符串的后缀,然后对列表进行排序。但是,这对我有什么用呢?一旦我有了这个列表,那么我可以通过这个列表的二分搜索,来找到我想要的任何后缀。这个例子很简陋,但是在实际的代码中,你可以很快地做到它,你可以跟踪所有的原始索引,所以你可以引用后缀的原始位置。它与其他搜索算法相比非常快,对于 DNA 分析等事情非常有用。

回到西雅图的面试。我在这个寒冷的房间被 C++ 程序员面试,为了一份 Java 工作。你可以断定,这不是一个非常有趣的面试,我绝对不会认为我会得到这份工作。在多年的时间中,我没有写过任何 C++,而且这个工作是针对 Java 的,当时我是一个 Java 专家。下一个面试官来了,他问我:“如何在字符串中寻找子串?”

太棒了!我在空闲时间里一直在研究这个问题。我当然知道!我跳起来走到白板,向那个家伙解释如何制作一个后缀树,它如何提高搜索性能,修改后的堆排序如何更快,后缀树的工作原理,为什么它比三叉搜索树更好,以及如何在 C 中实现。我想,如果我可以展示如何在 C 中写出来,那么这将证明,我不只是一个核心能力的 Java 码工。

那个家伙很震惊,就像我在采访室里打开一袋新鲜的榴莲一样。他看着董事会,并且有些结巴,“呃,我是在寻找一些有关 Boyer-Moore 搜索算法的东西吗?你知道吗?我愁眉苦脸地说:“是啊,就像 10 年前一样。” 他摇摇头,拿着他的东西,起身说:“好吧,我会让大家知道我的想法。”

几分钟后,下一个面试官来了。他抬头看着白板,笑了起来并嘲笑我,然后问我另一个 C++ 模板元编程问题,我无法回答。我没有得到这份工作。

挑战练习

在这个练习中,你将会使用我的 Python 小会话并创建自己的后缀数组搜索类。该类将使用一个字符串,将其拆成后缀列表,然后对其进行以下操作:

find_shortest

找到以它开始的最短子串。在上面的例子中,如果我搜索abra,那么它应该返回abra,而不是abracadabra

find_longest

找到以它开始的最长子串。如果我搜索abra,你返回abracadabra

find_all

查找以它开始的所有子串。这意味着abra返回abraabracadabra

你将需要对此进行良好的自动测试,并进行一些性能测量。我们将在以后的练习中使用它们。完成之后,你需要进行研究性学习来完成这个练习。

研究性学习

  • 一旦你的测试正常工作,使用你的BSTree重写它,进行后缀排序和搜索。你还可以使用每个BSTreeNodevalue,来跟踪原始字符串中存在该子串的位置。然后,你可以保留原始字符串。
  • BStree如何为不同搜索操作更改你的代码?是否使其更简单或更难?

深入学习

彻底研究后缀数组及其应用。它们非常有用,但不是被大多数程序员熟知。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容

  • 第5章 引用类型(返回首页) 本章内容 使用对象 创建并操作数组 理解基本的JavaScript类型 使用基本类型...
    大学一百阅读 3,196评论 0 4
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,053评论 25 707
  • 留下好的第一印象。 行动比言语更具有力量。如果你希望别人看到你的时候很愉快,那么你一定要记住:当你面对别人的时候,...
    拾叶姑娘阅读 302评论 0 0
  • 风中有五者,谓心肝脾肺肾。五脏之中,其言生死,各不同也。 心风:汗自出而偃仰卧、不可转侧,语言狂妄者生,宜于心俞灸...
    天一书社阅读 389评论 0 0
  • 没来由的低落。 精神不停地往下坠,像是在里面塞了一块铁。 自由意识的沉重浮现在表层,于是双目无神,脚步缓慢无章法,...
    麦八月阅读 400评论 0 1