数据结构(十八) -- 串

串(String)

串是由有限个字符组成的一种线性结构,其中每个字符都来自某个字符表(Alphabet)Σ,比如 ASCII 字符集或 Unicode 字符集。

串 ADT 的主要操作可以归纳为如下:

操作方法 功能描述
length( ) 查询串的长度
输入:无
输出:非负整数
charAt(i) 返回第 i 个字符
输入:一个非负整数
输出:一个字符
substr(i, k) 返回从第 i 个字符起、长度为 k 的子串
输入:两个非负整数
输出:一个字符串
prefix(k) 返回长度为 k 的前缀
输入:一个非负整数
输出:一个字符串
suffix(k) 返回长度为 k 的后缀
输入:一个非负整数
输出:一个字符串
equals(T) 判断 T 是否与当前字符串相等
输入:一个字符串
输出:布尔标志
concat(T) 将 T 串接在当前字符串之后
输入:一个字符串
输出:一个字符串
indexOf(P) 若 P 是当前字符串的一个子串,则返回该子串的起始位置;否则返回 -1
输入:一个字符串
输出:非负整数

串具有两个突出的特点:结构简单,规模庞大。

  • 结构简单,一方面是线性结构,另一方面是指字符表规模不大,在某些应用问题中,字符表的规模甚至可能极小。以生物信息序列为例,组成蛋白质(文本)的氨基酸(字符)只有约 20 种,而组成DNA序列(文本)的碱基(字符)则只有 4 种。

  • 然而,这类文本的规模往往很大,其中每个字符都大量重复地出现,串中字符的重复率一般非常高。

** 这里我们将直接采用Java本身提供的String类。 **

串模式匹配(String pattern matching)

在串文本的众多应用问题中,会反复涉及到一项非常基本的判断性操作:

给定串 T(称作主串)和串 P(称作模式串),T 中是否存在的某个子串与 P 相同?如果存在,找到该子串在 T 中的起始位置。

实际上,根据具体应用的不同,串匹配问题有多种形式:

  • 有些场合属于串匹配检测(Pattern detection)问题:我们只关心是否存在匹配,而不关心具体的匹配位置。

  • 有些场合则属于定位(Pattern location)问题:若经判断的确存在匹配,则还需要确定具体的匹配位置。

  • 有些场合属于计数(Pattern counting)问题:倘若有多处匹配,统计出这些匹配子串的总数。

  • 有些场合则属于枚举(Pattern enumeration)问题:在有多处匹配时,报告出所有匹配的具体位置。

比如,以上邮件过滤器的例子就属于检测型问题:一旦特征匹配,即可判定为垃圾邮件,从而直接删除,或者将其隔离以待用户确认,此时我们并不关心特征串的具体位置。然而,反病毒系统的任务则属于枚举型问题:不仅必须在二进制代码中找出所有的病毒特征串,还需要报告它们的具体位置,以便修复。

蛮力算法

蛮力串匹配算法是最直接、直观的方法。

我们想象着将主串和模式串分别写在两条印有等间距方格的纸带上,主串对应的纸带固定,模式串的首字符与主串的首字符对齐,沿水平方向放好。主串的前m个字符将与模式串的m个字符两两对齐。

接下来,自左向右检查对齐的每一对字符:如果匹配,则转向下一对字符;如果失配,则说明在这个位置主串与模式串无法匹配,于是将模式串对应的纸带右移一个字符,然后从首字符开始重新对比。

若经过检查,当前的m个字符对都是匹配的,则匹配成功,并返回匹配子串的位置。

蛮力算法的具体实现:

package other;

public class PM_BruteForce {

    /*
     * 串模式匹配:蛮力算法 若返回位置i > length(T) - length(P),则说明失配 否则,i为匹配位置
     */

    //////////////////////////////////////////////////////////////////////////
    // T: 0 1 . . . i i+1 . . . i+j . . n-1
    // --------------------|-------------------|------------
    // P: 0 1 . . . j . .
    // |-------------------|
    //////////////////////////////////////////////////////////////////////////
    public static int PM(String T, String P) {
        int i;// 模式串相对于主串的起始位置
        int j;// 模式串当前字符的地址
        for (i = 0; i <= T.length() - P.length(); i++) {// 主串从第i个字符起,与
            for (j = 0; j < P.length(); j++) {// 模式串的当前字符逐次比较
                if (T.charAt(i + j) != P.charAt(j))
                    break;// 若失配,模式串右移一个字符
            }
            if (j >= P.length())
                break;// 找到匹配子串
        }
        return (i);
    }
}

在最坏情况下蛮力算法的运行时间为主串、模式串长度的乘积,因此只适用于小规模的串匹配应用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,600评论 18 139
  • 第5章 引用类型(返回首页) 本章内容 使用对象 创建并操作数组 理解基本的JavaScript类型 使用基本类型...
    大学一百阅读 3,212评论 0 4
  • 在挖掘分析的过程当中对字符串的处理是极为重要的,且出现也较为频繁,R语言作为当前最为流行的开源数据分析和可视化平台...
    果果哥哥BBQ阅读 5,793评论 0 8
  • 对于年少的我们来说,先说爱的那个人不一定就是输了,因为有一种人是先被爱上,之后不断的妥协,不断的输。
    落花时节君已故阅读 68评论 0 0
  • 我是如此受欢迎 熙熙攘攘的朋友来去如云 我是如此寂寞 混迹在无知的人群里 肉体本身就是一道囚笼 将幸福和良知困在深...
    琳泳阅读 334评论 4 6