Trie 树原理及其敏感词过滤的实现

Trie 树也称为字典树、单词查找树,最大的特点就是共享字符串的公共前缀,这样可以达到节省空间的目的。像我们在使用搜索引擎输入某些关键字的时候,搜索引擎会自动弹出一些相关的信息,这些都是通过 Trie 树实现的。

image

Trie 树的数据结构

Trie 树的根节点不存任何数据,每个分支都代表一个完整的字符串。来看看 Trie 树的结构:

image

从上图可以归纳出Trie树的基本性质:

  1. 根节点不包含字符,除根节点外的每一个子节点都包含一个字符。
  2. 从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串。
  3. 每个节点的所有子节点包含的字符互不相同。
  4. 从第一字符开始有连续重复的字符只占用一个节点,比如上面的 to 和 ten,中重复的单词 t 只占用了一个节点。

从这几条基本性质我们可以抽象出节点的 class 属性:

  1. 是否为叶子节点的标志位 isWord。
  2. 既能存储当前节点的值也能存储其所有的子节点的数据结构HashMap。

先从稍微简单的实现开始

在 Java 中,Trie 树可以使用 HashMap 实现,因为一个节点的子节点个数未知,而 HashMap 可以动态扩展,而且可以在 O(1) 的时间复杂度内判断某个子节点是否存在。以 LeetCode 208 为例,来看看这种实现方式。

image

首先定义 Trie 树的节点,节点的结构为 HashMap,key 为字符串中的字符,value 为这个节点的子节点。

class TrieNode {

    // 子节点(key是下级字符,value是下级节点)
    private Map<Character, TrieNode> subNodes = new HashMap<>();

    // 添加子节点
    public void addSubNode(Character c, TrieNode subNode) {
        subNodes.put(c, subNode);
    }

    // 获取子节点
    public TrieNode getSubNode(Character c) {
        return subNodes.get(c);
    }
}

再来看看 Trie 树的主函数,在初始化树时,使用构造函数构造一个不存数据的根节点。在插入字符串时,从根节点开始判断树中是否已经包含了这个字符串的当前字符,如果不存在这个字符则新建节点保存当前字符,插入结束的时候设置结束标识,这里简单的用'#'来标记。

search() 和 startsWith() 函数也是类似,从根节点开始查找 HashMap 中是否存在对应的子节点。这两个函数的唯一区别是在字符串遍历完成的时候,search() 需要判断当前字符是否已经走到了 Trie 树的叶子节点,而 startsWith() 函数不需要。

class Trie {
    TrieNode root;

    /** Initialize your data structure here. */
    public Trie() {
        root = new TrieNode();
    }

    /** Inserts a word into the trie. */
    public void insert(String word) {
        TrieNode curNode = this.root;
        for (int i = 0; i < word.length(); i++) {
            char c = word.charAt(i);
            TrieNode subNode = curNode.getSubNode(c);

            // 如果没有这个节点则新建
            if (subNode == null) {
                subNode = new TrieNode();
                curNode.addSubNode(c, subNode);
            }
            // 指向子节点,进入下一循环
            curNode = subNode;
        }
        // 设置结束标识
        curNode.addSubNode('#', new TrieNode());
    }

    /** Returns if the word is in the trie. */
    public boolean search(String word) {
        TrieNode curNode = this.root;
        for (int i = 0; i < word.length(); i++) {
            curNode = curNode.getSubNode(word.charAt(i));
            if (curNode == null) return false;
        }
        return curNode.getSubNode('#') != null;
    }

    /** Returns if there is any word in the trie that starts with the given prefix. */
    public boolean startsWith(String prefix) {
        TrieNode curNode = this.root;
        for (int i = 0; i < prefix.length(); i++) {
            curNode = curNode.getSubNode(prefix.charAt(i));
            if (curNode == null) return false;
        }
        return true;
    }
}

进一步实现敏感词过滤

在实现敏感词过滤前,首先需要初始化 Trie 树,将所有敏感词作为字符串全部插入到 Trie 树中。

其实原理还是和之前一样的,只不过相对于上面的代码来说,我们需要多增加一个指针。因为敏感词在字符串的位置我们是不知道的嘛,所以我们只能增加一个指针,对整个字符串进行遍历,寻找敏感词开始的位置,剩下的逻辑就和上面的代码相似了,如下图所示。这里假设在 Trie 树中已经初始化好了 bca、bcf、de 这几个敏感词。

image

首先 p1 指针指向 root,指针 p2 和 p3 指向字符串中的第一个字符。算法从字符 a 开始,检测有没有以 a 作为前缀的敏感词,在这里就直接判断 root 中有没有 a 这个子节点即可。没有的话将 p2 和 p3 同时右移,而如果存在以 a 作为前缀的敏感词,那么就只右移 p3 继续判断 p2 和 p3 之间的这个字符串是否是敏感词。如果在字符串中找到敏感词,那么可以用其他字符串如 *** 代替。接下来不断循环直到整个字符串遍历完成就可以了。

这样的算法时间复杂度是多少呢?构建敏感词的时间复杂度是可以忽略不计的,因为构建完成后我们是可以无数次使用的。所以我们来看看查找敏感词的时间复杂度。如果字符串的长度为 n,而每个敏感词查找的时间复杂度是 O(m),我们需要对字符串遍历 n 遍,所以查找敏感词的这个过程的时间复杂度为 O(m * n)。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342