手写简版倒排索引（Inverted Index）

说明

周末闲来无事花点时间，基于Lucene倒排索引的思想，使用Python简单实现了索引文档与短语搜索的小功能，目的是帮助快速理解倒排索引的写入与查询的基本思想。

Indexing and search

Term --- DosIDS

简单的小程序

# -*- coding: utf-8 -*-
"""
    File Name: indexingAndSearch.py
    Author: Donny.fang
    Date: 2021/1/16 18:12
    Desc: Python3.8
"""
import logging
from collections import deque

LOG_FORMAT = "[%(asctime)s][%(levelname)s ] %(message)s"
DATE_FORMAT = "%Y-%m-%d %H:%M:%S"

logging.basicConfig(level=logging.INFO, format=LOG_FORMAT, datefmt=DATE_FORMAT)


class TermTrie(object):
    """
        如下采用dict存储结点对象，Trie树的存储结构如下：
        {
              "a":{
                "p":{
                  "p":{
                    "#":"#",
                    "app":[
                      0
                    ],
                    "l":{
                      "e":{
                        "#":"#",
                        "apple":[
                          0,
                          1
                        ],
                        "e":{
                          "#":"#",
                          "applee":[
                            1
                          ]
                        }
                      }
                    }
                  }
                }
              }
            }
    """

    def __init__(self):
        self.root = {}
        self.end_of_word = '#'

    def insert(self, term, docId):
        """
        Inserts a term into the trie.
        :type term: str
        :type docId: int
        :rtype: None
        """
        node = self.root

        for c in term:
            node = node.setdefault(c, {})

        node.setdefault(term, []).append(docId)
        node[self.end_of_word] = self.end_of_word

    def getDocIdsByTerm(self, term):
        """
        Returns docIds by term
        :type term: str
        :rtype: list
        """
        node = self.root
        docIds = []

        for c in term:
            if c not in node:
                break

            node = node[c]

        if self.end_of_word in node:
            docIds = node.get(term, [])

        return docIds


class IndexingSearch(object):
    """
        简单功能描述：
        1. 从文件中逐行的读取数据，并对每行数据以空格的方式进行分词，形成terms
        2. 将形成的terms分别装进字典树中，并存储每个term对应的docIds
        3. 执行短语搜索时，同样对phrase以空格的方式进行分词，形成terms
        4. 针对每个term，获取到满足条件的docIds，并获取最终的Document
    """

    def __init__(self):
        self.docs, self.trie = [], TermTrie()

    @staticmethod
    def generateTerms(document):
        """
            以空格的方式对document进行分词，比如"hello world" ---> "hello", "world"
        :param document: a line text
        :return: list type, like ["hello", "world"]
        """
        assert isinstance(document, str)

        if len(document.strip()) < 1:
            logging.error("document is empty")

        return document.strip().split()

    def indexingDocument(self, fileName):
        """
            索引文档，比如document："hello world"（假设document id为0），依据空格分词，会形成hello与world两个term；
            对于每个term（hello and world），将其装载进字典树中，然后记录term对应的docID；比如hello ---> [0], world --->[0]
        :param fileName: file for indexing
        :return: trie
        """
        docId = 0

        with open(fileName, "r") as fr:
            while 1:
                doc = fr.readline().strip()

                if not doc:  # 假设document之间无空行，此处表示遍历到文件末尾，结束
                    break

                terms = IndexingSearch.generateTerms(doc)

                for term in terms:
                    self.trie.insert(term, docId)

                docId += 1

                # 将从文件中遍历得到的每个document，装载进内存list中
                # docs = ["hello world", "hello city", "welcome to china"]
                self.docs.append(doc)

        return {
            "trie": self.trie.root
        }

    def phraseSearch(self, phrase):
        """
            执行短语查询，以空格的方式对phrase作分词，比如"hello world" ---> "hello", "world"
        :param phrase: query phrase
        :return: docIds
        """
        assert isinstance(phrase, str)

        if len(phrase.strip()) <= 0:
            logging.error("query phrase cannot be empty")

        arrs = deque()

        for term in phrase.split():
            arrs.append(self.trie.getDocIdsByTerm(term))

        docsIdToLoad = IndexingSearch.multipleArraysUnion(arrs)

        print("\n".join(["{}: {}".format(index, self.docs[index]) for index in docsIdToLoad]))

    @staticmethod
    def multipleArraysUnion(arrays):
        """
            多个数组求并集，比如[1,2,3]与[2,3,5,7]并集结果为[1,2,3,5,7]
        :param arrays: multiple arrays in deque
        :return: list type, sorted array
        """
        assert isinstance(arrays, deque)

        if len(arrays) < 1:
            logging.error("The number of ordered arrays is 0")

        rawArray = arrays.popleft()

        while len(arrays) > 0:
            arr = arrays.popleft()
            rawArray = list(set(rawArray).union(set(arr)))

        return sorted(rawArray)


if __name__ == '__main__':
    indexingSearch = IndexingSearch()

    # 索引文档，内部组装简版的倒排索引
    indexingSearch.indexingDocument("/root/hello/myfile")

    # 执行短语查询
    indexingSearch.phraseSearch("hello world")

小结

Python手写Lucene倒排索引小功能，这里为啥使用字典树来存储term呢？其实主要是为了节省空间，比如"app"与"apple"如果用哈希表来存储，则会分别存储"app"与"apple"，而如果使用字典树则只会存储"a,p,p,l,e"这5个字母，存储空间节省了一些，试想一下，如果terms很多的情况下，字典树的这种方式会节省很多的存储空间；当然在字典树中去查找一个term，通常会比在哈希表中查找term耗时，字典树的查找时间复杂度为O(len(term))。

最后编辑于：2021.01.18 09:05:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 196,302评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,563评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,433评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,628评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,467评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,354评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,777评论 3赞 387
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,419评论 0赞 255
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,725评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,768评论 2赞 314
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,543评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,387评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,794评论 3赞 300
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,032评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,305评论 1赞 252
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,741评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,946评论 2赞 336

手写简版倒排索引（Inverted Index）

说明

简单的小程序

小结

推荐阅读更多精彩内容