一 .lucene概述

lucene各种文章介绍都有,这篇文章介绍下很多文章不曾说的为什么快,大多文章就是说倒排索引,然后就没然后了,lucene反向索引存储主要有两个文件(所谓反向信息是指词(Term) –> 文档(Document)),词典文件和词典索引文件,版本不同,后缀名称也不同,因为一个索引会包含多个字段,文件实现是按照字段排列实现,这也是为什么段一旦刷到磁盘,不可更改的原因。
词典索引文件是论文fst实现,论文链接:http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.24.3698[http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.24.3698],精确查询时,索引文件锁定大概位置,在搜索词典文件;模糊查询时,索引文件fst会转换 [NFA(不确定的有穷自动机) -> DFA(确定的有穷自动机) 的转换],这是索引文件存放在内存的原因,这也是一切查询的基石。

lucene实现的是一个基本全文检索引起应该有的功能,用到非常多的算法。
比如索引文件需要存放到内存,就会用到文本压缩、数值压缩,各种编码压缩。
取存储结果用到了数组链表的交集、并集、差集、以及topN二叉堆等。
为了快速定位文档号使用了跳表,获取相似性结果用到了编辑距离。
也用到了到分词器、状态机、空间向量模型等.
但是用到的并发并不是很多,学习并发的同志们建议学习netty。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容

  • 内存管理与数据存储 索引(index):Lucene的索引由许多个文件组成,这些文件放在同一个目录下 段(se...
    大林_3a76阅读 3,370评论 0 3
  • 1 索引原理 全文索引由来已久,绝大多数都基于倒排索引来做,顾名思义,它与常规的一篇文章包含哪些词相反,它是一个词...
    薛定谔的猫Plus阅读 3,923评论 0 5
  • Lucene是一种高性能、可伸缩的信息搜索(IR)库,在2000年开源,最初由鼎鼎大名的Doug Cutting开...
    KhaosYang阅读 202评论 0 1
  • 【2017.08.11 训练打卡】 今日生活分享:南国书香节开幕王蒙老师读者见面会 无论新媒体多么发达,都无法替代...
    岳坛阅读 276评论 0 0
  • 春节倒计时30天。 春节,最馋的就是和家人围坐在一起吃饺子了。 老人家说:饺子啊好吃馅难调。 下面五个小技巧,可以...
    樱酱的365天阅读 207评论 0 0