深入理解 elasticsearch

Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

用 elasticsearch 可以做到的有趣功能

multitype index

对同一个字段使用多种分析器产生不同的 index,这样在进行索引和搜索时,都能够更加灵活。
比如说,我们有一些需要索引的文档,包含了标题和内容等信息。在搜索的时候需要优先匹配那些直接命中标题的文章,然后类似的标题,然后是内容的匹配。这里的优先可以灵活的定义。

Pagination

空搜索告诉我们在cluster中有 14 个文档匹配。但是在hits数组中却只有 10 个文档。我们想看到剩下的文档要怎么办?
与 SQL 中类似,使用 LIMIT 关键词来返回一个结果的页面,Elasticsearch 接受 sizefrom 参数:

  • size:表示将会返回的结果的数量,默认为 10
  • from:表示被跳过的初始结果,默认为 0,表示返回所有结果

如果你想要每页显示 5 个结果,那么第1到第3页应该按照下面的方式获取:

GET /_search?size=5
GET /_search?size=5&from=5
GET /_search?size=5&from=10

页数过多或者一次请求太多的结果需要小心。结果在返回之前是排好序的。但是搜索请求经常会遍布在多个 shard 上。每个 shard 产生自己排好序的结果,然后需要通过整体的排序来确保所有结果的顺序的一致性。

分布式系统下的深度分页

为了理解深度分页所遇到的问题,假设我们对�分布在 5 个主 shard 上的一个 index 进行搜索。当我们请求结果的第一页(1 到 10),每个 shard 产生自身前 10 个结果,并返回到请求的节点,然后再在这个节点上对 50 个结果进行重排序以获得最终的前 10 个结果。
现在如果我们请求第 1000 页——从 10, 001 到 10, 010 的结果。所有的方法都是一样的,不过每个shard 就必须产生前 10, 010 个结果。请求节点最终需要对 50, 050 个结果进行排序然后丢弃后面的 50,040 个!
所以在分布式系统中,你可以想象一下随着请求结果页数的增长,需要排序的结果的代价是跟着页数以指数级速度增长的。这也正是搜索引擎不会返回超过 1,000 个记录的原因吧。

另外,在Reindexing Your Data中,我们解释了可以让检索大量文档更有效的方法。

数据重索引

尽管你可以对一个索引增加新的 type,或者对一个 type 增加新的字段,但是并不能对已有的字段添加新的分析器或者做出调整。如果你想这样做,那么就需要重新索引数据,否则搜索会出现差错。
最简单的应用这些操作的方式是重新索引(reindex):使用新的设置的索引并从旧的索引中复制所有的文档到新的索引中。
_source 字段的优势之一是我们已经拥有了在 Elasticsearch 中整个可以获取的文档。所以不需要重新使用数据库进行重建索引,通常会很慢。
为了更快地从旧索引中重索引所有的文档,可以使用 scan-and-scroll 来批量从旧索引中获取文档,然后用 bulk
API
推送进新的索引中。

批量重索引

你可以同时执行多个重索引 job,但是显然也不希望其结果是重叠的。可以使用日期或者时间戳字段进行过滤来重索引:

GET /old_index/_search?search_type=scan&scroll=1m
{ 
  "query": { 
      "range":{
         "date": {
               "gte": "2014-01-01", 
               "lt": "2014-02-01" 
          } 
      } 
  }, 
  "size": 1000
}
> ```
> 如果你继续对旧索引进行改变,那么需要确保已经包含了新的文档在新的索引中。这个可以使用再运行重索引过程,但是同时使用过滤器对日期或者时间进行过滤能够保证只会对那些新的文档进行索引。


**继续补充**
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,390评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,821评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,632评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,170评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,033评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,098评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,511评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,204评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,479评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,572评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,341评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,893评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,171评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,486评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,676评论 2 335

推荐阅读更多精彩内容

  • Solr&ElasticSearch原理及应用 一、综述 搜索 http://baike.baidu.com/it...
    楼外楼V阅读 7,212评论 1 17
  • 这是一个令人震惊的数据:一段仅30秒的色情视频分成3次播放,每次播放就能骗取上百元,一年欺诈近7亿元。 因被色情视...
    黑客与编程阅读 8,907评论 4 4
  • 2017年8月26日 于济南 和朋友们聊天,我经常会问他们这样一个问题,来判断他们对未来的认知程度,这个问题就是...
    春子在北京阅读 439评论 0 1
  • 没有了有 有了没有 没有了有了没有 有了没有了有 ---苍央嘉措的诗。 描述四种人生境界! 没有了~有 有了~没有...
    fx_random阅读 243评论 0 0