elasticsearch入门

Elasticsearch简介

什么是elasticsearch?

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

但是,Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。

Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。

不过,Elasticsearch不仅仅是Lucene和全文搜索,我们还能这样去描述它:

分布式的实时文件存储,每个字段都被索引并可被搜索

分布式的实时分析搜索引擎

可以扩展到上百台服务器,处理PB级结构化或非结构化数据

而且,所有的这些功能被集成到一个服务里面,你的应用可以通过简单的RESTful API、各种语言的客户端甚至命令行与之交互。

上手Elasticsearch非常容易。它提供了许多合理的缺省值,并对初学者隐藏了复杂的搜索引擎理论。它开箱即用(安装即可使用),只需很少的学习既可在生产环境中使用。

Elasticsearch在Apache 2 license下许可使用,可以免费下载、使用和修改。

随着你对Elasticsearch的理解加深,你可以根据不同的问题领域定制Elasticsearch的高级特性,这一切都是可配置的,并且配置非常灵活。

elasticsearch与solr对比

1)http://i.zhcy.tk/blog/elasticsearchyu-solr/

2)http://solr-vs-elasticsearch.com/

总的来说:elasticsearch在实时搜索、分布式管理上优于solr。

elasticsearch术语

1)NRT(Near Realtime)

在增删改后,有refresh interval秒(通常是1s)的延迟才能反映到数索引里。

2)  集群

多个节点逻辑上表现为一个结点,统一对外提供index和search服务;一个ES实例可以包含多个集群,每一个集群通过cluster name来标识。

3)Node

指定节点名称,不指定的话是随机的;节点具有index和search能力。

4)index索引

文档集合;一个集群可以有多个索引。

5)type

一个索引可以有多个type,一个type里面包含一类文档。类比数据就是表table。

6)文档

json形式的数据结构,类比数据库就是表中的一条记录。

7)shard & replicas 主分片和副本

一个索引中的数据,会被分成多个shard,存储在1个或多个节点里。每个shard其实就是一个功能独立的索引,放在哪个节点都可以工作。(可以增加水平扩展能力,和并行处理能力)

副本是主分片的副本,主分片不可用时候的备份。每个主分片可以有多个副本。高可用的保障。

2 集群安装

1) 压缩包解压 直接elasticsearch -d后台执行

Note:

官方推荐的系统配置:

1 文件描述符推荐32k和64k

2 vm.max_map_counts=262144

3 锁住内存,禁止swap

3 深入原理

3.1 es是如何启动的?

1)每个es实例启动的时候,都会使用自动发现机制,发现其他节点

2)自动发现机制有多播和单播两种

3)不同网段间的多播会失效

4)可以直接禁止多播,只使用单播

5) 启动的过程中会选举master节点,master选举后,一个集群才成立。

Note:

选举master节点的,最小master数量节点设置

discovery.zen.minimum_master_nodes = number of master / 2 + 1;

防止脑裂:脑裂就是一个集群被分为多个集群,有多个master同时存在。

3.2 es是如何索引的?

1)首先创建索引

2)然后创建type和mapping

3)将索引的doc,写到主分片。

5)主分片会同步到副本后,返回索引请求。

3.3 es是如何查询的?

1)搜索相比索引会更复杂,因为在搜索中哪些doc会被命中以及它们的分片分布是未知的

2)查询分两个阶段,第一个阶段是查询阶段(query)

3)查询阶段里,搜索请求会广播给所有分片(主分片或副本),每个分片会在本地执行该搜索,匹配的文档被保存到一个优先队列中,队列大小=offset + limit。

4)每个分片都准备好了队列后,将ids和需要排序的字段,如_score返回给协调节点。

5)协调节点会将所有doc排序后放入优先级队列,然后执行获取数据阶段(fetch)

6)协调节点执行fetch阶段的时候,是经过优化考虑的,会进行multiget批量获取数据。

7)所有数据获取之后,response。

3.4 es数据是如何写到磁盘的

1)数据要想searchable,必须是存在段文件(segment)的,segment就是倒排索引。

2)  数据来源是内存buffer,新的索引数据首先到内存中,然后经过refresh_interval的时间会建立segment文件写到文件系统缓存中,此时可以提供搜索。

3)索引数据在写入内存buffer的同时,还会记录事务日志,保证数据可靠。

4)经过默认30分钟,或事务日志大小超过一定范围,会强制将文件系统缓存flush到disk中,这样segment文件就写入磁盘了,事物日志也会清除,commit文件也会随之更新(commit文件记录了segment的信息)。

3.5 每个refresh-intalval间隔都会产生segment文件,文件太多怎么办?

1)文件过多会导致文件句柄,内存,cpu的消耗,因为每个segment文件都要参与计算的。

2)es对此有segment文件合并机制。是额外线程后台负责执行的,segment文件merge的时候,也是逻辑删除的doc被物理删除的时机。

3)大小相似的segment会被选中进行merge,merge成较大的segment,merge完成之后,新生成的大segment提供search,旧的小segment被物理delete

4) 可视化直观感受下lucene的合并:http://blog.mikemccandless.com/2011/02/visualizing-lucenes-segment-merges.html

3.6 控制doc落在哪个shard?

1)依赖的是elasticsearch的路由机制(_reroute)

2)默认路由使用_id, (_id % number of shard)

3) 在索引的时候可以自定义路由,比如bizacctid,那么同一商家的项目会落在同一shard。(好处是搜索请求不用广播,就可以直接去指定shard搜索,弊端是有可能造成shard的大小不均)。

3.7 es使用的缓存?

1)过滤器缓存,filter cache,默认占用10%heap,LRU换出策略。Node级别,记录那些doc符合此filter,使用数据结构是bitset,空间占用少。

2)field cache缓存。

需要访问字段值的时候,例如根据某个字段排序,需要知道doc的field的value是什么,倒排索引不能完成这个,所以类似将倒排倒转过来,存储在heap缓存中,只进不出。容易OOM

只进不出是因为建立field data是一个耗时的动作。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341

推荐阅读更多精彩内容