ES是什么
- 基于 Lucene 的搜索引擎,Lucene 被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。
- 分布式的实时文档存储,每个字段 可以被索引与搜索
- 随时可用和按需扩容(水平扩容)
- 最受欢迎的企业搜索引擎,其次是 Apache Solr
- 能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据
- 对于使用者来说,不用担心主副问题,天然分布式保证数据安全
- Java 开发
- 不支持事物
- 由于需要分词、索引、merge,写速度慢
应用企业
- 维基百科:全文搜索,高亮关键字、搜索纠错
- StackOverflow:全文搜索,地理位置、more-like-this
- Github:1300亿行代码检索
应用场景
- 在线商店
- 日志或者交易数据 分析和挖掘
- 报价系统、价格变更系统:发生满足条件的变更通知关注者
- 大数据分析需求: kibana 统计分析数据
原理
ES原理
Analysis (分析器)
通过执行 analyzer 实现,analyzer包含 Character filter
,Tokenizer
, Token filter
(有序经过上述三步处理).
更多查看
Character filter (字符过滤器)
- 接收原始数据,可在原始数据上增加/删除/修改字符.
- 把结果输出到
Tokenizer
. - 输入是Text,输出也是Text.
- 如把Text中的 (٠١٢٣٤٥٦٧٨٩) 转变成 (0123456789), 删除 HTML 的标签(如<b>)
Tokenizer (分词器)
- 对来自
Character filter
的输入数据(Text),进行分词处理,输出 Terms. - 输入是Text, 输出是Terms
Token filter (标记过滤器)
Token filter 从 Tokenizer 获得terms,可对terms执行的操作有,其操作对象是单个的term:
- 修改:如 大写变小写(Goods, goods)
- 删除:如 删除停顿符(stopwords)
- 添加:如 添加同义词
- 输入是 terms, 输出是 terms
demo
POST _analyze
{
"tokenizer": "standard",
"text": "<p>I'm so <b>happy</b>!</p>"
}
POST _analyze
{
"tokenizer": "standard",
"char_filter": [
"html_strip"
],
"text": "<p>I'm so <b>happy</b>!</p>"
}
POST _analyze
{
"tokenizer": "keyword",
"char_filter": [
"html_strip"
],
"text": "<p>I'm so <b>happy</b>!</p>"
}
POST _analyze
{
"tokenizer": "letter",
"text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
POST _analyze
{
"tokenizer": "standard",
"filter": [ "lowercase", "asciifolding" ],
"text": "Is This Déja vu?"
}
主要名词介绍
Inverted index
:倒排索引,索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。倒排索引是ES中最核心的概念,是其可以进行快速搜索的原因Cluster
: 集群,一个或者多个节点组成,他们有相同的 cluster.nameNode
:节点,一个ES实例。集群中一个节点会被选为 主节点。主节点只管理集群级别的事物,不参与文档级别的变更或者搜索。每个节点都知道文档存在哪里
-
Shard
:分片,最小级别的工作单元,他只是保存了索引中所有数据的一部分,是一个数据的容器。主分片决定了可存储的索引的量。副本分片只是副本
。分片是一个Lucene Index, 最大可存储Document数为:2,147,483,519=Integer.MAX_VALUE - 128。-
Primary Shard
: 主分片, 简称Shard
- 数量在建索引时确定,不可修改
- 其不可修改原因:hash(routing) % number_of_shards, number_of_shards指主分片数
- 新建索引时,通过
index.number_of_shards
设置
-
Replica Shared
:副本分片, 简称Replica
- 新建时可设置,运用期可修改
- 新建索引或运行期间,通过
index.number_of_replicas
设置,表示每个主分片对应的副本分片数
-
-
Index
:索引,类似数据库名(database)- 一个存储关联数据的地方
- 一个用来指向一个或者多个分片的逻辑命名空间
- 我们应用程序直接和索引通信,不和分片通信
文档的索引首先会存于主分片,然后存于复分片。成功后确保数据可在所有主复分片被检索。
Type
:类型,类似数据库表名.Deprecated in 6.0.0,7.X已经不支持了,只能是 _doc
Id
:文档id,可自定义或ES自动生成mapping
:映射,定义字段type和相关设置-
CCR
:cross-cluster replication,跨集群复制,同网络数据迁移非常快速.单集群遇到灾难时,数据安全性没法保障。为了应对这个问题,采用CCR。CCR is active-passive,主集群负责读、写,复本集群只负责读-
leader indices
:CCR跨集群复制的源索引。存在于远端,被复制到follower indices
-
follower index
:CCR跨集群复制的目标索引。存在于本地集群,复制leader indices
-
主要操作流程
选举Master
写操作
- 操作步骤
- routing(ID) -> 主分片
- 数据校验(格式是否正确,id是否合法...),本地 indexing or deleting
- 通知 副分片 同步数据(
in-sync copies set
并行同步) - 所有副分片同步成功后,主分片告诉客户端操作完成
- 出现问题场景
- 主分片出现问题,
Master
会收到通知,Master
会选择一个副分片作为主分片 - 如果副分片出现问题,会通知
Master
把该分片从in-sync copies set
中删除,然后再通知client
-
Master
会启动新的分片,保证集群健康
- 主分片出现问题,
读操作
- 读操作
- 协调节点
coordinating node
收到读请求, 解析请求,并把请求发送到相关的分片 - 从 分片副本集合
the shard replication group
里面选择一个相关的分片获取有效数据, 采用 round robin算法(即轮询算法) - 发送分片级别请求到选定复本
- 协调节点合并请求结果(通过ID获取数据没有这一步)
- 协调节点
- 读操作失败:会发送请求到另一个分片(来自
the shard replication group
的分片)。为了快速响应,Search
、Multi Search
、Bulk
、Multi Get
分片失败后,立马返回(快速失败,不会把请求发送到另一个分片)
数据操作路逻辑
-
内存缓存(不可检索)
->未提交段(内存索引,可检索)
->已提交段(内存索引,可检索)
- 内存缓存 -> 未提交段:1s 会自动刷新一次,也可手动刷新
_refresh
。刷新后,内存缓存会被清除,事务日志会保留 - 未提交段 -> 已提交段:每30min,或事务日志过大,进行一次 Flush 到硬盘操作
- 当段较小时,未提交的段和已提交段之间可能会进行合并。对应命令:_optimize
- 内存缓存 -> 未提交段:1s 会自动刷新一次,也可手动刷新
- 索引和搜索一个文档之间是有一定延迟的。新文档会在1s后被搜索到。
- 事务日志:记录所有没有Flush到硬盘的操作
配置
- Xms Xmx 设置成相同的值, 如:
-e ES_JAVA_OPTS="-Xms16g -Xmx16g"
- Xmx不超过机器物理内存 50%, 以便给内核文件系统缓存留出足够物理内存
- 一般来讲,每个分片的大小在20GB-40GB
相关API
- update: 删除旧文档,索引新建文档,并不是我们认为的 update
- bulk: 单个操作失败,还是会执行其他操作,整个请求结果正常返回,每个操作都会有对应的操作结果(按请求排序)。如有需要,可判断结果做后续处理.
易出问题的点
分页问题
- 避免深度分页
- 分页逻辑:每次分页需要获得包括当前页及之前的所有数据,一起排序
- 处理深度分页方案:scan & scroll
由于lucene的原因,所有数据会做扁平化出来
- 原始数据
{
"followers": [
{ "age": 35, "name": "Mary White"},
{ "age": 26, "name": "Alex Jones"},
{ "age": 19, "name": "Lisa Smith"}
]
}
- Lucene保存数据
{
"followers.age": [19, 26, 35],
"followers.name": [alex, jones, lisa, smith, mary, white]
}
ES和Lucene相关概念对比
- Lucene索引是ES分片
- ES索引是分片的集合,索引的数据会存于多个分片
加载测试数据
- accounts.json, 格式如下:
{"index":{"_id":"1"}}
{"account_number":1,"balance":39225,"firstname":"Amber","lastname":"Duke","age":32,"gender":"M","address":"880 Holmes Lane","employer":"Pyrami","email":"amberduke@pyrami.com","city":"Brogan","state":"IL"}
{"index":{"_id":"6"}}
{"account_number":6,"balance":5686,"firstname":"Hattie","lastname":"Bond","age":36,"gender":"M","address":"671 Bristol Street","employer":"Netagy","email":"hattiebond@netagy.com","city":"Dante","state":"TN"}
{"index":{"_id":"13"}}
{"account_number":13,"balance":32838,"firstname":"Nanette","lastname":"Bates","age":28,"gender":"F","address":"789 Madison Street","employer":"Quility","email":"nanettebates@quility.com","city":"Nogal","state":"VA"}
- 导入数据
curl -H "Content-Type: application/json" -XPOST "localhost:9200/bank/_bulk?pretty&refresh" --data-binary "@accounts.json"
curl "localhost:9200/_cat/indices?v"
相关概念
- 并发控制
- 悲观并发控制:认为并发、冲突是大概率事件。要修改,先获得锁
- 乐观并发控制:认为并发、冲突是小概率事件。发生冲突,由业务自己决定如何处理
- ES中 所有更新和删除文档的请求都接受
version
参数,它可以允许在你的代码中增加乐观锁控制。
- TF/IDF
- TF : 词频率
- IDF : 反转文档率
- 当根据 TF/IDF 算法获得得分跟实际得分有差距的原因:本地IDF和全局IDF有区别,数据越大,这个差距会越小。避免这种问题有两种方法(测试使用,实际场景数据量大,不需要):
- 为了避免这个问题,可以创建只有一个主分片的索引,那么本地IDF就是全局IDF。
- 查询加参数 ?search_type=dfs_query_then_fetch
相关文档
- ES原理
- https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html
- https://www.elastic.co/cn/products/elasticsearch
- https://zh.wikipedia.org/wiki/Elasticsearch
- https://www.jianshu.com/p/4e412f48e820 mysql、hbase、es对比
- https://my.oschina.net/galenz/blog/422189
- http://www.ruanyifeng.com/blog/2017/08/elasticsearch.html