Elasticsearch 是一个分布式的开源搜索引擎,用于存储和检索数据。它使用灵活的、无模式的数据模型,可以轻松地索引和搜索数据。Elasticsearch 的存储结构由多个组件组成,包括索引、文档、分片、副本和 Lucene 索引。
分片、副本、索引
- 索引是 Elasticsearch 中最小的数据存储单元。每个索引都有一个唯一的名称,并且可以包含多个文档类型。文档是 Elasticsearch 中的基本数据单元,表示为 JSON 对象。每个文档可以包含多个字段,每个字段都有一个名称和相应的值。
{![Untitled 1.png](https://upload-images.jianshu.io/upload_images/12192745-4294c85f343e1133.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
![Untitled 2.png](https://upload-images.jianshu.io/upload_images/12192745-c27c39563233ed9d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
![Untitled.png](https://upload-images.jianshu.io/upload_images/12192745-0c5f79443592f060.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
"索引名称": {
"mappings": {
"文档类型": {
"properties": {
"字段名1": {
"type": "数据类型1"
},
"字段名2": {
"type": "数据类型2"
},
...
}
}
}
}
}
- 为了支持大规模的数据存储和处理,Elasticsearch 将每个索引分成多个分片。每个分片是索引数据的子集,可以看作是一个较小的独立索引。分片可以分布在群集中的多个节点上,使 Elasticsearch 能够存储和处理大量的数据。
- 为了提高数据的可用性和冗余性,Elasticsearch 可以创建每个分片的副本。每个副本是分片数据的完整副本,可以存储在不同的节点上。这使得 Elasticsearch 能够在节点或分片故障时继续提供数据服务。
在底层,Elasticsearch 使用 Lucene 作为其搜索引擎库。每个分片对应一个 Lucene 索引,它是一种数据结构,可以进行快速和高效的全文搜索。Lucene 索引是倒排索引,它优化了按关键字而不是按文档进行搜索。
当文档在 Elasticsearch 中索引时,它被分配到特定的索引和一个或多个分片中。每个分片都分配到群集中的一个特定节点上,根据需要创建副本以确保数据的可用性。通过为每个索引配置分片和副本的数量,Elasticsearch 可以平衡数据容量和可用性,同时优化性能和可扩展性。
节点
节点是一个 Elasticsearch 的实例,本质上是一个 Java 进程。每个节点上都保存着集群的状态信息,包括所有的节点信息、所有的索引和相关的 Mapping 与 Setting 信息以及分片的路由信息等。节点按照角色可以划分为主节点、数据节点、协调节点和预处理节点等。
Master节点:是Elasticsearch集群中的核心节点,负责集群的管理和协调工作,例如创建和删除索引,分配分片等。Master节点是集群中的唯一节点,负责维护集群状态、处理节点故障和重新选举新的Master节点等任务。此外,为了提高可用性,通常会配置多个Master候选节点进行备份和故障转移,这些节点也被称为Master-eligible节点。(配置项:node.master,默认为true)
Data节点:负责存储索引数据和执行搜索操作。一个集群中可以有多个Data节点。此外,Data节点还可以根据需要进行水平扩展,以应对数据量增加的情况。在扩展时,可以添加新的节点并将数据重新分配到这些节点上,以实现更高效的数据存储和搜索。除此之外,Data节点还负责数据备份和恢复,在数据丢失或损坏时可以快速恢复数据。因此,在设计集群架构时需要合理规划Data节点的数量和配置,以确保系统的稳定性和可靠性。(配置项:node.data,默认为true)
Ingest节点:Ingest节点是ELK(Elasticsearch, Logstash, Kibana)架构中的重要组成部分,主要用于对数据进行预处理。它可以在数据到达Data节点之前对数据进行解析、转换和过滤。这样可以在数据被索引之前对其进行规范化和优化,从而提高数据处理和查询的效率。Ingest节点通常与Data节点一起部署,因为它们需要共享相同的数据存储。数据在Ingest节点上进行预处理,然后将其发送到Data节点进行索引和存储。这样可以确保数据处理的一致性,并减少数据传输的成本和延迟。(配置项:node.ingest,默认为true)
Client节点:作为客户端与集群进行交互,例如执行搜索请求。Client节点不存储任何数据,它们只是转发请求到Data节点并返回结果。
Coordinating节点:负责协调搜索请求的处理,并将结果聚合返回给客户端。Coordinating节点通常与Client节点一起部署,但也可以与Data节点一起部署以减少网络延迟。(配置项:设置上面三个参数全部为false,那么它就是一个纯协调节点)
在一个集群中,一个节点可以同时扮演多个角色。例如,一个节点可以同时是Master节点和Data节点,或者是Data节点和Ingest节点。
如果在部署时不特意指定节点类型配置,那么就同时拥有 Master、Data、Ingest 角色(Master 是通过选举产生的,并不代表每个节点都是 Master)。