一、全文检索
全文检索是计算机程序通过扫描文章中的每一个词,对每一个词简历索引,指明改词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似通过字典的检索字表查字的过程,衡量全文检索系统的关键性指标:全面,准确,快速。
- 只处理文本,不处理语义,不进行语义转换查询;
- 检索时英文不区分大小写;
- 检索出的结果按相关性进行排序。
二、简介
You Know, for Search.
ElasticSearch是基于Apache Lucene构建的分布式开源搜索引擎,是当前最流行的企业级搜索引擎。Lucene本身被认为是迄今为止性能最好的一款开源搜索引擎工具包,但Lucene的API相对复杂,需要深厚的搜索理论,很难集成到实际的应用中。ES采用java语言编写,提供了简单易用的Restful API,开发者可以使用简单的Restful API,开发相关的搜索功能,避免Lucene的复杂性。
三、ES安装(7.14.0版本)
- 传统安装方式:下载安装包,解压
- Docker方式安装:推荐
3.1 传统安装方式
# 1.环境准备
- centos7.x+,windows,macos
- 安装jdk11.0+,并设置环境变量
# 2.下载ES
- https://www.elastic.co/cn/start
# 3.安装ES不要使用root用户,创建普通用户
# 添加用户名
$ useradd es
#修改密码
$ passwd es
# 4.解压缩ES安装包,解压后的目录如下图
$ tar -zxvf elasticsearch-7.14.0-linux-86_64.tar.gz
# 5.启动es,启动完,访问127.0.0.1:9200
$ ./elasticsearch
解压后的目录如下:
启动错误
- 虚拟内存过小:failure [1]:max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144].
解决方法:
$ vim /etc/sysctl.conf
vm.max_map_count=655360 #centos7 系统
vm.max_map_count=262144 #ubuntu 系统
$ sysctl -p
- 默认配置模式以集群启动:failure[2]:the default discovery settings are unsuitable for production use; at least one of[discoery.seed_hosts, discovery.seed_providers...
解决方法:
$ vim conf/elastic_search.yml
cluster.initial_master_nodes: [ "node-1" ].
- 必须已非root用户启动
解决方法:切换到普通用户启动。
解决上述错误后重启elasticsearch服务即可。
3.2 Docker方式安装
# 1.获取镜像
- docker pull elasticsearch:7.14.0
# 2.运行ES
- docker run -d -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" elasticsearch:7.14.0
# 3.访问ES
- http://127.0.0.1:9200/
3.3 elasticsearch.yml配置详解
network.host: 0.0.0.0 //配置远程访问
cluster.initial_master_nodes: [ "node-1" ] //设置单节点启动
四、Kibana(官方ES客户端工具)
Kibana是一个针对ElasticSearch的开源分析及可视化平台,使用Kibana可以查询、查看并与存储在ES索引的数据进行交互操作,使用Kibana能执行高级的数据分析,并能以图标、表格与地图的形式可视化数据。
4.1 Kibana传统方式安装
# 1. 下载Kibana
- https://elastic.co/download/kibana
# 2. 安装下载的Kibana
$ tar -zxvf kibana-7.14.0-linux-x86_64.tar.gz
# 3. 编辑kibana配置文件
$ vim ./kibana安装目录conf目录/kibana.yml
# 4.修改配置如下
- server.host: "0.0.0.0" #开启kibana远程访问
- elsaticsearch.hosts: [ "http://localhost:9200" ] #ES服务器地址
# 5. 启动kibana
- ./bin/kibana
输出"Kibana is now available(was degraded)"表示启动成功。
# 6. 访问kibana
- http://localhost:5601
4.1 Kibana Docker方式安装
# 1.获取镜像
- docker pull kibana:7.14.0
# 2.运行kibana
- docker run -d --name kibana -p 5601:5601 kibana:7.14.0
# 3.进入容器连接到ES,重启kibana容器,访问
- http://127.0.0.1:5601
# 4.基于数据卷加载配置文件方式运行
- a.从容器复制kibana配置文件出来
- b.修改配置文件对应的ES服务器地址
- c.通过数据卷加载配置文件方式启动
- docker run -d -v /宿主机kibana.yml目录/kibana.yml:/usr/share/kibana/config/kibana.yml --name kibana -p 5601:5601 kibana:7.14.0
4.3 compose方式安装(推荐)
# kibana配置文件连接到es
server.host: "0"
server.shutdownTimeout: "5s"
elasticsearch.hosts: [ "http://elasticsearch:9200" ]
#monitoring.ui.container.elasticsearch.enable: true
version: "3.8"
volumes:
data:
config:
plugin:
networks:
es:
services:
elasticsearch:
environment:
- "discovery.type=single-node"
- "ES_JAVA_OPTS=-Xms512m -Xmx512m"
image: "elasticsearch:7.14.0"
ports:
- "9200:9200"
- "9300:9300"
networks:
- "es"
volumes:
- data:/usr/share/elasticsearch/data
- config:/usr/share/elasticsearch/config
- plugin:/usr/share/elasticsearch/plugin
kibana:
image: kibana:7.14.0
ports:
- "5601:5601"
networks:
- "es"
volumes:
- ./kibana.yml:/usr/share/kibana/config/kibana.yml
五、核心概念(索引,映射,文档)
索引(index):索引就是一个拥有相似文档的集合,索引由一个名字来唯一标识(全小写),在对这个索引中的文档进行索引、搜索、更新和删除的时候都要使用这个索引名。
映射(mapping):定义一个文档和它所包含的字段如何被存储和索引的过程,mapping中主要包括字段及其类型。动态映射,根据文档自动创建mapping,静态映射,存储文档前自定义mapping(更符合业务实际场景)。
文档(document):文档中存储的一条条数据,一条文档是可被索引的最小单元,文档采用轻量级的JSON数据格式来表示。
基本操作
索引
# 1.查看索引
GET /_cat/indices?v
health status index uuid pri rep docs.count docs.deleted store.size pri.store.size
green open .kibana-event-log-7.14.0-000001 fEP5eEZ5SmavP6C8FY6iSQ 1 0 4 0 21.8kb 21.8kb
green open .geoip_databases 2HuyGoOZRmuFBfbz5khHuw 1 0 41 34 41.5mb 41.5mb
green open .kibana_7.14.0_001 Nur7JeOSQkiqJZ8ek-N3dA 1 0 52 5 4.3mb 4.3mb
green open .apm-custom-link Lyy8YHKmRguONODxP6p2Vw 1 0 0 0 208b 208b
green open .apm-agent-configuration 1MwrINkORBiqoBipgvhycA 1 0 0 0 208b 208b
green open .kibana_task_manager_7.14.0_001 rihXKN13TF-q57ZXRJPyVw 1 0 14 2004 17mb 17mb
yellow open backup_products ijd5atmoQlKf2jC4MuA86g 1 1 0 0 208b 208b
green open products 7w2ie_Q0SIm7OHIOsBG_PQ 1 0 0 0 208b 208b
green open .tasks BE5vwDh0QgWJJorQJRdeCA 1 0 4 0 21.3kb 21.3kb
# 2.创建索引
#PUT /索引名 ====> PUT /products
- 注意:
1.ES中的索引健康状态 red(索引不可用) yellow(索引可用,存在风险) green(健康)
2.默认ES创建索引时会为索引创建一个备份索引和一个primary索引
# 3.创建索引 进行索引分片配置
PUT /products
{
"settings": {
"number_of_shards": 1, #指定主分片的数量
"number_of_replicas": 0 #指定副本分片的数量
}
}
# 4.创建成功返回
{
"acknowledged" : true,
"shards_acknowledged" : true,
"index" : "products"
}
# 5.删除索引(不允许修改)
DELETE /products
映射
# 1.创建索引&映射
PUT /products
{
"settings": {
"number_of_shards": 1,
"number_of_replicas": 0
},
"mappings": {
"properties": {
"title":{
"type":"keyword",
"store": true
},
"price":{
"type":"double"
},
"create_at":{
"type":"date"
},
"description":{
"type":"text",
"store": true,
"analyzer": "standard"
}
}
}
}
# 2.查看已创建的索引映射
GET /products/_mapping
# 3.映射不允许修改,只能删除
文档
# 1.添加文档
# 指定文档id
POST /products/_doc/1
{
"title":"iphone13",
"price":7999.0,
"create_at":"2019-10-01",
"description":"Iphone13是一款性能不错的手机,价格偏贵"
}
# 自动生成文档id
POST /products/_doc/
{
"title":"HuaweiP50",
"price":5999.0,
"create_at":"2021-10-01",
"description":"HuaweiP50是一款性能不错的手机,喜欢拍照的女生可以购买"
}
# 2.文档的查询
#基于id查询
GET /products/_doc/1
#3.删除文档
#根据id删除
DELETE /products/_doc/1
# 4.更新文档
#根据id更新,删除原始文档再添加新文档,若不想删除原文档,将原文档全部字段传递
PUT /products/_doc/1
{
"title":"小米10"
}
#根据指定字段更新,保留原文档
POST /products/_doc/1/_update
{
"doc":{
"title":"小米10"
}
}
# 5.批量操作文档
# 增加两条记录,修改一条记录,删除一条记录
POST /products/_doc/_bulk
{"index":{}}
{"title":"HuaweiMate40","price":6999.0,"create_at":"2020-10-01","description":"Huawei Mate 20是华为手机的谢幕之作"}
{"index":{}}
{"title":"Honor 60 Pro","price":3699.0,"create_at":"2021-10-01","description":"荣耀最新手机60 pro还是不错的"}
{"update":{"_id":3}}
{"doc":{"tilte":"华为P40 pro"}}
{"delete":{"_id":"R8WrNX8Be4vXDspnRdKS"}}
#批量操作时不会因为一个失败而全部失败,而是继续执行后续操作,攒返回时按照执行的状态返回!
六、高级查询Query DSL
ES提供强大的数据检索方式,这种方式称之为Query DSL(Domain Specific Language),Query DSL是利用Rest API传递JSON格式的请求体数据与ES进行交互,这种方式的丰富查询语法让ES检索变得更强大,更简洁。
语法
GET /索引名/_search {json格式请求体数据}
# 1.查询所有,match_all
GET /products/_search
{
"query": {
"match_all": {}
}
}
# 2.基于term查询,term,注意text类型字段会分词,其余类型均不会分词
# 默认text字段使用标准分词器,英语是单个单词分词,中文是单字分词
GET /products/_search
{
"query": {
"term": {
"title": {
"value": "iphone13"
}
}
}
}
# 3.基于范围查询查询,range
GET /products/_search
{
"query": {
"range": {
"price": {
"gte": 5000,
"lte": 7000
}
}
}
}
# 4.基于前缀查询,prefix
GET /products/_search
{
"query": {
"prefix": {
"title": {
"value": "iphone"
}
}
}
}
# 5.通配符查询,?匹配任意一个字符, *匹配任意多个字符,wildcard
GET /products/_search
{
"query": {
"wildcard": {
"title": {
"value": "H?aweiMate*"
}
}
}
}
# 6.多ids查询,ids
GET /products/_search
{
"query": {
"ids": {
"values": [1,2,3]
}
}
}
# 7.模糊查询,fuzzy
#注意,fuzzy模糊查询,最大模糊错误必须在0-2之间
- 搜索关键词长度为2,不允许存在模糊
- 搜索关键词长度为3-5,允许一次模糊
- 搜索关键词长度为大于5,允许最大2模糊
GET /products/_search
{
"query": {
"fuzzy": {
"title": "Honor 60 pro"
}
}
}
# 8.bool查询,bool(must,should,must_not)
#bool关键字:用来组合多个条件复杂查询
- must:相当于&&,必须成立
- should:相当于||,
- must_not:相当于!,必须不成立
GET /products/_search
{
"query": {
"bool": {
"should": [
{
"term": {
"title": {
"value": "Honor 60 Pro"
}
}
},
{
"range": {
"create_at": {
"lt": "2021-10-01"
}
}
}
]
}
}
}
# 9.多字段查询
# 注意:query输入关键词 输入一段文本,搜索词会分词
GET /products/_search
{
"query": {
"multi_match": {
"query": "iphone13",
"fields": ["title","description"]
}
}
}
# 10.默认字段查询
# 注意:查询字段类型是分词则查询条件会分词查询,查询字段类型部分词则查询条件不会分词查询
GET /products/_search
{
"query": {
"query_string": {
"default_field": "description",
"query": "真贵"
}
}
}
# 11.高亮查询,highlight
#只有分词字段能高亮,通过pre_tags和post_tags自定义高亮标签
GET /products/_search
{
"query": {
"term": {
"description": {
"value": "iphone13"
}
}
},
"highlight": {
"fields": {
"description":{}
},
"pre_tags":"<a>",
"post_tags": "</a>"
}
}
# 12.分页查询,from,size
# 默认from = 0, size = 10
GET /products/_search
{
"query": {
"match_all": {}
},
"size": 5,
"from": 2
}
# 13.查询后排序,sort
#先按日期降序,再按价格升序排序
GET /products/_search
{
"query": {
"match_all": {}
},
"sort": [
{
"create_at": {
"order": "desc"
}
},
{
"price": {
"order": "asc"
}
}
]
}
# 14.查询后返回指定字段,_source
GET /products/_search
{
"query": {
"match_all": {}
},
"_source": ["title","price","create_at"]
}
七、索引原理
倒排索引:也叫反向索引,与数据库的正向索引对应。反向索引是通过value找key,再根据key拿记录,ES底层再检索使用的就是倒排索引。
现有索引和映射如下:
{
"products" : {
"mappings" : {
"properties" : {
"description" : {
"type" : "text",
},
"price" : {
"type" : "integer"
},
"title" : {
"type" : "keyword"
}
}
}
}
}
先录入如下数据,有三个字段title,price, description等
_id | title | price | description |
---|---|---|---|
1 | 苹果手机 | 13999.0 | 苹果手机系统很流畅 |
2 | 华为电脑 | 8999.0 | 很不错的电脑 |
3 | 小米背包 | 129.0 | 年轻人的第一个背包,很好 |
八、分词器
Analysis:文本分词是把全文本转换成一系列单词(term/token)的过程,也叫分词(Analyzer)。Analysis是通过Analyzer来实现的。 分词就是将文档通过Analyzer分成一个一个的Term(关键词查询),每一个Term都指向包含这个Term的文档。
分词器由三种构建组成:Character Filters(0或多个)->Tokenizers->Token Filters(0或多个)
Character Filters:对文本进行预处理,如过滤html标签;
Tokenizers分词器: 标准分词器将英文按空格分词为单词,中文单个汉字分词;
Token Filters: 将切分单词进行加工,大小写转换,去除停用词,加入同义词等。
内置分词器
- Standard Analyzer:默认分词器,英文按单词词切分,并小写处理;
- Simple Analyzer:按照单词切分(符号被过滤),小写处理;
- Stop Analyzer:小写处理,停用词过滤;
- Whitespace Analyzer:按照空格切分,不转小写;
- Keyword Analyzer:不分词,直接将输入作为输出。
# 1.标准分词器
GET /_analyze
{
"analyzer": "standard",
"text":"中华人民共和国,I am Chinese"
}
# 2.simple分词器
GET /_analyze
{
"analyzer": "simple",
"text":"中华人民共和国,I am Chinese"
}
# 3.stop分词器
GET /_analyze
{
"analyzer": "stop",
"text":"中华人民共和国,I am Chinese"
}
# 4.whitespace分词器
GET /_analyze
{
"analyzer": "whitespace",
"text":"中华人民共和国,I am Chinese"
}
# 5.keyword分词器
GET /_analyze
{
"analyzer": "keyword",
"text":"中华人民共和国,I am Chinese"
}
# 6.ik分词器(ik_smart)
{
"analyzer": "ik_smart",
"text":"中华人民共和国,I am Chinese"
}
# 7.ik分词器(ik_max_word,切分更细)
{
"analyzer": "ik_smart",
"text":"中华人民共和国,I am Chinese"
}
IK中文分词器
安装IK分词器
# github地址:https://github.com/medcl/elasticsearch-analysis-ik
- 注意IK分词器的版本与ES的版本要一致
- Docker容器运行ES安装插件目录为:/usr/share/elasticsearch/plugins
# 1.下载对应版本
- wget https://github.com/medcl/elasticsearch-analysis-ik/release/download/v7.14.0/elasticsearch-analysis-ik.zip
# 2.解压安装包
- tar -zxvf elasticsearch-analysis-ik.zip ./
# 3.映射plugins
- ./plugins/ik-7.14.0:/usr/share/elasticsearch/plugins/ik-7.14.0
IK的两种颗粒度拆分
- ik_smart: 做最粗粒度的拆分
- ik_max_word:文本按最细粒度的拆分
扩展词、停用词
- 扩展词典:有些词不是关键词,但是也希望被ES用来作为检索的关键词,可以将这些词加入到扩展词典。
-
停用词典:有些词是关键词,但出于业务场景不想使用这些关键词被检索到,可以将这些词放入停用词典。
定义扩展词典和停用词典可以修改IK分词器中config目录中IKAnalyzer.cfg.xml文件。
#1.修改vim IKAnalyzer.cfg.xml,配置扩展词典项与停用词典项
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">my_ext.dic<entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">my_stop.dic</entry>
<!--用户可以在这里配置远程扩展字典 -->
<!-- <entry key="remote_ext_dict">words_location</entry> -->
<!--用户可以在这里配置远程扩展停止词字典-->
<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
#2.重启elasticsearch服务即可
九、过滤查询
Filter查询:过滤查询只会筛选符合条件的文档并不会计算得分,而且它可以缓存文档,查询性能优于query。适合在大范围筛选数据,而query适合精确匹配数据。一般应用是,应先使用过滤操作过滤数据,然后使用查询匹配数据。
# 注意:
- filter查询必须配合bool使用;
- 在执行filter和query时,先执行filter再执行query;
- ElasticSearch会自动缓存经常使用的过滤器,以加快性能。
#常用的过滤类型:term, terms, range, exists, ids等filter
GET /products/_search
{
"query": {
"bool": {
"must": [
{
"match_all": {}
}
],
"filter": [
{
"terms": {
"title": [
"Honor 60 Pro",
"iphone13"
]
}
}
]
}
}
}
十、集群cluster
集群主要是为了高可用,单节点的问题主要是:
- 存在单节点故障问题;
- 存在单节点并发压力问题,高并发场景下崩溃;
- 存在单节点物理上线问题,存储磁盘不够用等。
相关概念
概念 | 含 义 |
---|---|
集群<cluster> | 一个或多个节点组织在一起,共同持有所有的数据,并一起提供索引和搜索功能。一个集群由唯一的名字标识。默认elasticsearch,节点通过指定某个集群的名字来加入集群。 |
节点<node> | 集群中的一个服务器,负责存储数据,参与集群的索引与搜索功能,一个节点由一个名字来标识。 |
索引<index> | 一组相似文档的集合 |
映射<mapping> | 用以定义文档及其字段如何被索引与存储的过程 |
文档<document> | 索引中的一条记录,可以被索引的最小单元 |
分片<shards> | 提供将索引划分成多份的能力,每一份就是一个分片,每个分片本身就是一个功能完善并且独立的“索引”。 |
副本<replicas | Index的分片中一份或多份副本。 |
集群搭建
# 1.准备三个ES节点,ES 9200 9300
- http:9201 tcp:9301 node-1 elasticsearch.yml
- http:9202 tcp:9302 node-1 elasticsearch.yml
- http:9203 tcp:9303 node-1 elasticsearch.yml
-注意
- 所有节点集群名称必须一直 cluster.name
- 每个节点必须有唯一名字 node.name
- 开启每个节点远程连接 network.host: 0.0.0.0
- 指定使用IP地址进行集群节点通信: network.publish_host
- 修改web端口与tcp端口:http:port transport.tcp.port
- 指定集群中所有节点通信列表:discovery.seed_hosts:node-1 node-2 node-3
- 允许集群初始化master节点数:cluster.initial_master_nodes:[ "node-1", "node-2", "node-3" ]
- 集群最少几个节点可用:gateway.recover_after_nodes:2
- 开启每个节点跨域访问:http.cors.enabled:true http.cors.allow-origin: "*"
# node1配置
cluster.name: my-application
node.name: node-1
network.host: 127.0.0.1
network.publlish_host: 127.0.0.1
http.port: 9201
transport.tcp.port: 9301
discovery.seed_hosts: ["127.0.0.1:9301","127.0.0.1:9302","127.0.0.1:9303"]
cluster.initial_master_nodes: ["node-1", "node-2", "node-3"]
gateway.recover_after_nodes: 2
http.cors.enabled: true
http.cors.allow-origin: "*"
# node2配置
cluster.name: my-application
node.name: node-2
network.host: 127.0.0.1
network.publlish_host: 127.0.0.1
http.port: 9202
transport.tcp.port: 9302
discovery.seed_hosts: ["127.0.0.1:9301","127.0.0.1:9302","127.0.0.1:9303"]
cluster.initial_master_nodes: ["node-1", "node-2", "node-3"]
gateway.recover_after_nodes: 2
http.cors.enabled: true
http.cors.allow-origin: "*"
# node3配置
cluster.name: my-application
node.name: node-3
network.host: 127.0.0.1
network.publlish_host: 127.0.0.1
http.port: 9203
transport.tcp.port: 9303
discovery.seed_hosts: ["127.0.0.1:9301","127.0.0.1:9302","127.0.0.1:9303"]
cluster.initial_master_nodes: ["node-1", "node-2", "node-3"]
gateway.recover_after_nodes: 2
http.cors.enabled: true
http.cors.allow-origin: "*"
# docker-compose.yml配置
version: "3.8"
volumes:
data:
config:
networks:
esclusetr:
services:
es01:
image: elasticsearch:7.14.0
environment:
- "discovery.type=single-node"
- "ES_JAVA_OPTS=-Xms512m -Xmx512m"
image: "elasticsearch:7.14.0"
ports:
- "9200:9201"
- "9300:9301"
networks:
- "esclusetr"
volumes:
- ./node-1/data:/usr/share/elasticsearch/data
- ./node-1/config:/usr/share/elasticsearch/config
- ./node-1/plugins/ik-7.14.0:/usr/share/elasticsearch/plugins/ik-7.14.0
es02:
image: elasticsearch:7.14.0
environment:
- "discovery.type=single-node"
- "ES_JAVA_OPTS=-Xms512m -Xmx512m"
image: "elasticsearch:7.14.0"
ports:
- "9200:9202"
- "9300:9302"
networks:
- "esclusetr"
volumes:
- ./node-2/data:/usr/share/elasticsearch/data
- ./node-2/config:/usr/share/elasticsearch/config
- ./node-2/plugins/ik-7.14.0:/usr/share/elasticsearch/plugins/ik-7.14.0
es03:
image: elasticsearch:7.14.0
environment:
- "discovery.type=single-node"
- "ES_JAVA_OPTS=-Xms512m -Xmx512m"
image: "elasticsearch:7.14.0"
ports:
- "9200:9203"
- "9300:9303"
networks:
- "esclusetr"
volumes:
- ./node-3/data:/usr/share/elasticsearch/data
- ./node-3/config:/usr/share/elasticsearch/config
- ./node-3/plugins/ik-7.14.0:/usr/share/elasticsearch/plugins/ik-7.14.0
kibana:
image: kibana:7.14.0
ports:
- "5601:5601"
networks:
- "es"
volumes:
- ./kibana.yml:/usr/share/kibana/config/kibana.yml
#查看集群状态
http://127.0.0.1:9201/_cat/health?v
Head插件查看集群状态
# 1.访问github网站
搜索:elasticsearch-head插件
# 2.安装git
yum install git
# 3.下载elasticsearch-head到本地
git clone git://github.com/mobz/elasticsearch-head.git
# 4.安装node.js
wget http://cdn.npm.taobao.org/dist/node/lastest-v8.x/node-v8.1.2-linux-x64.tar.xz
# 5.解压缩node.js
tar -xvf node-v10.15.3-linux-arm64.tar
# 6.设置环境变量
mv node-v10.15.3-linux-arm64 nodejs
mv nodejs /usr/nodejs
vim /etc/profile
- export NODE_HOME=/usr/nodejs
- export PATH=$PATH:$JAVA_HOME/bin:$NODE_HOME/bin
# 7.进入elasticsearch-head目录
npm config set registry https://registry.npm.taobao.org
npm install
npm run start
# 8.启动访问head插件 默认端口9100
http://127.0.0.1:9100 查看集群状态
十一、核心原理
11.1 ES的写入与检索原理
- 假如选择了Node2(DataNode)发送请求,此时Node2称为coordinating node(协调节点)
- 计算得到文档要写入的分片 shard = hash(routing) % number_of_primary_shards routing 是一个可变值,默认是文档的 _id
- coordinating node会进行路由,将请求转发给其他DataNode(对应某个primary shard,假如主分片在Node1节点上)
- Node1上的Primary Shard处理请求,写入数据到索引库中,并将数据同步到其他的Replica Shard中
- Primary Shard 和 Replica Shard都保存完文档后,返回客户端。
- 假如选择了Node2,此时Node2称为coordinating node(协调节点)
- 协调节点(Coordinating Node)将查询请求广播到每一个数据节点,这些数据节点的分片会处理该查询请求。
- 每个分片进行数据查询,将符合条件的数据放在一个优先队列中,并将这些数据的文档ID、节点信息、分片信息返回给协调节点。
- 协调节点将所有的结果进行汇总,并进行全局排序。
- 协调节点向包含这些文档ID的分片发送get请求,对应的分片将文档数据返回给协调节点,最后协调节点将数据返回给客户端。