【Elasticsearch 7 搜索之路】（一）什么是 Elasticsearch？

本篇文章对 Elasticsearch 做了基本介绍，在后续将通过专栏的方式持续更新，本系列以 Elasticsearch7 作为主要的讲解版本，欢迎各位大佬指正，共同学习进步涨工资！

一般涉及大型数据库的电子商务和搜索引擎的产品都面临这样一个问题，产品信息检索花费时间太长。这不良的用户体验，可能导致失去潜在的客户。这种滞后搜索归因于产品设计所使用到关系数据库，数据分散在多个表中，关系型数据处理这些表中数据获取搜索结果时工作速度是远远不能瞒足。可以说，现在的企业正在寻找数据存储的替代品，以期促进快速检索，而 Elasticsearch（ES）的出现很好解决这些问题。

image

1、什么是 Elasticsearch？

Elasticsearch 是基于 Lucene 的搜索引擎。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful Web接口。

换句话说，Elasticsearch 是用 Java 开发的开源，独立数据库服务器。基本上，它用于全文搜索和分析。它从各种来源获取数据，并将其存储为针对搜索进行了高度优化的复杂格式。如上所述，Elasticsearch 将 Apache Lucene 作为搜索的核心。由于 Lucene 只是一个库，使用起来有一定难度。但是你不必担心，Elasticsearch 对搜索引擎操作都进行封装，可以通过使用对应的 Restful 的 API 进行操作。使用 Elasticsearch 可以快速有效地存储，搜索和分析大量数据，而且在处理半结构化数据（即自然语言）时特别有用。

2、Elasticsearch 能做什么？

平时我们在 GitHub 上进行搜索的时候，Github 不仅可以帮我们找到相隔的代码产库，还可以帮助实现代码级的搜索及搜索词的高亮的显示，。当你在网上购物的时候，它也可以帮助你做商品的推荐。当你下班的时候，Elasticsearch 可以帮助你定位附件的乘客和司机，帮助平台优化调度，除了搜索，结合 Kibana、Logstash、Beats 的 ELK（Elastic Stack）还被广泛使用在大数据近实时分析的领域，包括了日志分析、指标监控、信息安全等多个领域，它可以帮助你探索海量的、结构化的、非结构化的数据，按需创建是可视化报表，对监控数据设置报警阀值。

image

3、Elasticsearch 5、6、7版本特性史

V5.x

Lucene 6.x,
性能提升，默认打分机制从 TF-IDF 改为 BM 25
支持 Ingest 节点、 Completion suggested 、Java REST 客户端
Type 标记成 deprecated,支持了 Keyword 的类型
性能优化
- 减少了内部争竞争，防止对同一文档进行并发更新的竞争以及在同步事务日志时减少了锁定要求，索引吞吐量已得到了极大的提高
- Instant Aggregations，在 Shard 层面提供了 Aggregation 缓存
- 新增了 Profile API

V6.x

Lucene 7.x
Removal of types，在 6.0 里面，开始不支持一个 index 里面存在多个 type
跨多个Elasticsearch集群搜索，保留原来的索引在 5.x 群集，跨群集搜索来同时搜索 6.x 和 5.x 群集
跨群集复制（CCR）
更友好的的升级及数据迁移，在主要版本之间的迁移更为简化，体验升级
性能优化
- 稀疏区域改进，降低了存储成本
- 通过索引排序，可加快排序的查询性能

V7.x

Lucene 8.0
重大改进-正式废除单个索引下多 Type 的支持
7.1开始，Security 功能免费使用
ECK，允许用户在 Kubernetes 上配置，管理和操作 Elasticsearch 集群
TransportClient 被废弃
以至于，ES7 的 Java 代码，只能使用 restclient
新功能
- 新的集群协调
- 功能更完善的 REST Client
- Script Score Query，下一代的评分方式
性能优化
- 默认的 Primary Shard 数从 5 改为 1，避免 Over Sharding
- 性能优化，更快的 Top K 检索

4、Elasticsearch 基本概念

要了解 Elasticsearch ，首先要先了解下面的几个专有名词，索引（Index）、文档（ Document)、类型（Type）

索引（Index）

Index 一索引是文档的容器，是一类文档的结合
- Index 体现了逻辑空间的概念：每个索引都有自己的 Mapping，用于定义包含的文档的字段名和字段类型
- Shard 体现了物理空间的概念：索引中的数据分散在 Shard 上
索引的 Mapping 与 Settings
- Mapping 定义文档字段的类型
- Setting 定义不同的数据分布

定义不同的数据分布

{
  "movies" : {
    "settings" : {
      "index" : {
        "creation_date" : "1570452552",
        "number_of_shards" : "5",
        "number_of_replicas" : "1",
        "uuid" : "pB0UsxjfQT2fW-s8Uy-Nsg",
        "version" : {
          "created" : "2030599"
        }
      }
    }
  }
}

定义文档字段的类型

{
    "movie": {
        "mappings": {
            "doc": {
                "properties": {
                    "songName": {
                        "type": "text"
                    },
                    "singer": {
                        "type": "text"
                    },
                    "price": {
                        "type": "integer"
                    }
                }
            }
        }
    }
}

索引有不同语义，在 ES 中指的是在集群中创建的索引（名词），也可以指的是文档到 ES 的过程（动词），即是一次倒排索引的过程。而在其他地方看到索引更多表示 B 树索引或者倒排索引。

文档（ Document)

Elasticsearch 是面向文档的，文档是所有可搜索数据的最小单位
- 日志文件中的日志项
- 一本电影的具体信息
- 一首歌的详细信息
文档会被序列化成 JSON 格式，保存在 Elasticsearch 中
- JSON 对象由字段组成，
- 每个字段都有对应的字段类型（字符串/数值/布尔/日期/二进制/范围类型)
每个文档都有一个 Unique ID
- 可以自己指定 ID 或者通过 Elasticsearch 自动生成

案例

{
    "songName" : "说好不哭",
    "singer" : "周杰伦",
    "price" : 3
}

文档的元数据

{
  "_index" : "song",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 1,
  "found" : true,
  "_source" : {
    "songName" : "说好不哭",
    "singer" : "周杰伦",
    "price" : 3
  }
}

元数据，用于标注文档的相关信息
- _index ：文档所属的索引名
- _type ：文档所属的类型名
- _id ：文档唯一 Id
- _source：文档的原始 JSON 数据
- _all：整合所有字段内容到该字段，已被废除
- _version：文档的版本信息
- _score：相关性打分

类型（Type）

在 7.0 之前，一个 Index 可以设置多个 Types
6.0 开始， Type 已经被 Deprecated。7.0 开始一个索引，只能创建一个 Type -"_doc"。

5、RDBMS VS Elasticsearch

下面是 RDBMS 和 Elasticsearch 一个不是很恰当类比，Elasticsearch 集群可以包含多个索引 Indes（数据库），每一个索引可以包含一个doc类型 Type（表），每一个类型包含多个文档 Document（记录），然后每个文档包含多个字段 Fields（列），DSL 相当于 RDBMS 的 SQL。

RDBMS	Elasticsearch
Schema	Mapping
Table	Index(Type)
Column	Filed
Row	Document
SQL	DSL

6、小结

与传统 SQL 数据库管理系统（其花费10秒钟以上的时间来获取所需的搜索查询数据）相比，Elasticsearch 可以在10毫秒内完成此操作。由于 Elasticsearch 具有分布式架构，因此它可以扩展到数千个服务器并容纳PB级的数据。我们不必管理分布式设计的复杂性，因为 ES 已经自动完成。我们有多种方法可以为一些文档建立索引或查询它们，然而在使用 ES 下，我们可以轻松实现在海量数据快速检索全文，得到我们想要的结果。

最后编辑于：2019.11.06 15:28:26

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343

【Elasticsearch 7 搜索之路】（一）什么是 Elasticsearch？

推荐阅读更多精彩内容