Elasticsearch 外部词库文件更新

本文所使用的ES集群环境可在历史文章中获取，采用docker部署的方式。

Elasticsearch 是一个功能强大的搜索引擎，广泛用于构建复杂的全文搜索应用程序。在许多情况下，为了提高搜索引擎的性能和精度，我们可以使用外部词库来定制和扩展 Elasticsearch 的文本处理和搜索功能。本文将介绍外部词库的用途、优势以及如何在 Elasticsearch 中使用它们。

为什么需要外部词库？

Elasticsearch 默认提供了一套强大的文本处理工具，包括分词、标记过滤、同义词处理等。然而，在某些情况下，我们需要更多的控制权来适应特定的用例和需求。外部词库允许我们：

自定义分词器：通过使用外部词库，您可以创建自定义分词器，以根据特定需求定义文本分割规则。这对于处理不同语言或行业的文本非常有用。
扩展停用词列表：停用词（如and、the等）通常被排除在搜索索引之外。外部词库允许您将领域特定的停用词添加到索引中，以便更好地适应我们行业内的数据。
同义词处理：创建同义词词库可确保相关词汇在搜索时被正确映射，提高搜索结果的准确性。
专业术语：对于特定领域或行业，我们可以通过创建外部词库，以包含特定领域的专业术语，确保搜索引擎能够理解和处理这些术语。

使用外部词库的优势

使用外部词库有以下优势：

提高搜索质量：通过自定义分词和停用词，可以确保搜索引擎更好地理解和处理文本，提高搜索质量。
适应特定需求：外部词库允许根据特定用例和领域需求对搜索引擎进行定制，以满足工作要求。
更好的用户体验：通过包含专业术语和扩展的同义词映射，用户能够更轻松地找到他们需要的内容。

如何在 Elasticsearch 中使用外部词库

在 Elasticsearch 中使用外部词库通常涉及以下步骤：

创建外部词库文件：首先，我们需要准备一个外部词库文件，其中包含自定义的词汇、同义词或停用词列表。
将词库上传到 Elasticsearch：上传词库文件到 Elasticsearch
配置索引：将外部词库与索引相关联，以确保 Elasticsearch 在索引文档时使用这些词汇。
搜索优化：根据需要在搜索查询中应用外部词库，以扩展或定制搜索行为。

示例：使用自定义词库分词

本文在 IK分词器的基础上增加自定义分词，并配置本地词库文件，远程热更新词库文件。

本地词库

首先在启动的ES中对醉鱼两个字进行分词，IK默认分为两个汉字

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": ["醉鱼"]
}

结果如下

{
  "tokens" : [
    {
      "token" : "醉",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0
    },
    {
      "token" : "鱼",
      "start_offset" : 1,
      "end_offset" : 2,
      "type" : "CN_CHAR",
      "position" : 1
    }
  ]
}

而我们的需求是让其能分为一次词语，而不是两个汉字，那么下面引入我们的自定义分词文件

在 ES 的 plugins/ik/config 目录下创建自定义词库文件 zuiyu.dic，文件内容如下，格式为一个词语为一行。
```
醉鱼
```

修改 IK 的配置，支持自定义分词文件，修改plugins/ik/config 目录下的IKAnalyzer.cfg.xml，修改其中<entry key="ext_dict"></entry>的值，为本地文件路径，配置为相对路径，直接填写上一步创建的zuiyu.dic，结果如下

<entry key="ext_dict">zuiyu.dic</entry>

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
  <comment>IK Analyzer 扩展配置</comment>
  <!--用户可以在这里配置自己的扩展字典 -->
  <entry key="ext_dict">zuiyu.dic</entry>
   <!--用户可以在这里配置自己的扩展停止词字典-->
  <entry key="ext_stopwords"></entry>
  <!--用户可以在这里配置远程扩展字典 -->
  <!--<entry key="remote_ext_dict"></entry>-->
  <!--用户可以在这里配置远程扩展停止词字典-->
  <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

如果是启动的ES集群，需要复制当前两个文件到所有的集群中

1、当前集群有三个节点，其中都配置本地词库文件，但是node1，node2中都没有增加醉鱼这词语，只有node3有，此时使用分词是无法达到预期效果的。

2、node1中配置正常的<entry key="ext_dict">zuiyu.dic</entry>，zuiyu.dic中也包含醉鱼这个词语。node2，node3都不配置ext_dict，此时当前这个环境是可以进行正确分词，达到预期的结果的。
重启 ES
测试分词效果，使用同样的分词语句
```
GET _analyze
{
  "analyzer": "ik_max_word",
  "text": ["醉鱼"]
}
```
结果如下
```
{
  "tokens" : [
    {
      "token" : "醉鱼",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    }
  ]
}
```
一般来说，词语肯定不是固定的，随着工作的长期积累，不断地发现新的专业术语，那么热更新，动态更新词库，不在每次更新词库之后重启ES就是非常有必要的了，下面来看一下热更新词库。

远程词库（热更新）

热更新词库的区别就是IKAnalyzer.cfg.xml文件中的一个配置的问题。不过核心还是需要一个词库文件，刚才是通过路径访问的，但是无法热更新，所以现在需要改为URL访问，也就是 HTTP 请求可以读取到的形式。一个词语一行返回即可。

此处使用 Nginx 来做演示。Nginx 中的配置如下

nginx.conf

        location /dic/zuiyu.dic {
            alias   html/dic/zuiyu.dic;   
        }

zuiyu.dic 文件内容如下
```
醉鱼
```

IKAnalyzer.cfg.xml配置修改如下,IP为部署的 Nginx 的 IP ，端口也是根据自己 Nginx 监听的端口修改

<entry key="remote_ext_dict">http://192.168.30.240:8088/dic/zuiyu.dic</entry>

完整的配置如下

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
  <comment>IK Analyzer 扩展配置</comment>
  <!--用户可以在这里配置自己的扩展字典 -->
  <entry key="ext_dict">zuiyu.dic</entry>
   <!--用户可以在这里配置自己的扩展停止词字典-->
  <entry key="ext_stopwords"></entry>
  <!--用户可以在这里配置远程扩展字典 -->
  <entry key="remote_ext_dict">http://192.168.30.240:8088/dic/zuiyu.dic</entry>
  <!--用户可以在这里配置远程扩展停止词字典-->
  <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

验证URL访问结果，使用浏览器或者postman等工具访问 http://192.168.30.240:8088/dic/zuiyu.dic 可以返回我们的文件内容即可，也是一个词语一行的形式。
复制IKAnalyzer.cfg.xml 到集群的每个节点中
重启ES

测试对 醉鱼 分词，可以看到与上面本地词库时是同样的效果

{
  "tokens" : [
    {
      "token" : "醉鱼",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    }
  ]
}

测试对我爱你醉鱼进行分词

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": ["我爱你醉鱼"]
}

结果如下

{
  "tokens" : [
    {
      "token" : "我爱你",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "爱你",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "醉鱼",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 2
    }
  ]
}

在zuiyu.dic中增加我爱你醉鱼，最终的文件内容如下
```
醉鱼
我爱你醉鱼
```

增加完成之后，这5个字已经成为一个词语，分词结果如下

{
  "tokens" : [
    {
      "token" : "我爱你醉鱼",
      "start_offset" : 0,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "我爱你",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "爱你",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "醉鱼",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 3
    }
  ]
}

仅在一个节点 node1 中配置了远程词库，node2 与 node3 都没有配置任何的词库，此时当前环境无法达到我们的预期分词效果

总结

通过上面我们的试验，可以发现结合 IK分词器，使用自定义词库，可以满足我们专业内的词语分词，实现更好的分词效果，再加上动态词库的更新，对我们的工作还是很有必要的，配置过程是不是很简单，下面就赶紧用起来吧。

最后编辑于：2023.11.12 11:59:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,524评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,869评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,813评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,210评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,085评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,117评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,533评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,219评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,487评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,582评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,362评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,218评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,589评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,899评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,176评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,503评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,707评论 2赞 335