Elasticsearch搜索中文分词优化

Elasticsearch 中文搜索时遇到几个问题:

当搜索关键词如：“人民币”时，如果分词将“人民币”分成“人”，“民”，“币”三个单字，那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”，搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?

搜索“RMB”时只会匹配到包含“RMB”关键词的内容，实际上，“RMB”和“人民币”是同义词，我们希望用户搜索“RMB”和“人民币”可以相互匹配，ES同义词怎么配置？

用户搜索拼音: 如"baidu",或者拼音首字母"bd",怎么匹配到"百度"这个关键词,又如用户输入"摆渡"这个词也能匹配到"百度"关键词,中文拼音匹配怎么做到?

怎么保证搜索关键词被正确分词,通常我们会采用自定义词典来做,那么怎么获取自定义词典?

接下来从以下几点讲一下怎么ES中文分词

中文分词器

ES 分词流程之 analysis,analyzer,filter,tokenizer

ES内置分词器

自定义analyzer

ES同义词功能实现

ES拼写纠错

ES自定义词典获取

停用词

1.IK 分词器

1，Elasticsearch中文分词我们采用Ik分词，ik有两种分词模式，ik_max_word,和ik_smart模式;

ik_max_word 和 ik_smart 什么区别?

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合；

ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

索引时，为了提供索引的覆盖范围，通常会采用ik_max_word分析器，会以最细粒度分词索引，搜索时为了提高搜索准确度，会采用ik_smart分析器，会以粗粒度分词

字段mapping设置如下：

"author": {"type":"string","analyzer":"ik","search_analyzer":"ik_smart"}

2.Elasticsearch之分析（analysis）和分析器（analyzer）

analysis索引分析模块充当analyzer分析器的可配置注册表,通过analyzer对文档索引阶段的字段和搜索String进行处理,自定义analyzer时,通常需要character filter tokenizer token filters来完成

2.1 character filter 字符过滤器

首先字符串经过过滤器（character filter），他们的工作是在分词前处理字符串。字符过滤器能够去除HTML标记，例如把“<a>”变成“a

2.2 tokenizer 分词器

英文分词可以根据空格将单词分开,中文分词比较复杂,可以采用机器学习算法来分词

2.2 token filters 表征过滤器

最后，每个词都通过所有表征过滤（token filters），他可以修改词（例如将“Quick”转为小写），去掉词（例如停用词像“a”、“and”、“the”等等），或者增加词（例如同义词像“a”、“and”、“the”等等）或者增加词（例如同义词像“jump”和“leap”）。

2.3 ES分词流程

character filter-->>tokenizer-->>token filters

2.5 自定义analyzer

官网example:

index : analysis : analyzer : myAnalyzer2 :type: custom tokenizer : myTokenizer1 filter : [myTokenFilter1, myTokenFilter2] char_filter : [my_html] position_increment_gap: 256 tokenizer : myTokenizer1 :type: standard max_token_length : 900 filter : myTokenFilter1 :type: stop stopwords : [stop1, stop2, stop3, stop4] myTokenFilter2 :type: length min : 0 max : 2000 char_filter : my_html :type: html_strip escaped_tags : [xxx, yyy] read_ahead : 1024

2.6 分词mapping设置

通常为了保证索引时覆盖度和搜索时准确度,索引分词器采用ik_max_word,搜索分析器采用ik_smart模式

"content": {"type":"string","analyzer":"ik_max_word","search_analyzer":"ik_smart"}

1.7 如果更改了mapping分词器,需要重新索引数据才能生效

POST /_reindex{"source": {"index":"twitter"},"dest": {"index":"new_twitter"}}

因为倒排索引中的数据是索引时由分词器来处理的,如果分词器有变化,那么搜索时query关键词即使和doc中关键词相同,但是因为分词器的原因,分出来的词会出现不匹配的情况,因此当mapping或者分词器字典同义词词典等发生变化时,需要reindex索引数据

1.8 分词测试

http://127.0.0.1:9200/index/_analyze?analyzer=ik_max_word&pretty=true&text=中国驻洛杉矶

1.8 更改别名,不重启服务切换索引

POST /_aliases{"actions": [ {"remove": {"index":"oldindex","alias":"alias_oldindex"} }, {"add": {"index":"newindex","alias":"alias_oldindex"} } ] }

2 同义词

2.1 建议同义词词典

elasticsearch /config/analysis 下建议同义词词典文件pro_synonym.txt,采用UTF-8编码,写入内容

同义词内容格式 ,注意标点符号使用英文符号

启航 => 起航 : "=>"左边的词全部会被右边的词替换

启航,起航 :使用","英文逗号分隔,两个词是互等的,分词时会同时分成两个词进行索引或者检索,如"启航"会被分成"启航","起航"两个词分别建立索引或者去倒排索引检索

自定义添加同义词通过ik分词器

"settings": {"analysis": {"filter": {"my_synonym_filter": {"type":"synonym","synonyms_path":"analysis/pro_synonym.txt"} },"analyzer": {"ik_syno_max_word": {"tokenizer":"ik","filter":"my_synonym_filter"},"ik_syno_smart": {"tokenizer":"ik_smart","filter":"my_synonym_filter"} } } }

想查看同义词效果或者测试分词效果

http://192.168.0.100:9200/index/_analyze?analyzer=ik_max_word&pretty=true&text=启航

3 Suggest分词

suggest词需要对拼音前缀，全拼，中文进行前缀匹配，例如：“百度”一词，键入"baidu","bd","百"都必须匹配到，因此在索引的时候需要一词分多个分词器来索引保存，中文采用单字分词，拼音首字母和全拼需要自定义analyzer来索引。

Elasticsearch Suggest setting mapping设置参考如下

{"mappings": {"suggest": {"properties": {"full_pinyin": {"type":"completion","analyzer":"full_pinyin_analyzer","payloads":true,"preserve_separators":false,"preserve_position_increments":true,"max_input_length":50},"prefix_pinyin": {"type":"completion","analyzer":"prefix_pinyin_analyzer","search_analyzer":"standard","payloads":true,"preserve_separators":false,"preserve_position_increments":true,"max_input_length":50},"suggestText": {"type":"completion","analyzer":"standard","payloads":true,"preserve_separators":false,"preserve_position_increments":true,"max_input_length":50} } } },"settings": {"index": {"analysis": {"filter": {"_pattern": {"type":"pattern_capture","preserve_original":"1","patterns": ["([0-9])","([a-z])"] },"full_pinyin": {"keep_first_letter":"false","keep_none_chinese_in_first_letter":"false","type":"pinyin","keep_original":"false","keep_full_pinyin":"true"},"prefix_pinyin": {"keep_first_letter":"true","none_chinese_pinyin_tokenize":"false","type":"pinyin","keep_original":"false","keep_full_pinyin":"false"} },"analyzer": {"full_pinyin_analyzer": {"filter": ["lowercase","full_pinyin"],"tokenizer":"standard"},"prefix_pinyin_analyzer": {"filter": ["lowercase","prefix_pinyin"],"tokenizer":"standard"} } } } }}

4 中文拼音搜索

1.关于搜索关键词会将不相关词搜索出来

解决单字搜索的一种方案

问题：搜索时，搜索牙膏，需检索出包含“牙膏”二字的内容，过滤掉包含“牙”或者“膏”的内容，但是搜索单字“牙”或者“膏”时需要将牙膏匹配出来

方案：加入单字字典，ik_max_word分词时，会把所有形式分出来,因此单字字典，此分词模式下会将单字索引起来，ik_smart会按照最粗粒度分词，搜索关键词时不会匹配单字内容

索引和搜索采用不同分词器 "analyzer": "ik", "search_analyzer": "ik_smart"

过程：更改mapping，searchAnalyzer=ik_smart,reindex，reindex现有数据参考资料

POST /_reindex{"source": {"index":"twitter"},"dest": {"index":"new_twitter"}}

部分内容有待完善

作者：sudop

链接：https://www.jianshu.com/p/914f102bc174

来源：简书

简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345

Elasticsearch搜索中文分词优化

推荐阅读更多精彩内容