ElasticSearch插件编写-Similarity插件

ElasticSearch插件编写-Similarity插件

1.ElasticSearch插件是什么

ElasticSearch可以灵活的支持多种插件的,以及可插拔式的安装卸载和使用。常见的插件包括head,marvel等功能性插件以及类似ik_analyzer分词器也可以通过插件的方式安装。这里主要整理了如何进行自定义插件的开发以及如何根据需求自定义ElasticSearch的打分规则。

2.如何开发自定义Similarity插件

开发版本ElasticSearch2.3.5(不同的版本之间的方式可能不同)。主要步骤就是实现ElasticSearch提供的相关接口。
1. 继承实现org.elasticsearch.plugins.Plugin类,创建onModule()并指定需要添加的Provider
2. 继承实现org.elasticsearch.index.similarity.AbstractSimilarityProvider类,加载自定义的打分机制类
3. 继承实现org.apache.lucene.search.similarities.Similarity实现具体的打分逻辑
4. 打包成jar包放入 es目录/plugins/自定义插件名/ 下,创建plugin-descriptor.properties来配置相关信息
5. 重启elasticsearch后插件生效
以上为开发自定义插件的流程

3.如何实现自定义打分规则

Similarity是ES中的打分模块,所有自定义打分规则和ElasticSearch内部的打分规则都由这个类派生得到。ES默认使用的打分规则是TFIDFSimilarity,建立VSM向量模型后用TF-IDF算法来为搜索结果进行打分。有一个可以替换的预置方案BM25Simlarity,本次的开发主要是要根据特定业务要求定制打分规则。重写以下几个方法来调整计算公式中的参数值。

    /**
     * qNorm 对qw的归一化处理 不影响排序
     */
    @Override
    public float queryNorm(float valueForNormalization) {
        return 1.0F;
    }
    
    
        /**
     * 官方文档中说明了该方法在直接继承Similarity时无法生效,需要继承更高级的Similarity比如TFIDFSimilarity
     * coord 当前document包含的搜索的Term词的比率
     */
    @Override
    public float coord(int overlap, int maxOverlap) {
        return (float) 1 / (float) maxOverlap;
    }
    
        /**
     * 这是一个在索引数据时就会调用的方法 而不是在搜索数据时调用的
     * 它的值对应着公式中 boost(t.field in d)×lengthNorm(t.field in d) 的值
     * 在索引的时候给field添加一个权重
     * @param state
     * @return
     */
    @Override
    public long computeNorm(FieldInvertState state) {
        float normValue = lengthNorm(state) * flag;
        long norm = (long) normValue;
        return norm;
    }
    
    /**
     * 返回包装的SimWeight对象
     */
    @Override
    public final SimWeight computeWeight(CollectionStatistics collectionStats, TermStatistics... termStats) {
        float numTerms = (float) termStats.length;
        //numTerms query词的数量 观察执行发现其实一直是1,大概是每个query的词单独执行一遍本方法
        return new OverlapStats(collectionStats.field(), numTerms);
    }
    
     /**返回包装的打分对象,依赖于上面的权重计算
     */
    @Override
    public final SimScorer simScorer(SimWeight stats, LeafReaderContext context) throws IOException {
        OverlapStats overlapStats = (OverlapStats) stats;
        return new OverlapScorer(overlapStats, context.reader().getNormValues(overlapStats.field));
    }

更多细节请参考源代码,主要通过上面的几个方法来影响搜索的打分结果。

4.添加Field长度打分因子

在之前的插件中主要考虑了搜索词的命中情况,缺少对于Field域长度的关联打分。我们认为当query的term所命中的doc对应的field长度越长,其对应的信息价值就越低。和IDF的思路比较类似,所以要在原本命中关键词得分的基础上添加命中时field长度越长,那么其所应该得到的分值越低。
参考TFIDFSimilarity中的计算方法后对field做了如下的权重

$ lengthNorm = boost \times \frac {1} {\sqrt fieldLength} $

要注意的是computeNorm在创建数据索引的时候调用生成权重,所以在测试数据的时候要记得删除旧索引数据插入新数据才能看得到效果
最后在自定义实现的SimScore派生类中完成计算得到新分数

        /**
         * 加入域名反比相关因子,目前保留5位精度,后续观察调整
         * 2018.4.3
         * @param doc
         * @param freq
         * @return
         */
        @Override
        public float score(int doc, float freq) {
            float norm = this.norms == null ? 1F : (float) (norms.get(doc) / (double) flag);
            float queryWeight = stats.queryWeight * norm;
            return queryWeight;
        }

此时重启ElasticsSearch后清空旧数据并加入新数据,搜索“青果”,在两条数据的一元分词的字段“青果阅读”和“青果阅读早上好晚上好中午好”搜索,可以发现前者的分数大于后者,分数可以通过计算得到。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容