每日一博 | 如何跳过es分页这个坑？

1、分页查询

1.1、正常分页查询代码如下

假设现在你要查询第100页的10条数据，但是对于es来说，from=1000000，size=100，这时 es需要从各个分片上查询出来10000100条数据，然后汇总计算后从其中取出100条。如果有5个分片则需要查询出来5*10000100条数据，如果现在有一个100个查询请求呢，50亿左右的数据，一条数据2KB，就需要9000G左右的内存，什么样的机器能够支持这么庞大的查询，所以如果你在使用es的分页查询过程中，刚开始翻页可能速度比较快，可能到第一百页查询就需要4-5s，翻到1000页以后，直接报错了。

NativeSearchQueryBuilder query = new NativeSearchQueryBuilder();
        if(!StringUtils.isEmpty(ulqBean.getStartTime()) && !StringUtils.isEmpty(ulqBean.getEndTime())) {
            query.withQuery(QueryBuilders.rangeQuery("logTime").from(ulqBean.getStartTime()).to(ulqBean.getEndTime()));
        }

        if(!StringUtils.isEmpty(ulqBean.getSearch())) {
            BoolQueryBuilder shouldQuery = QueryBuilders.boolQuery()
                    .should(QueryBuilders.wildcardQuery("content", "*" + ulqBean.getSearch() + "*"))
                    .should(QueryBuilders.wildcardQuery("code", "*" + ulqBean.getSearch() + "*"))
                    .should(QueryBuilders.wildcardQuery("name", "*" + ulqBean.getSearch() + "*"));
            query.withQuery(shouldQuery);
        }

        query.withSort(new FieldSortBuilder("logTime").order(SortOrder.DESC));
        if(ulqBean.getPageNo() != null && ulqBean.getPageSize() != null) {
            //es结果从第0页开始算
            query.withPageable(new PageRequest(ulqBean.getPageNo() - 1, ulqBean.getPageSize()));
        }
        NativeSearchQuery build = query.build();
        org.springframework.data.domain.Page<ConductAudits> conductAuditsPage = template.queryForPage(build, ConductAudits.class);
        ulqBean.getPagination().setTotal((int) conductAuditsPage.getTotalElements());
        ulqBean.getPagination().setList(conductAuditsPage.getContent());

1.2、错误信息

[root@localhost elasticsearch-2.4.6]# curl -XGET 'http://11.12.84.126:9200/_audit_0102/_log_0102/_search?size=2&from=10000&pretty=true'
{
  "error" : {
    "root_cause" : [ {
      "type" : "query_phase_execution_exception",
      "reason" : "Result window is too large, from + size must be less than or equal to: [10000] but was [10002]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level parameter."
    } ],
    "type" : "search_phase_execution_exception",
    "reason" : "all shards failed",
    "phase" : "query",
    "grouped" : true,
    "failed_shards" : [ {
      "shard" : 0,
      "index" : "_audit_0102",
      "node" : "f_CQitYESZedx8ZbyZ6bHA",
      "reason" : {
        "type" : "query_phase_execution_exception",
        "reason" : "Result window is too large, from + size must be less than or equal to: [10000] but was [10002]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level parameter."
      }
    } ]
  },
  "status" : 500
}

1.3、修改问题

如果你的数据大小在你的控制范围内，想要进一步深度分页，你可以通过如下命令修改窗口大小:

        "index": {
            "max_result_window": 100000
        }
    }'

2、深度查询问题

但是这只是允许你更进一步深度分页，却没有从根本上解决深度分页的问题，而且随着页码的增加，系统资源占用成指数级上升，很容易就会出现OOM。
这时如果你的产品经理要求你按照常规的做法去分页，你可以很明确的告诉他，你的系统不支持这么深度的分页，翻的越深，性能也就越差。
不过这种深度分页场景在现实中确实存在，有些场景下，我们可以说服产品经理很少有人会翻看很久之前的历史数据，但是有些场景下可能一天都产生几百万。这个时候我们可以根据具体场景具体分析。
3、利用scroll遍历数据

scroll查询原理是在第一次查询的时候一次性生成一个快照，根据上一次的查询的id来进行下一次的查询，这个就类似于关系型数据库的游标，然后每次滑动都是根据产生的游标id进行下一次查询，这种性能比上面说的分页性能要高出很多，基本都是毫秒级的。注意：scroll不支持跳页查询。使用场景：对实时性要求不高的查询，例如微博或者头条滚动查询。具体java代码实现
3.1、设置查询条件

BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery();
QueryBuilder builder = QueryBuilders.queryStringQuery("123456").field("code");
boolQueryBuilder.must(QueryBuilders.termQuery("logType", "10"))
.must(builder);
3.2、第一次查询

第一次查询，跟平时的search查询一样需要设置index和type以及查询条件。
如果把查询类型设置成SCAN，那么不能获取结果并且不支持排序，只能获得scrollId，如果使用默认设置或者不设置，那么第一次在获取id的同时也可以获取到查询结果。
这个size大小的意思不是总分页的大小，实际数量应该是：所以实际返回的数量是：分片的数量*size
滚动时间设置是指在这个查询搜索结果的缓存时间，时间不能太久，毕竟内存空间是有限的。
SearchResponse response1 = client.prepareSearch("_audit_0221").setTypes("_log_0221")
.setQuery(boolQueryBuilder)
.setSearchType(.setSearchType(SearchType.DEFAULT))
.setSize(10).setScroll(TimeValue.timeValueMinutes(5))
.addSort("logTime", SortOrder.DESC)
.execute().actionGet();//第一次查询
for (SearchHit searchHit : response1.getHits().hits()) {
biz handle....;
}
3.3、第二次查询，循环获取查询结果

while (response1.getHits().hits().length>0) {
for (SearchHit searchHit : response1.getHits().hits()) {
System.out.println(searchHit.getSource().toString());
}
response1 = client.prepareSearchScroll(response1.getScrollId()).setScroll(TimeValue.timeValueMinutes(5))
.execute().actionGet();
}
如果是一次性的搜索，可以清除查询结果，毕竟可以减少对内存的消耗。

ClearScrollRequest request = new ClearScrollRequest();
request.addScrollId(scrollId);
client.clearScroll(request);
4、利用scroll-scan遍历数据

使用场景：我有500w用户，需要遍历所有用户发送数据，并且对顺序没有要求，这个时候我们可以使用scroll-scan。

具体使用方式：

4.1、查询

SearchResponse response = client.prepareSearch("_audit_0221").setTypes("_log_0221")
.setQuery(boolQueryBuilder)
.setSearchType(SearchType.SCAN)
.setSize(5).setScroll(TimeValue.timeValueMinutes(5))
.addSort("logTime", SortOrder.DESC)
.execute().actionGet();
4.2、获取结果

SearchResponse response1 = client.prepareSearchScroll(scrollId).setScroll(TimeValue.timeValueMinutes(5))
.execute().actionGet();

while (response1.getHits().hits().length>0) {
for (SearchHit searchHit : response1.getHits().hits()) {
System.out.println(searchHit.getSource().toString());
}
response1 = client.prepareSearchScroll(response1.getScrollId()).setScroll(TimeValue.timeValueMinutes(5))
.execute().actionGet();
}
5、也可以使用如下spring提供的ElasticsearchTemplate分页的查询方式

QueryBuilder builder = QueryBuilders.boolQuery().filter(QueryBuilders.termQuery("code", "123456"));
SearchQuery searchQuery = new NativeSearchQueryBuilder().withIndices("_audit_0221")
.withTypes("_log_0221").withQuery(builder).withPageable(new PageRequest(0, 2)).build();
String srollId = template.scan(searchQuery, 100000, false);

    while (true) {
        Page<ConductAudits> scroll = template.scroll(srollId, 1000, ConductAudits.class);
        if(scroll.getContent().size()==0) {
            break;
        }
        List<ConductAudits> content = scroll.getContent();
        for (ConductAudits c: content
             ) {
            System.out.println(JSON.toJSONString(c));
        }
       // System.out.println(JSON.toJSONString(scroll.getContent()+"\r\n"));
        for (ConductAudits conductAudits : scroll.getContent()) {
            System.out.println(JSON.toJSONString(conductAudits+"\r\n"));
        }
    }

6、 scroll和scroll-scan区别

scroll支持排序，scroll-scan不支持排序，是按照索引顺序返回，可以提高查询效率。
scroll-scan第一次查询只支持返回id，没有结果。
7、总结：

es的分页查询不支持深度分页，如果偏要使用要结合具体业务场景进行使用。不能当成关系型数据库中的分页进行使用。
要想提高产品体验和查询效率不能过于依赖技术，要结合需求进行分析以提高体验，因为很多搜索类产品都不支持深度分页。
如果在不涉及排序的情况下尽量使用scroll-scan，它是按照索引顺序返回，提高效率。
PS：elasticSearch各个版本可能都稍有区别，但是原理相同。本文的很多代码都是基于es 2.4.6
开源中国社区，每日推送最新优质的技术类文章，涵盖外文翻译，软件更新，技术博客等优质内容。关注开源社区简书号，每日获取最新技术资讯，点击下链接阅读原文章。↓↓↓
每日一博 | 如何跳过es分页这个坑？

关注开源中国简书号，获取最新技术资讯！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,126评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,254评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,445评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,185评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,178评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,970评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,276评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,927评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,400评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,883评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,997评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,646评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,213评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,204评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,423评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,423评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,722评论 2赞 345

每日一博 | 如何跳过es分页这个坑？

推荐阅读更多精彩内容