Elasticsearch（五）：聚合分析

es 中的聚合分析主要分为：

metric：指标分析类型，如最值、平均值等等。
bucket：分桶类型，类似 group by。
pipeline：管道分析，基于上一级聚合分析结果进行再分析。

metric

min / max / sum / avg

min / max / sum / avg 分别用于统计最小值、最大值、求和、平均值：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "min_age": {
      "min": {
        "field": "age"
      }
    },
    "max_age": {
      "max": {
        "field": "age"
      }
    },
    "sum_age": {
      "sum": {
        "field": "age"
      }
    },
    "avg_age": {
      "avg": {
        "field": "age"
      }
    }
  }
}

cardinality

cardinality 用于获取字段不同数值的个数，即 distinct count：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "cardinality_age": {
      "cardinality": {
        "field": "age"
      }
    }
  }
}

stats

stats 用于统计一系列指标，包括 min / max / sum / avg / count：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "stats_age": {
      "stats": {
        "field": "age"
      }
    }
  }
}

extended_stats

extended_stats 相对于 stats 提供更多指标，如方差、标准差等：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "stats_age": {
      "extended_stats": {
        "field": "age"
      }
    }
  }
}

percentiles

percentiles 用于百分位统计，默认统计 1,5,25,50,75,95,99 分位点，通过 percents 参数可以指定要计算的分位点：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "percentiles_age": {
      "percentiles": {
        "field": "age",
        "percents": [
          50,
          75,
          95,
          99
        ]
      }
    }
  }
}

percentile_ranks

percentile_ranks 用于获取指定数值对应的分位点，通过 values 参数指定：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "percentiles_ranks_age": {
      "percentile_ranks": {
        "field": "age",
        "values": [
          19
        ]
      }
    }
  }
}

bucket

term

term 指按词分桶，结果中的 buckets 会给出统计出的不同词及对应的文档个数。

GET /test/_search
{
  "size": 0, 
  "aggs": {
    "job": {
      "terms": {
        "field": "job.keyword",
        "size": 10
      }
    }
  }
}

// ...
  "aggregations" : {
    "job" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "c++",
          "doc_count" : 2
        },
        {
          "key" : "Java junior engineer",
          "doc_count" : 1
        },
        {
          "key" : "c",
          "doc_count" : 1
        },
        {
          "key" : "js",
          "doc_count" : 1
        }
      ]
    }
  }
// ..

通过使用 top_hits 能够额外获取每个桶中对应的文档内容，支持排序：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "job": {
      "terms": {
        "field": "job.keyword",
        "size": 10
      },
      "aggs": {
        "top": {
          "top_hits": {
            "size": 10,
            "sort": [
              "birth"
            ]
          }
        }
      }
    }
  }
}

range

range 指定数值范围来设定分桶规则，支持使用 key 参数指定聚合结果名称：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "age_range": {
      "range": {
        "field": "age",
        "ranges": [
          {
            "key": "lt 20",
            "to": 20
          },
          {
            "from": 20,
            "to": 30
          },
          {
            "key": "gt 30",
            "from": 30
          }
        ]
      }
    }
  }
}

range 同样支持日期类的范围统计，通过 format 参数指定返回的日期格式：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "birth_range": {
      "range": {
        "field": "birth",
        "format": "yyyy",
        "ranges": [
          {
            "to": 1990
          },
          {
            "from": 1990,
            "to": 2000
          },
          {
            "from": 2000
          }
        ]
      }
    }
  }
}

historgram

historgram 用以指定间隔分隔数据，interval 参数指定间隔大小，extended_bounds 参数指定间隔分隔的范围：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "age_histogram": {
      "histogram": {
        "field": "age",
        "interval": 5,
        "extended_bounds": {
          "min": 0,
          "max": 100
        }
      }
    }
  }
}

date_histogram

date_histogram 是针对日期间隔的统计：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "birth_date_histogram": {
      "date_histogram": {
        "field": "birth",
        "calendar_interval": "year",
        "format": "yyyy"
      }
    }
  }
}

pipeline

pipeline 针对聚合统计结果进行再分析，通过 buckets_path 参数指定需要再分析的指标：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "job": {
      "terms": {
        "field": "job.keyword",
        "size": 10
      },
      "aggs": {
        "avg_age": {
          "avg": {
            "field": "age"
          }
        }
      }
    },
    "max_avg_age_by_job": {
      "max_bucket": {
        "buckets_path": "job>avg_age"
      }
    }
  }
}

作用范围

聚合分析默认作用范围是 query 查询语句的结果集，es 提供一系列方式改变聚合分析的作用范围。

为某个聚合分析设定过滤条件

先使用 filter 指定当前聚合分析的过滤条件，在子查询中输入真正的聚合语句：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "age_over20_job": {
      "filter": {
        "range": {
          "age": {
            "gte": 20
          }
        }
      },
      "aggs": {
        "job": {
          "terms": {
            "field": "job.keyword",
            "size": 10
          }
        }
      }
    }
  }
}

聚合分析后过滤

如果需要在聚合分析出全部结果后控制返回的文档结果，可以使用 post_filter 来做过滤。

GET /test/_search
{
  "size": 10,
  "aggs": {
    "job": {
      "terms": {
        "field": "job.keyword",
        "size": 10
      }
    }
  },
  "post_filter": {
    "match": {
      "age": "18"
    }
  }
}

忽略 query

如果需要忽略 query 对聚合分析的影响，通过 global 参数指定无视 query 过滤条件，基于全部文档进行分析，并在子查询中输入真正的聚合语句。

GET /test/_search
{
  "query": {
    "match": {
      "job.keyword": "js"
    }
  }, 
  "size": 10,
  "aggs": {
    "all": {
      "global": {},
      "aggs": {
        "job": {
          "terms": {
            "field": "job.keyword",
            "size": 10
          }
        }
      }
    }
  }
}

排序

聚合分析中的排序默认是按各统计结果的数量倒序排序的，同时可以指定子查询结果作为排序依据：

GET /test/_search
{
  "size": 0,
  "aggs": {
    "job": {
      "terms": {
        "field": "job.keyword",
        "size": 10,
        "order": {
          "avg_age": "asc"
        }
      },
      "aggs": {
        "avg_age": {
          "avg": {
            "field": "age"
          }
        }
      }
    }
  }
}

聚合精准度问题

对于 terms 类型的聚合，每个分片会按数量倒序排序后返回前 size 个结果，在整合时可能会导致不准确。聚合分析结果有两个指标说明潜在的遗漏问题：

doc_count_error_upper_bound：各分片被遗漏的 term 的最大值的总和。
sum_other_doc_count：各分片返回的未被最终结果使用的其它聚合统计总数。

shard_size

shard_size 参数用于指定分片实际返回的统计指标数量，默认为 size * 1.5 + 10。通过调整 shard_size 可以尽量减小聚合统计的误差。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,088评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,715评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,361评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,099评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,987评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,063评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,486评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,175评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,440评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,518评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,305评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,190评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,550评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,880评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,152评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,451评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,637评论 2赞 335