实时OLAP分析利器Druid介绍

文章目录

前言
Druid
主要特性
基础概念
-- 数据格式
-- 数据摄入
-- 数据存储
-- 数据查询
-- 查询类型
-- 架构
-- 运维
OLAP方案对比
使用场景
使用建议
参考
近期主题

前言

项目早期、数据（报表分析）的生产、存储和获取业务，MySQL基本上可以满足需要，但是随着业务的快速增长，数据量翻至亿为单位时，MySQL无法满足例如：快速实时返回“分组+聚合计算+排序聚合指标”查询需求。记得还是2017年之后，对当时的几款OLAP进行了调研，用线上数据训练。当时Druid在性能和功能上基本上能够满足需要，下面介绍一下Apache Druid。

Druid介绍

Apache Druid 是一个高性能实时分析数据库，在复杂的海量数据下进行交互式实时数据展现的OLAP工具。能够处理TB级别数据，毫秒级响应。目前国内在使用的公司有：阿里、滴滴、知乎、360、eBay，Hulu等。官方网址：http://druid.io

主要特性

开源、列式存储，预聚合
实时流式和批量数据摄入
灵活的数据模式、支持SQL查询
扩展方便，容易运维
TB，PB级别的数据处理

基础概念

数据格式

数据源：datasource，datasource的结构有：时间列（timestamp）、维度列（Dimension）和指标列（Metric）

时间列：将时间相近的一些数据聚合在一起，查询的时候指定时间范围

维度列：标识一些统计的维度，比如：名称、类别等

指标列：用于聚合和计算的列，比如：访问总数、合计金额等

数据摄入

同时支持流式和批量数据摄入。通常通过像 Kafka 这样的消息总线（加载流式数据）或通过像 HDFS 这样的分布式文件系统（加载批量数据）来连接原始数据源。

Druid 通过 Indexing 处理将原始数据以 segment 的方式存储在数据节点，segment 是一种查询优化的数据结构。

数据存储

Druid 采用列式存储。根据不同列的数据类型（string，number 等），Druid 对其使用不同的压缩和编码方式。Druid 也会针对不同的列类型构建不同类型的索引。

类似于检索系统，Druid 为 string 列创建反向索引，以达到更快速的搜索和过滤。类似于时间序列数据库，Druid 基于时间对数据进行智能分区，以达到更快的基于时间的查询。

不像大多数传统系统，Druid 可以在数据摄入前对数据进行预聚合。这种预聚合操作被称之为 rollup，这样就可以显著的节省存储成本。

数据查询

支持两种查询：JSON-HTTP，SQL两种方式

查询类型

Timeseries:基于时间范围查询的类型

TopN:基于单维度的排名查询

GroupBy:基于多维度的分组查询

架构

运维

Druid是非常健壮的系统，Druid 拥有数据副本、独立服务、自动数据备份和滚动更新，以确保长期运行，并保证数据不丢失。

OLAP方案对比

Druid：是一个实时处理时序数据的OLAP数据库，因为它的索引首先按照时间分片，查询的时候也是按照时间线去路由索引。

Kylin：核心是Cube，Cube是一种预计算技术，基本思路是预先对数据作多维索引，查询时只扫描索引而不访问原始数据从而提速。

ES：最大的特点是使用了倒排索引解决索引问题。根据研究，ES在数据获取和聚集用的资源比在Druid高。

Spark SQL：基于Spark平台上的一个OLAP框架，基本思路是增加机器来并行计算，从而提高查询速度。

使用场景

广告数据分析
风控分析
服务器指标存储
应用性能指标
实时在线分析系统 OLAP
实时报表分析
离线+实时数据源
行为数据分析

使用建议

时序化数据：所有行记录中必须有日期指标
OLAP并发有限，不适合OLTP查询，建议首次回源加Cache
目前不支持JOIN操作，不支持数据更新
离线数据替换前一天实时数据
分页支持的不够完善

另外、Druid在项目中已经投产多年，用OLAP方案解决业务上的问题，整理技术点为了方便相似业务同学参考和使用。

参考

https://druid.apache.org/docs/latest/design/

近期主题：

Druid在数据分析需求中的学习和应用
Druid多种应用场景的实战
定时任务到分布式服务的演变

image

最后编辑于：2020.04.17 11:16:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345