Clickhouse实践之地理信息数据处理

图片发自简书App

在地理信息世界,找到一个小的数据集是很容易的,例如excel文件的客户端位置,一个geojson带有数千个星巴克咖啡店的坐标,这些案例足够处理,甚至浏览器都能够加载、处理和可视化.

但是当我们讨论到核心的地理信息处理挑战时, 我们面对海量处理问题. 例如, raster 数据来自卫星影像 (地质持续监控), 一个大的地籍shapefiles 带有数百万个小的polygons, 或者 .csv files 通过 IoT 物联网生成(他们是实际的 GPS 追踪,有大量的挂载数据).

有大量的 CSVs 在 S3 云存储中,保存类 GPS数据. 以NYC Taxi 数据作为例子, 包含了所有NYC 出租车的数据. 这是大数据界的基准测试数据; 你应该看看Mark Litwintschik写的帖子,质量很好.

因此,通常情况下, 当你分析地理信息数据时,你应该停止使用PostgreSQL 和 PostGIS. 用SQL查询地理信息的数据不能与其他工具很好匹配. 另一方面,  PostgreSQL对大数据量的处理确实不佳. 让我们稍微解释一下… 你能够在PostgreSQL中加载大量的数据,同时 建立BRIN 索引, 你能够选择一小部分数据. 但是当你聚合大量数据时. PostgreSQL不是最佳选择,这就是为什么产生了 citusdb, greenplum or Amazon redshift 这样的方案,使用列式存储,并行处理,下推操作来提升性能. 因此我们使用支持 PostGIS的PostgreSQL ,另一方面,我们使用速度足够快,但部分支持地理空间信息处理的分布式数据库来支持大数据量处理 (mapd, clickhouse, vertica or druiddb) .

让我们回到NYC Taxi 数据集上,当你想要知道某特定区域的位点的平均数量, PostgreSQL 使用 “ages”. 让我们详解在PostgreSQL(9.6)上的一些查询:

[local] postgres@nyc-taxi-data=# select count(1) from trips;
  count
──────────
78424550
(1 row)
Time: 25347.000 ms

如果你想要找到在时代广场方圆300公里内有多少打车发生:

[local] postgres@nyc-taxi-data=# select count(1) from trips where st_dwithin(the_geom, 'SRID=4326;POINT(-73.985195 40.75896)', 180*300/(6371*1000*pi()));               

count
────────
797801
(1 row)
Time: 76552.877 ms


(我们使用角来计算一个平方的距离,如果是300公里我们使用公式distance = arc*radious)

76 秒看起来耗时较长,肯定有一些方法来优化,调优PostgreSQL 或者使用并行查询, 但是我们不能获得很大的性能提升. 因此,即时我们使用了32核的高端服务器,那么对于性能提升也是有限的,整个数据集放在内存中,理论上我们可以达到76s/32 ~ 2.3s.

有一些其他的数据库或框架更适合处理大数据量,例如 spark, presto, vertica, mapd 等. 但是当测试完 Clickhouse的性能以后, 我们决定选择Clickhouse作为大数据处理平台.

我们加载 NYC taxi 数据到Clickhouse中. Clickhouse 并没有任何的geospatial 工具包, 但是你能够使用基本的欧几里何的数学公式.

:) select count(1) from a2 where (pow(pickup_longitude - -73.985195, 2) +  pow(pickup_latitude - 40.75896, 2)) < pow(180*300/(6371*1000*pi()), 2);

SELECT count(1)
FROM trips
WHERE (pow(pickup_longitude - -73.985195, 2) + pow(pickup_latitude - 40.75896, 2)) < pow((180 * 300) / ((6371 * 1000) * pi()), 2)

┌─count(1)─┐
│  613491 │
└──────────┘
rows in set. Elapsed: 0.308 sec. Processed 45.45 million rows, 818.13 MB (147.63 million rows/s., 2.66 GB/s.)

308ms

我们正在处理45.5M 行 (基本执行全表扫描) ,速度超快. 如果我们使用索引来查询接近时代广场的行 (如PostgreSQL ) ,速度将会更快. 好消息是,Clickhouse 支持索引supports . 坏消息是它不支持 points 或 2D 数据的索引. 有一些方法可以线性化 2D 空间到标量, 因此传统的数据库索引可以工作. Hilbert 曲线和geohash是更为通用的方式.在我们得案例案例中我们决定使用 quadkey.

Quadkey是基本的方式在一个整型中来编码瓦片坐标,对于每个区域,我们使用比特位来编码1/4方格,每个方格有每个位置. 因此,我们能够以64位整数来编码任意的经纬坐标对儿,精度为1.9 cm (瓦片大小为31). 我们能够使用Hilbert 的geohash ,但是quadkey 更适合这种方式来可视化数据(使用quadtree).生成速度快,与通用数据库索引无缝结合.

通过创建一个带有quadkey 列的表,pickup_latitude和pickup_longitude 作为索引,我们能够使用 quadkey来查询,带上特定的where条件:

CREATE table test (
    lat Nullable(Float64),
    lon Nullable(Float64),
    datetime Nullable(DateTime),
    value Nullable(Float64),
    date_index Date,
    quadkey UInt64
)
ENGINE = MergeTree(date_index, quadkey, 8192)

运行此查询, 使用quadkey 索引:

:) select count(1) from a2 where quadkey between 1013670044871163904 and 1013670049166131200  and (pow(pickup_longitude - -73.985195, 2) +  pow(pickup_latitude - 40.75896, 2)) < pow(180*300/(6371*1000*pi()), 2)
SELECT count(1)
FROM a2
WHERE ((quadkey >= 1013670044871163904) AND (quadkey <= 1013670049166131200)) AND ((pow(pickup_longitude - -73.985195, 2) + pow(pickup_latitude - 40.75896, 2)) < pow((180 * 300) / ((6371 * 1000) * pi()), 2))
┌─count(1)─┐
│  613491 │
└──────────┘
1 rows in set. Elapsed: 0.032 sec. Processed 2.41 million rows, 56.07 MB (75.88 million rows/s., 1.77 GB/s.)

处理的数据量相同,但这次Clickhouse 处理了2.41M 行, 获得了10x提升.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容