Hangout with ClickHouse【转载】

ClickHouse作为我们的重要数据仓库，接收了大量用于统计、分析的日志。

那么这些数据是怎么进到ClickHouse的？

在我们内部，ELK架构用的是比较多的，准确的来讲，是EHK，我们用Hangout替代了传统的Logstash。

因此，在Hangout的基础上，我们开发了针对ClickHouse的数据写入插件，很轻松的完成海量数据的日志接入。

本文作者@rickyChe，新浪大数据开发工程师，原文地址：Hangout with ClickHouse

当我们部门发现了ClickHouse这么一个优秀数据存储仓库后，经过了一段时间的摸索测试，就把线上大部分与数据分析相关的业务迁移到了ClickHouse上。这篇文章将会介绍我们如何通过Kafka接入Nginx日志到ClickHouse中。当然，其他的应用日志也可以参照以下逻辑将数据接入ClickHouse。
我们最初使用Python脚本清洗日志写入ClickHouse，但是这样开发和维护都有一定的成本。后来我们使用Hangout作为我们的数据清洗工具，Hangout是一个通用的日志分析工具，功能类同Logstash，可以把不同种类的日志处理后写入其他的地方，比如Kafka、Elasticsearch、ClickHouse。

Prerequisites

我们假设Nginx日志已经推送到了Kafka。
Hangout已经提供了大量的插件支持我们的日志处理，下面是为了完成一个完整的配置需要另外下载的插件：
- Hangout-output-clickhouse：专门为ClickHouse开发的Hangout输出插件https://github.com/RickyHuo/hangout-output-clickhouse
下面是我们安装Hangout以及Hangout-output-clickhouse插件的具体步骤：

mkdir hangout
cd hangout
wget https://github.com/childe/hangout/releases/download/0.3.0/hangout-dist-0.3.0-release-bin.zip
unzip hangout-dist-0.3.0-release-bin.zip
cd modules
wget https://github.com/RickyHuo/hangout-output-clickhouse/releases/download/0.0.2/hangout-output-plugins-clickhouse-0.0.2-jar-with-dependencies.jar

Configuration Example: Nginx Logs

Log Sample

 001.cms.msina..sinanode.com\`[27/Dec/2017:16:01:03 +0800]\`-\`"GET /n/front/w636h3606893220.jpg/w720q75apl.webp HTTP/1.1"\`"SinaNews/201706071542.1 CFNetwork/758.1.6 Darwin/15.0.0"\`200\`[127.0.0.1]\`-\`"-"\`0.021\`10640\`-\`127.0.0.1\`l.sinaimg.cn\`-

Hangout配置包括三个部分：inputs、filters和outputs

Input

如下所示，是一个从Kafka读取数据流的配置

inputs:
    - Kafka:
        codec: plain
        encoding: UTF8 # defaut UTF8
        topic:
            comos-proxy: 10
        consumer_settings:
            group.id: hangout_bip_cms
            zookeeper.connect: localhost:2181 
            auto.commit.interval.ms: "60000"
            socket.receive.buffer.bytes: "1048576"
            fetch.message.max.bytes: "1048576"

Filters

在Filters部分，这里有一系列转化的步骤，包括正则解析、时间转换、类型转换等

filters:
    - Grok:
        match:
            - '%{NOTSPACE:_hostname}`\[%{HTTPDATE:timestamp}\]`%{NOTSPACE:upstream}`"%{NOTSPACE:_method}\s%{NOTSPACE:_uri}\s%{NOTSPACE:httpversion}"`%{QS:_ua}`%{NUMBER:_http_code}`\[%{IP:_remote_addr}\]`%{NOTSPACE:unknow1}`%{QS:_reference}`%{NUMBER:_request_time}`%{NUMBER:_data_size}`%{NOTSPACE:unknow3}`%{IP:_http_x_forwarded_for}`%{NOTSPACE:_domain}`%{DATA:unknow4}$'
        remove_fields: ['message']

    - Date:
        src: timestamp
        formats:
            - 'dd/MMM/yyyy:HH:mm:ss Z'
        remove_fields: ['timestamp']
        target: utc_date

    - Convert:
        fields:
            _request_time:
                to: float
                  
    - Add:
        fields:
            date: "${(utc_date)?substring(0, 10)}"
            datetime: "${(utc_date)?substring(0, 10) + ' ' + (utc_date)?substring(11, 19)}"
            hour: "${(utc_date)?substring(11, 13)}"

    - Convert:
        fields:
            hour:
                to: integer
            minute:
                to: integer
            _data_size:
                to: integer

Outputs

最后我们将处理好的结构化数据写入ClickHouse

outputs:
   - com.sina.bip.hangout.outputs.Clickhouse:
        host: localhost:8123
        database: cms
        table: cms_msg_all
        fields: ['date', 'datetime','hour', '_hostname', '_domain', '_data_size', '_uri', '_request_time', '_ua', '_http_code', '_remote_addr', '_method', '_reference', '_url']
        replace_include_fields: ['_uri', '_url']
        bulk_size: 300

ClickHouse Schema

当然， ClickHouse存储这些数据的前提是我们已经建立好了这些数据表。具体建表操作如下：

CREATE TABLE cms.cms_msg
(
    date Date, 
    datetime DateTime, 
    hour Int8, 
    _uri String, 
    _url String, 
    _request_time Float32, 
    _http_code String, 
    _hostname String, 
    _domain String, 
    _http_x_forwarded_for String, 
    _remote_addr String, 
    _reference String, 
    _data_size Int32, 
    _method String, 
    _rs String, 
    _rs_time Float32, 
    _ua String
) ENGINE = MergeTree(date, (hour, date), 8192)


CREATE TABLE cms.cms_msg_all
(
    date Date, 
    datetime DateTime, 
    hour Int8, 
    _uri String, 
    _url String, 
    _request_time Float32, 
    _http_code String, 
    _hostname String, 
    _domain String, 
    _http_x_forwarded_for String, 
    _remote_addr String, 
    _reference String, 
    _data_size Int32, 
    _method String, 
    _ua String
) ENGINE = Distributed(bip_ck_cluster, 'cms', 'cms_msg', rand())

Conclusion

在这篇文章中，我们介绍了如何使用Hangout将Nginx日志文件写入ClickHouse中。Hangout从Kafka中读取原始日志，将其转换成为结构化的数据，因此能被我们的Hangout-output-clickhouse插件读取写入ClickHouse中。整个流程还有很多可以自定义和提升的地方，Hangout使用请参照Hangout README，Hangout-output-clickhouse的更多功能请参照README。此外，我们在ClickHouse数据的基础上使用了SuperSet和Grafana作为我们的数据展示和监控工具。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343

Hangout with ClickHouse【转载】

Prerequisites

Configuration Example: Nginx Logs

Log Sample

Input

Filters

Outputs

ClickHouse Schema

Conclusion

推荐阅读更多精彩内容