Apache Storm with Python

环境：

系统：centos7
ps: 请确认kafka，zookeeper，storm部署完成（本文基于Apache ambari搭建的一个集群，进行测试）
安装包：
1. $ yum install -y gcc python-devel java cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-md5 cyrus-sasl-plain librdkafka-devel redis
2. Install lein
  $ wget https://raw.githubusercontent.com/technomancy/leiningen/stable/bin/lein
  $ mv lein /usr/bin/
  $ chmod a+x /usr/bin/lein
  $ wget https://github.com/technomancy/leiningen/releases/download/2.8.1/leiningen-2.8.1-standalone.zip
  $ mv leiningen-2.8.1-standalone.zip /root/.lein/self-installs/leiningen-2.8.1-standalone.jar
  $ export LEIN_ROOT = 1
  $ lein version # test lein version
  
  image.png

Create virtualenv
$ pip install streamparse confluent-kafka redis kazoo

整体架构

image.png

Start demo

get kafka brokers

find zookeeper cluster（through Ambari）

image.png
get brokers

from kazoo.client import KazooClient
import json


def get_kafka_brokers(host):
    zookeeper = KazooClient(hosts=host, read_only=True)
    zookeeper.start()
    for node in zookeeper.get_children('/brokers/ids'):
        data, stats = zookeeper.get('/brokers/ids/'+node)
        props = json.loads(data)
        yield props['host']+':'+str(props['port'])
    zookeeper.stop()


if __name__ == "__main__":
    print ','.join(get_kafka_brokers("cluster1.dc.com, cluster2.dc.com"))

输出： cluster2.dc.com:6667
通过Ambari 确认kafka集群，如图

image.png

producer往brokers生产数据（用了confluent-kafka）

# -*- coding:utf-8 -*-
import confluent_kafka
import random, time
import json
from get_broker_list import get_kafka_brokers


def error_cb(err):
    print('Error: %s' % err)


def main():
    # bootstrap_servers = 'cluster2.dc.com:6667'
    zk_host = 'cluster1.dc.com,cluster2.dc.com'
    bootstrap_servers = ','.join(get_kafka_brokers(zk_host))
    api_version_request = True
    conf = {'bootstrap.servers': bootstrap_servers,
            'api.version.request': api_version_request,
            'error_cb': error_cb,
            'debug': 'protocol',
            'broker.address.family': 'v4'}
    producer = confluent_kafka.Producer(**conf)
    user_list = ['jason', 'jane', 'tom', 'jack']
    while True:
        data = {"user": random.choice(user_list),
                "timestamp": time.time(),
                "log_level": random.randint(0, 5)
               }
        try:
            producer.produce('test', value=json.dumps(data))
            # time.sleep(random.randint(1, 2))
        except BufferError:
            producer.poll(100)
        continue
    producer.flush()


if __name__ == '__main__':
    main()

部分结果如图：

image.png

创建一个consumer进行验证：

#!/usr/bin/env python
import time
import json
from confluent_kafka import Consumer, KafkaException, KafkaError
from get_broker_list import get_kafka_brokers


def main():
    # broker = 'cluster2.dc.com:6667'
    zk_host = 'cluster1.dc.com,cluster2.dc.com'
    bootstrap_servers = ','.join(get_kafka_brokers(zk_host))
    group = 'test.py'
    conf = {'bootstrap.servers': bootstrap_servers, 'group.id': group, 'session.timeout.ms': 6000,
            'default.topic.config': {'auto.offset.reset': 'smallest'}}
    consumer = Consumer(**conf)
    consumer.subscribe(['test'])
    while True:
        msg = consumer.poll()
        try:
            print json.loads(msg.value())
        except Exception:
            time.sleep(1)
        continue
    consumer.close()

if __name__ == '__main__':
    main()

部分结果如图：

image.png

integrate with Storm（use package streamparse）

上面kafka producer产生了一条用户记录，storm demo以计算5分钟内产生了多少条记录（实际效果producer >> consumer，所以导致延迟问题，测试数据大概5分钟写入150w-180w条，资源限制导致的性能问题，仅供参考）

sparse quickstart onlineuser

项目结构如下：

image.png

其中topologies，bolts，以及spouts中的文件名可能是wordcount相关命名，修改或不修改均可，只需要确认topologies文件中的topology能与spouts中的spout，bolts中的bolt对应起来即可

vim spout/user.py

import sys, os
# sys.path.append(os.path.dirname(os.path.abspath(__file__)) + '/../../../kafka_example')
abspath = "" # must fill with abs path, cannot use os.path.abspath, run as jar in /tmp directory
if not abspath:
    raise Exception("setting kafka_exmaple directory abspath to import get_broker_list")
sys.path.append(abspath)
from confluent_kafka import Consumer
from streamparse import Spout
from get_broker_list import get_kafka_brokers


class OnlineUserSpout(Spout):
    outputs = ['log']

    def initialize(self, stormconf, context):
        # broker = 'cluster2.dc.com:6667'
        zk_host = 'cluster1.dc.com,cluster2.dc.com'
        broker = ','.join(get_kafka_brokers(zk_host))
        group = 'test.py'
        conf = {'bootstrap.servers': broker, 'group.id': group, 'session.timeout.ms': 6000,
                'default.topic.config': {'auto.offset.reset': 'smallest'}}
        self.consumer = Consumer(**conf)


    def activate(self):
        self.consumer.subscribe(['test'])

    def next_tuple(self):
        msg = self.consumer.poll()
        if msg.value():
            self.emit([msg.value()])

    def deactivate(self):
        self.consumer.close()

vim bolts/serializer_log.py （这部分没有考虑用户重复问题）

import json
import time
from datetime import datetime, timedelta
from redis import StrictRedis
from streamparse import Bolt


class RedisLog(Bolt):


    def initialize(self, conf, ctx):
        self.redis = StrictRedis()
        self.interval_minute = 5

    def _increment(self, duration):
        return self.redis.incr(duration)


    def process(self, tup):
        data = json.loads(tup.values[0])
        user = data['user'] # useless
        timestamp = data["timestamp"]
        now = datetime.fromtimestamp(int(timestamp))
        now = now - timedelta(minutes=now.minute % self.interval_minute,
                          seconds=now.second, microseconds=now.microsecond)
        now_timestamp = int(time.mktime(now.timetuple()))
        duration = '{0}-{1}'.format(now_timestamp, now_timestamp + self.interval_minute * 60)
        count = self._increment(duration)
        self.emit([duration, count])

vim topologies/onlineuser.py

"""
Online User topology
"""
from streamparse import Topology
from bolts.serializer_log import RedisLog
from spouts.user import OnlineUserSpout


class OnlineUserCount(Topology):
    log_spout = OnlineUserSpout.spec()
    count_bolt = RedisLog.spec(inputs=[log_spout])

$ sparse run # 必须在sparse quickstart 项目路径下（耗时较久，需要build成jar到/tmp下执行）
部分结果如图（可能有一些warn，这是由于zookeeper日记文件相关写入延迟，会影响storm性能，测试先忽略）

image.png

可以通过redis检测key value（key是以时间戳区间，整形，格式 'timestamp1-timestamp2'）

import time
from redis import StrictRedis
redis = StrictRedis()
while 1:
    keys = redis.keys()
    vals = redis.mget(keys)
    kv = zip(keys, vals)
    print kv
    time.sleep(10)

result：大致如图

image.png

可能出现的一些问题解决办法：
- 运行sparse run 时，爆storm版本不一致问题，修改project.clj，由于可能storm也是通过ambari进行安装，输出版本的格式不一致（Hortonworks data platform 版本号，类似‘1.1.0.2.6.2.0-205’，这时候需要去vim xxx/xxx/site-packages/streamparse/cli/run.py 大概48,49修改一下判断or去掉检测）
  
  image.png
- 运行sparse run时，可能出现NoClassDefFoundError: org/apache/commons/lang/StringUtils.
  解决的办法
```
wget https://www.apache.org/dist/commons/lang/binaries/commons-lang-2.6-bin.zip.md5
unzip commons-lang-2.6-bin.zip
cd commons-lang-2.6-bin.zip && mv commons-lang.jar storm/lib
```

Ending

整个过程中，可能还会出现一些issue，可以到对应的项目去查看文档。
Finally，本文原创，未经许可，谢绝转载。=_=!

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,242评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,769评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,484评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,133评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,007评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,080评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,496评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,190评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,464评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,549评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,330评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,205评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,567评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,889评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,160评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,475评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,650评论 2赞 335

Apache Storm with Python

Apache Storm with Python

环境：

整体架构

Start demo

get kafka brokers

producer往brokers生产数据（用了confluent-kafka）

创建一个consumer进行验证：

integrate with Storm（use package streamparse）

Ending

推荐阅读更多精彩内容