flume

数据(日志)采集

数据从A服务器到B服务器 

简单方式:

1)数据量小  命令 scp xxx

2)开发java/python代码 实现日志收集,还需要写监控健壮性的代码,麻烦

缺点:场景变了,代码需要改写;监控代码

3)一般自己写的代码适合场景比较单一。

flume能实现的是:

把A服务器的数据收集到B,只需通过配置文件就可以了。


Flume的版本:

Flume OG 0.9

FLume NG 1.x(工作中使用的版本)

版本:flume-ng-1.5.0-cdh5.2.0.tar


Flume的组成:

sqoop,azkaban,kafka,flume--小工具,具体场景下还需研究

flume:Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data.

flume是分布式高可用有效收集、聚合、移动大量日志数据的服务。

It uses a simple extensible data model that allows for online analytic application.

它使用一个简单可扩展的数据模型使得在线分析应用程序可以被支持。

Flume的组成

Flume只有一个角色:Agent,类似于kafka中broker

Agent有三个部分:

source:用来采集数据(类似于kafka中producer)并发送数据到channel

sink:从channel中获取数据,并向HDFS写数据

channel:信道,连接source和sink


flume集群

In order to flow the data across multiple agents or hops, the sink of the previous agent and source of the current hop need to be avro type with the sink pointing to the hostname (or IP address) and port of the source.

A very common scenario in log collection is a large number of log producing clients sending data to a few consumer agents that are attached to the storage subsystem. For example, logs collected from hundreds of web servers sent to a dozen of agents that write to HDFS cluster.


多台flume收集数据并整合

This can be achieved in Flume by configuring a number of first tier agents with an avro sink, all pointing to an avro source of single agent (Again you could use the thrift sources/sinks/clients in such a scenario). This source on the second tier agent consolidates the received events into a single channel which is consumed by a sink to its final destination.


案例一:


flume业务场景下的配置和使用

具备监控目录功能的source:spooling dirctory

可以将数据展示在屏幕上的sink

配置文件后缀必须是properties

1、定义角色 a1  a1.sources  a1.channels a1.sinks

2、配置一个spooldir类型的source

固定格式:a1.sources.r1.type=spooldir

3、配置channels

4、配置sink

首先配置logger sink 指定打印日志级别为打印到控制台

5、组合三部分之间的关系

连接条件:channels channel 


运行flume

bin/flume-ng agent --conf conf --conf-file conf/spooldir.properties --name a1 -Dflume.root.logger=INFO,console

--conf-file:指定我们的properties配置文件

--name a1:配置文件中的agent的名字

-Dflume.root.logger=INFO,console :表示打印到控制台


问题:为什么有一个agent分为三个部分?

因为分为三个部分,可以实现随机组合。

比如:source可以监控各种目录

sink可以输出数据到各种平台

channel可以是内存,也可以是磁盘


需求2:查看tomcat.log中最新的日志

tail -f tomcat.log

于是有exec source

必配三个参数

type:exec 

command :tail -F  /home/hadoop/flume1705/tomcat.log

channel--配在最后

sink

type :hdfs

hdfs.path      /bigdata/%y-%m-%d/%H%M

hdfs.filePrefix=aura-

目录是否回滚:以下配置表示每10分钟回滚一次

回滚即每个一段时间会合并和删除一些日志。

hdfs.round=true 

hdfs.roundValue=10

hdfs.roundUnit=minute

每隔10分钟新产生一个目录,以时间结尾的目录


回滚文件参数说明

hdfs.useLocalTimeStamp=true 使用本机时间

hdfs.fileType=DataStream 数据流


exec source的运用

tail -F:关心的是文件名

tail -f:关心的是文件独一无二的id号

日志回滚时文件id号不变,只是文件名的后缀时间变了,因此必须用tail -F

运行

bin/flume-ng agent --conf conf --conf-file conf/tailcat.properties --name a1 -Dflume.root.logger=INFO,console


数据仓库的分层

ODS DM DW


一个项目中所用技术和场合
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容

  • 博客原文 翻译作品,水平有限,如有错误,烦请留言指正。原文请见 官网英文文档 引言 概述 Apache Flume...
    rabbitGYK阅读 11,425评论 13 34
  • Flume的官网地址:http://flume.apache.org/FlumeUserGuide.html#ex...
    24格的世界阅读 886评论 0 1
  • 七月,开始了人生中第一次正经的工作,却一直拖到八月底才来回顾这段经历,想想从前的自己,每一天都有迫不及待想要记录的...
    毛阿莹阅读 249评论 0 0
  • 自9日以来,没有在凌晨一点前睡的。今早起来,哪哪都不舒服,尤其头和胃:头痛欲裂,胃疼,感觉里面有乱七八糟的柴草堆。...
    果菲的世界阅读 483评论 0 0
  • 自古以来,不管是东方人还是西方人,都非常重视早餐。人们认为,早餐是一天中第一餐,也是最重要的一餐。 然而,随着经济...
    Zermatt阅读 3,889评论 0 0