第一章 绪论

本文主要分两部分,第一部分(前三章)介绍了当前国内外在海量数据处理方面的成果及相关技术,第二部分(后三章)是基于hadoop的大规模日志处理系统架构设计及具体实现。

1.1. 课题背景

近年来,随着近年来互联网技术的日趋成熟,用户数量规模正在急剧增加,据不完全统计,截止今日,中国的互联网用户数已经达到了3.5亿人,如此众多的互联网用户必将产生海量日志,从这些数据中可以挖掘有用信息进而基于此做大数据预测及个性化推荐。
目前大多数互联网公司都在想尽一切办法尽可能合理地分析这些日志,随着日志数量的急剧增长,传统的linux管道加bash,perl脚本等传统的解决方案已经不再适用,寻求海量日志的分布式存储系统和计算框架成为当务之急。
幸好开源社区已经有了haoop这样成熟的解决方案。hadoop作为一个分布式的基础架构,同时满足了海量数据存储和计算两大难题,成为当今互联网企业中应用最广泛的分布式大数据处理框架。
解决了存储和计算层面的问题,另一些hadoop层之上的问题又暴露了出来,比如多用户使用时如何合理地设置权限及优先级?若某些统计作业有上下游依赖关系,怎样才能保证上游数据就位后下游作业的调度没有延迟?有什么办法可以让不懂mapreduce的用户也能使用hadoop的编程框架? 除此之外还有作业结束后报表的生成、完整的作业监控等核心模块需要兼顾。
本课题的主要任务就是设计一套大规模日志处理系统,可以同时解决(但不限于)以上问题。

1.2. 课题概要

本文拟设计一个综合的日志分析管理系统,它主要集合了统计管理,任务调度,数据管理和报表生成等主要功能。
本系统以产品线的概念来区分不同用户,不同数据源,不同集群的统计任务和日志,可以为各个产品线提供高效可靠的分析服务。由于具有足够的人性化和高可用性,不同产品线的用户只要在系统的前端ui界面上完成一些简单的操作就可以建立高效地统计任务实现对海量数据的分析处理,并且可以根据用户的个性化设置以报表或者文件的形式获取分析结果。
本系统的核心优势在于:

  1. 存储、计算能力强
    系统底层基于hadoop基础架构,采用hdfs来进行分布式数据存储,可以在不改变现有架构的情况下简单的通过增加机器(datanode)来扩容,实现对海量数据的存储;采用mapreduce框架来进行分布式计算,可以高效的实现对大规模数据的并行处理。
  2. 资源高度封装
    系统对底层的计算资源进行了高度封装,根据业务的不同,在普通服务器和hadoop集群两种不同的环境下执行。同样由于在计算资源之上封装了一层,对各产品线用户来说,两种计算资源的使用并没有太大的差异,节省了用户写代码的成本。
  3. 统计编写简单,配置灵活
    系统为用户提供了pquery和streaming两种不同的统计创建模式。pquery模式允许用户采用类似linux管道的方式编写复杂统计,支持多种sql算子,如join,group,sort, semisort,antisort等;streaming模式允许用户采用熟悉的脚本语言编写mapreduce程序创建统计任务。
  4. 分级调度,智能调整
    系统采取了多种方式来对用户作业进行了合理限制,如底层hadoop采用计算能力调度器,严格限制各产品线所在队列的计算槽数和可提交任务数,系统层通过完善的权限角色管理,对不同角色的缺陷进行了明确区分,不允许具有低等级角色权限的用户给作业赋予高优先级。在以上基础上,系统按照统计的重要性进行分级,并实现分级调度,保证高优先级统计有限分配计算资源。同时系统可以实现对统计任务的智能监控,对无人关注的统计进行及时的降级处理,防止计算资源被无谓的任务耗费。
  5. 自身监控完善
    系统对任务的资源占用情况,任务的运行有完善的监控,对于任务运行时间过长,高优先级任务运行失败都会根据优先级采取邮件、短信等方式及时告知用户。

1.3. 论文组织结构

论文第一章简要介绍了本课题的背景及所设计的日志处理系统(以下简称系统)特性的简要介绍。
论文第二章对系统底层所用到的分布式基础架构hadoop做了针对性介绍,包含其分布式文件系统hdfs(Hadoop Distributed Filesystem)和分布式计算框架mapreduce。
论文第三、四、五章分别介绍了系统的业务背景,架构设计和具体实现,以及系统的整体展示。
最后一章指出了该系统有待改进的地方。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 198,932评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,554评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 145,894评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,442评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,347评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,899评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,325评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,980评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,196评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,163评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,085评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,826评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,389评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,501评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,753评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,171评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,616评论 2 339

推荐阅读更多精彩内容