数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )

数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )_北风网 http://www.ibeifeng.com/goods-313.html

ETL是什么?为什么要使用ETL?KETTLE是什么?为什么要学KETTLE?

ETL是数据的抽取清洗转换加载的过程,是数据进入数据仓库进行大数据分析的载入过程,目前流行的数据进入仓库的过程有两种形式,一种是进入数据库后再进行清洗和转换,另外一条路线是首先进行清洗转换再进入数据库,我们的ETL属于后者。

大数据的利器大家可能普遍说是hadoop,但是大家要知道如果我们不做预先的清洗和转换处理,我们进入hadoop后仅通过mapreduce进行数据清洗转换再进行分析,垃圾数据会导致我们的磁盘占用量会相当大,这样无形中提升了我们的硬件成本(硬盘大,内存小处理速度会很慢,内存大cpu性能低速度也会受影响),因此虽然hadoop理论上解决了烂机器拼起来解决大问题的问题,但是事实上如果我们有更好的节点速度必然是会普遍提升的,因此ETL在大数据环境下仍然是必不可少的数据交换工具。

市场上流行的ETL很多,比如informatica等,但是开源的比较完善的却不是很多,而其中比较有名的要说是pentaho开源的kettle了,该工具被广泛用,并且开源的产品我们从中不仅可以学到ETL的简单应用,并且可以学习到ETL的原理以及通过源码学到更多的东西。

亮点一:KETTLE应用广泛,仅仅学会使用就可以找到一份不错的工作。

亮点二:本课程不仅讲解简单实用,同时讲解二次开发并且配有开发模板,提升工作质量。

亮点三:渗透了大数据的一些处理方法,与目前流行的hadoop配合使用。

亮点四:分析KETTLE源码,即使对ETL兴趣不大,至少可以了解国外开源项目的一些源码,并且KETTLE本身也使用了很多开源项目,因此可以从该工具上学到更多东西。

通过课程可以学到什么:
1.ETL过程原理
2.数据流引擎的原理
3.元数据和数据进行动态数据交换的设计
4.并发运算的原理

课时安排:(15课时)
1.ETL简介—开源KETTLE(1课时)

介绍KETTLE在大数据应用的位置和作用。
主要讲解ETL是什么,KETTLE进行简单介绍,并且使用例子进行KETTLE的使用介绍。
介绍KETTLE流程的部署。

2.KETTLE使用(1课时)

详细介绍KETTLE的spoon使用
KETTLE的trans和job入门
KETTLE的日志和调试工具使用

  1. KETTLE之Step流程设计(3课时)

编写例子介绍KETTLE常用的转换、清洗组件
主要完成以下插件:
输入插件:
文本文件输入、生成记录、表输入、Fixed file input、Get data from XML
输出插件:
XML输出、删除、插入/更新、文本文件输出、更新、表输出
转换插件:
Add a checksum、Replace in string、Set field value、Unique rows(HashSet)、增加常量、增加序列、字段选择、拆分字段
Flow插件:
Abort、Switch/case、空操作、过滤记录
脚本插件:
Modified Java Script Value、执行SQL脚本
查询插件:
File exists、Table exists、调用DB存储过程

  1. KETTLE之Job流程设计(2课时)

编写例子介绍KETTLE常用的作业组件
主要完成以下插件:
通用插件:
START、DUMMY、Transformation、Success
文件管理插件:
Copy Files、Compare folders、Create a folder、Create file、Delete files、Delete folders、File Compare、Move Files、Wait for file、Zip file、Unzip file
条件插件:
Check Db connections、Check files locked、Check if a folder is empty、Check if files exist、File Exists、Table exists、Wait for
脚本插件:
Shell、SQL
Utility插件:
Ping a host、Truncate tables
文件传输插件:
Upload files to FTPS、Get a file with FTPS、FTP Delete
Kettle与Hadoop的联合使用

  1. KETTLE之流程性能调优与监控(1课时)

介绍KETTLE的流程监控功能
介绍KETTLE的性能优化方法

  1. KETTLE之嵌入开发(1课时)

编写程序介绍KETTLE的流程如何嵌入到我们的java应用中
主要包括java嵌入trans以及job流程

  1. KETTLE之自定义Step、Job插件制作(3课时)

编写Step和Job模板,并给大家作为二次开发的基础工程使用,提高大家的开发效率。
编写程序说明Step和Job插件的开发方法。

  1. KETTLE之数据同步方案(1课时)

介绍5种数据同步方案,并且这5种方案都是支持异构数据同步的。
包括全量快速同步方案和增量同步方案

  1. KETTLE之分区、集群以及原理(1课时)

介绍KETTLE的分区原理,并且讲解配置使用。
介绍KETTLE的集群原理,并且讲解配置使用,以及监控方法。

  1. KETTLE之源码分析与二次开发(1课时)

介绍KETTLE的SRC导入ECLIPSE方法,以及打包和运行方法。
分析KETTLE的包结构以及运行流程,讲解KETTLE的运行原理。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容