1. ETL介绍
ETL(Extract-Transform-Load的缩写,即数据==抽取、转换、装载==的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少的,Kettle就是强大的ETL工具。
Kettle是一款国外开源的ETL工具。
2. Kettle介绍
kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。
Kettle工具主要有四个组件组成,分别是Spoon,Pan,Kitchen以及Carte组件,具体功能如下:
*Spoon为集成开发软件,用于构建作业和转换,执行或调试作业和转换,还可以用在监控ETL操作性能。
*Pan以命令行形式执行Spoon生成的转换程序。
*Kitchen以命令行的方式执行Spoon生成的作业程序
*Carte是一个重要组件,是基于Jetty的轻量级HTTP服务器,主要用于监控HTTP执行作业和转换的进度。
3. Kettle环境搭建
这边以 windows 下的配置为例,linux 下配置类似.
jdk版本:jdk1.8.0版本
kettle版本:pdi-ce-9.3版本
MySQL版本:MySQL-8.0
由于 kettle 是基于 java 的,因此需要安装 java 环境,并配置 JAVA_HOME 环境变量。
4. 下载安装
将.zip文件下载到本地,解压到非中文文件夹\pdi-ce-9.3.0.0-428
由于 kettle 需要连接数据库,因此需要下载对应的数据库驱动。
例如:MySQL 数据库需要下载 mysql-connector-java.jar(在Windows中安装MySQL时已经自动安装)
不同版本的kettle需要对应不同的驱动包
本次实验版本对应的的驱动包如下:
mysql-connector-java-8.0.20.jar
下载之后直接放到
\pdi-ce-9.3.0.0-428\data-integration\lib文件夹下
5. 启动spoon
启动文件在
\pdi-ce-9.3.0.0-428\data-integration\spoon.bat
(注:如果是linux环境则是 \pdi-ce-9.3.0.0-428\data-integration\spoon.sh)
启动完成界面如下
转换(Transformation) 和 作业(Job)是Spoon设计器的核心两个内容,这两块内容构建了整个Kettle工作流程的基础。
转换(Transformation):主要是针对数据的各种处理(即数据量),一个转换里可以包 含多个步骤(Step)。
作业(Job):作业是步骤流,一个作业里包括多个作业项(Job Entry),一个作业项代表了一项工作,而转换是一种作业项,即作业里面可以包括多个转换也可以包含多个作业。
作业的每一个步骤,必须等到前面的步骤都跑完了,后面的步骤才会执行(串行);而转换会一次性把所有控件全部先启动(并行)
6. MySQL表间转换
6.1 数据表以及数据准备
先创建两个表用于数据同步
A表
CREATE TABLE `myself_sync_test_a`
( `id` BIGINT NOT NULL AUTO_INCREMENT,
`name` VARCHAR(12) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '姓名',
`age` INT DEFAULT NULL COMMENT '年龄',
`gender` INT DEFAULT NULL COMMENT '性别',
PRIMARY KEY (`id`) ) ENGINE=INNODB AUTO_INCREMENT=23 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci;
插入数据
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("刘备",10,1);
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("关羽",20,1);
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("张飞",30,1);
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("赵云",40,1);
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("马超",50,1);
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("黄忠",60,1);
B表
CREATE TABLE `myself_sync_test_b`
( `id` BIGINT NOT NULL AUTO_INCREMENT,
`name` VARCHAR(12) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '姓名',
`age` INT DEFAULT NULL COMMENT '年龄',
`gender` INT DEFAULT NULL COMMENT '性别',
PRIMARY KEY (`id`) ) ENGINE=INNODB AUTO_INCREMENT=23 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci;
6.2 新建转换
双击(或者右键点击新建)「主对象树」-「转换」 创建一个新的转换
在主对象树-转换下可以看到刚刚新建的转换
(1)创建数据库连接
「主对象树」-「转换」-「转换1」-「db连接」(右键点击新建)
创建对应的数据库连接,点击下方测试看看否连接成功,如果失败请检查驱动包是否已安装
这里也可以用环境变量设置 kettle 环境变量设置
(注意:连接名称不要用中文,否则之后在共享连接以及运行的时候会报错)
如果出现时区错误问题,需要在连接属性,加上个参数即可: serverTimezone = Hongkong
多个库就创建多个连接,
在后续的Kettle中,我们需要多次用到上面的数据库连接。那么是不是每一次都要创建数据库连接呢?这样就比较麻烦了。在Kettle中,可以将一个数据库共享,这样其他的Kettle转换就都可以复用该数据库连接了。
共享数据库可能会出现如下报错
原因是:不支持中文名称的DB连接
解决方案:
找到 .kettle/shared.xml(一般在:C:\Users\User.kettle) 文件;可以看到用中文的连接名称会是乱码
直接删除 <sharedobjects>...</sharedobjects>之间的内容
(2)数据传输
数据库连接创建完成接下来该做数据传输的工作了
点到「核心对象」这里面有很多很多功能,此时我们主要关注「输入」以及「输出」
将「输入」中的「表输入」直接拖动到右侧的工作区中
同样的也将「输出」中的「表输出」直接拖动到右侧的工作区中 ,如图:
按住Shift键,并鼠标左键点击表输入组件,并拉动鼠标,移动到表输出组件,松开鼠标。
6.3 配置表输入组件
双击表输入组件,选择数据库连接,然后写sql语句或者点击「获取SQL查询语句」
点击「预览」按钮,查看是否能够从MySQL读取数据。
6.3 配置表输出组件
双击表输出组件,选择对应的数据库连接,选择对应的目标表(目标模式选完后会自动填充),其他参数视情况自定义选择
也可以自定义数据库字段映射关系,如图
6.4 运行转换
此时我们一个简易的转换就创建好了,可以直接点击左上角的按钮开始运行
但是很多时候我们并不只运行这样一个转换,可能有多个转换在运行,设施后我们就可以创建一个作业,将一个个转换放到作业中,通过作业统一控制运行
6.5 创建作业
(1)将「核心对象」-「通用」下的「start」、「转换」、「成功」添加到右侧的工作区
(2)然后双击「转换」,选择刚刚配置好的转换然后点击确认
如果有需要也可以指定日志文件的输出位置
(3)双击start可以配置定时任务执行的时机,点击确定保存
(4)至此,我们一个简单的表间转换就配置好了,点击工作区左上角的开始按钮即可开始任务
===========================================================================================
参考链接:可视化ETL平台