kettle-spoon mysql表间转换

Kettle中文网

GitHub源码

官网在线文档

1. ETL介绍

ETL(Extract-Transform-Load的缩写,即数据==抽取、转换、装载==的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少的,Kettle就是强大的ETL工具。

Kettle是一款国外开源的ETL工具。

2. Kettle介绍

kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。

Kettle工具主要有四个组件组成,分别是Spoon,Pan,Kitchen以及Carte组件,具体功能如下:

*Spoon为集成开发软件,用于构建作业和转换,执行或调试作业和转换,还可以用在监控ETL操作性能。

*Pan以命令行形式执行Spoon生成的转换程序。

*Kitchen以命令行的方式执行Spoon生成的作业程序

*Carte是一个重要组件,是基于Jetty的轻量级HTTP服务器,主要用于监控HTTP执行作业和转换的进度。

3. Kettle环境搭建

这边以 windows 下的配置为例,linux 下配置类似.

jdk版本:jdk1.8.0版本
kettle版本:pdi-ce-9.3版本
MySQL版本:MySQL-8.0

由于 kettle 是基于 java 的,因此需要安装 java 环境,并配置 JAVA_HOME 环境变量。

4. 下载安装

将.zip文件下载到本地,解压到非中文文件夹\pdi-ce-9.3.0.0-428

由于 kettle 需要连接数据库,因此需要下载对应的数据库驱动。

例如:MySQL 数据库需要下载 mysql-connector-java.jar(在Windows中安装MySQL时已经自动安装)

不同版本的kettle需要对应不同的驱动包

本次实验版本对应的的驱动包如下:

mysql-connector-java-8.0.20.jar

下载之后直接放到

\pdi-ce-9.3.0.0-428\data-integration\lib文件夹下

5. 启动spoon

启动文件在

\pdi-ce-9.3.0.0-428\data-integration\spoon.bat
(注:如果是linux环境则是 \pdi-ce-9.3.0.0-428\data-integration\spoon.sh)

启动完成界面如下


转换(Transformation) 和 作业(Job)是Spoon设计器的核心两个内容,这两块内容构建了整个Kettle工作流程的基础。

转换(Transformation):主要是针对数据的各种处理(即数据量),一个转换里可以包 含多个步骤(Step)。
作业(Job):作业是步骤流,一个作业里包括多个作业项(Job Entry),一个作业项代表了一项工作,而转换是一种作业项,即作业里面可以包括多个转换也可以包含多个作业。

作业的每一个步骤,必须等到前面的步骤都跑完了,后面的步骤才会执行(串行);而转换会一次性把所有控件全部先启动(并行)

6. MySQL表间转换

6.1 数据表以及数据准备

先创建两个表用于数据同步

A表

CREATE TABLE `myself_sync_test_a`
(  `id` BIGINT NOT NULL AUTO_INCREMENT, 
`name` VARCHAR(12) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '姓名', 
`age` INT DEFAULT NULL COMMENT '年龄', 
`gender` INT DEFAULT NULL COMMENT '性别',
PRIMARY KEY (`id`)  ) ENGINE=INNODB AUTO_INCREMENT=23 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci;

插入数据

INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("刘备",10,1);  
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("关羽",20,1);  
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("张飞",30,1);  
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("赵云",40,1); 
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("马超",50,1);  
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("黄忠",60,1);

B表

CREATE TABLE `myself_sync_test_b`
 (  `id` BIGINT NOT NULL AUTO_INCREMENT, 
 `name` VARCHAR(12) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '姓名', 
 `age` INT DEFAULT NULL COMMENT '年龄', 
 `gender` INT DEFAULT NULL COMMENT '性别', 
 PRIMARY KEY (`id`)  ) ENGINE=INNODB AUTO_INCREMENT=23 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci;
6.2 新建转换

双击(或者右键点击新建)「主对象树」-「转换」 创建一个新的转换



在主对象树-转换下可以看到刚刚新建的转换
(1)创建数据库连接
「主对象树」-「转换」-「转换1」-「db连接」(右键点击新建)

创建对应的数据库连接,点击下方测试看看否连接成功,如果失败请检查驱动包是否已安装
这里也可以用环境变量设置 kettle 环境变量设置
(注意:连接名称不要用中文,否则之后在共享连接以及运行的时候会报错)


如果出现时区错误问题,需要在连接属性,加上个参数即可: serverTimezone = Hongkong


多个库就创建多个连接,


在后续的Kettle中,我们需要多次用到上面的数据库连接。那么是不是每一次都要创建数据库连接呢?这样就比较麻烦了。在Kettle中,可以将一个数据库共享,这样其他的Kettle转换就都可以复用该数据库连接了。

共享数据库可能会出现如下报错



原因是:不支持中文名称的DB连接
解决方案:
找到 .kettle/shared.xml(一般在:C:\Users\User.kettle) 文件;可以看到用中文的连接名称会是乱码



直接删除 <sharedobjects>...</sharedobjects>之间的内容

(2)数据传输
数据库连接创建完成接下来该做数据传输的工作了
点到「核心对象」这里面有很多很多功能,此时我们主要关注「输入」以及「输出」


将「输入」中的「表输入」直接拖动到右侧的工作区中

同样的也将「输出」中的「表输出」直接拖动到右侧的工作区中 ,如图:

按住Shift键,并鼠标左键点击表输入组件,并拉动鼠标,移动到表输出组件,松开鼠标。


6.3 配置表输入组件

双击表输入组件,选择数据库连接,然后写sql语句或者点击「获取SQL查询语句」


点击「预览」按钮,查看是否能够从MySQL读取数据。


6.3 配置表输出组件

双击表输出组件,选择对应的数据库连接,选择对应的目标表(目标模式选完后会自动填充),其他参数视情况自定义选择



也可以自定义数据库字段映射关系,如图


6.4 运行转换

此时我们一个简易的转换就创建好了,可以直接点击左上角的按钮开始运行



但是很多时候我们并不只运行这样一个转换,可能有多个转换在运行,设施后我们就可以创建一个作业,将一个个转换放到作业中,通过作业统一控制运行

6.5 创建作业

(1)将「核心对象」-「通用」下的「start」、「转换」、「成功」添加到右侧的工作区



(2)然后双击「转换」,选择刚刚配置好的转换然后点击确认



如果有需要也可以指定日志文件的输出位置

(3)双击start可以配置定时任务执行的时机,点击确定保存


(4)至此,我们一个简单的表间转换就配置好了,点击工作区左上角的开始按钮即可开始任务


===========================================================================================
参考链接:可视化ETL平台

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345

推荐阅读更多精彩内容