kettle-spoon mysql表间转换

1. ETL介绍

ETL（Extract-Transform-Load的缩写，即数据==抽取、转换、装载==的过程），对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种etl工具的使用，必不可少的，Kettle就是强大的ETL工具。

Kettle是一款国外开源的ETL工具。

2. Kettle介绍

kettle 是纯 java 开发，开源的 ETL工具，用于数据库间的数据迁移。可以在 Linux、windows、unix 中运行。有图形界面，也有命令脚本还可以二次开发。

Kettle工具主要有四个组件组成，分别是Spoon，Pan，Kitchen以及Carte组件，具体功能如下：

*Spoon为集成开发软件，用于构建作业和转换，执行或调试作业和转换，还可以用在监控ETL操作性能。

*Pan以命令行形式执行Spoon生成的转换程序。

*Kitchen以命令行的方式执行Spoon生成的作业程序

*Carte是一个重要组件，是基于Jetty的轻量级HTTP服务器，主要用于监控HTTP执行作业和转换的进度。

3. Kettle环境搭建

这边以 windows 下的配置为例，linux 下配置类似.

jdk版本：jdk1.8.0版本
kettle版本：pdi-ce-9.3版本
MySQL版本：MySQL-8.0

由于 kettle 是基于 java 的，因此需要安装 java 环境，并配置 JAVA_HOME 环境变量。

4. 下载安装

将.zip文件下载到本地，解压到非中文文件夹\pdi-ce-9.3.0.0-428

由于 kettle 需要连接数据库，因此需要下载对应的数据库驱动。

例如：MySQL 数据库需要下载 mysql-connector-java.jar（在Windows中安装MySQL时已经自动安装）

不同版本的kettle需要对应不同的驱动包

本次实验版本对应的的驱动包如下：

mysql-connector-java-8.0.20.jar

下载之后直接放到

\pdi-ce-9.3.0.0-428\data-integration\lib文件夹下

5. 启动spoon

启动文件在

\pdi-ce-9.3.0.0-428\data-integration\spoon.bat
(注：如果是linux环境则是 \pdi-ce-9.3.0.0-428\data-integration\spoon.sh)

启动完成界面如下

转换（Transformation）和作业（Job）是Spoon设计器的核心两个内容，这两块内容构建了整个Kettle工作流程的基础。

转换（Transformation）：主要是针对数据的各种处理（即数据量），一个转换里可以包含多个步骤（Step）。
作业（Job）：作业是步骤流，一个作业里包括多个作业项（Job Entry），一个作业项代表了一项工作，而转换是一种作业项，即作业里面可以包括多个转换也可以包含多个作业。

作业的每一个步骤，必须等到前面的步骤都跑完了，后面的步骤才会执行（串行）；而转换会一次性把所有控件全部先启动（并行）

6. MySQL表间转换

6.1 数据表以及数据准备

先创建两个表用于数据同步

A表

CREATE TABLE `myself_sync_test_a`
(  `id` BIGINT NOT NULL AUTO_INCREMENT, 
`name` VARCHAR(12) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '姓名', 
`age` INT DEFAULT NULL COMMENT '年龄', 
`gender` INT DEFAULT NULL COMMENT '性别',
PRIMARY KEY (`id`)  ) ENGINE=INNODB AUTO_INCREMENT=23 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci;

插入数据

INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("刘备",10,1);  
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("关羽",20,1);  
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("张飞",30,1);  
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("赵云",40,1); 
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("马超",50,1);  
INSERT INTO myself_sync_test_a (`name`,`age`,`gender`) VALUES ("黄忠",60,1);

B表

CREATE TABLE `myself_sync_test_b`
 (  `id` BIGINT NOT NULL AUTO_INCREMENT, 
 `name` VARCHAR(12) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '姓名', 
 `age` INT DEFAULT NULL COMMENT '年龄', 
 `gender` INT DEFAULT NULL COMMENT '性别', 
 PRIMARY KEY (`id`)  ) ENGINE=INNODB AUTO_INCREMENT=23 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci;

6.2 新建转换

双击（或者右键点击新建）「主对象树」-「转换」创建一个新的转换

在主对象树-转换下可以看到刚刚新建的转换
（1）创建数据库连接
「主对象树」-「转换」-「转换1」-「db连接」（右键点击新建）

创建对应的数据库连接，点击下方测试看看否连接成功，如果失败请检查驱动包是否已安装
这里也可以用环境变量设置 kettle 环境变量设置
（注意：连接名称不要用中文，否则之后在共享连接以及运行的时候会报错）

如果出现时区错误问题,需要在连接属性，加上个参数即可： serverTimezone = Hongkong

多个库就创建多个连接，

在后续的Kettle中，我们需要多次用到上面的数据库连接。那么是不是每一次都要创建数据库连接呢？这样就比较麻烦了。在Kettle中，可以将一个数据库共享，这样其他的Kettle转换就都可以复用该数据库连接了。

共享数据库可能会出现如下报错

原因是：不支持中文名称的DB连接
解决方案：
找到 .kettle/shared.xml（一般在：C:\Users\User.kettle）文件;可以看到用中文的连接名称会是乱码

直接删除 <sharedobjects>...</sharedobjects>之间的内容

（2）数据传输
数据库连接创建完成接下来该做数据传输的工作了
点到「核心对象」这里面有很多很多功能，此时我们主要关注「输入」以及「输出」

将「输入」中的「表输入」直接拖动到右侧的工作区中

同样的也将「输出」中的「表输出」直接拖动到右侧的工作区中，如图：

按住Shift键，并鼠标左键点击表输入组件，并拉动鼠标，移动到表输出组件，松开鼠标。

6.3 配置表输入组件

双击表输入组件，选择数据库连接，然后写sql语句或者点击「获取SQL查询语句」

点击「预览」按钮，查看是否能够从MySQL读取数据。

6.3 配置表输出组件

双击表输出组件，选择对应的数据库连接，选择对应的目标表（目标模式选完后会自动填充），其他参数视情况自定义选择

也可以自定义数据库字段映射关系，如图

6.4 运行转换

此时我们一个简易的转换就创建好了，可以直接点击左上角的按钮开始运行

但是很多时候我们并不只运行这样一个转换，可能有多个转换在运行，设施后我们就可以创建一个作业，将一个个转换放到作业中，通过作业统一控制运行

6.5 创建作业

（1）将「核心对象」-「通用」下的「start」、「转换」、「成功」添加到右侧的工作区

（2）然后双击「转换」，选择刚刚配置好的转换然后点击确认

如果有需要也可以指定日志文件的输出位置

（3）双击start可以配置定时任务执行的时机，点击确定保存

（4）至此，我们一个简单的表间转换就配置好了，点击工作区左上角的开始按钮即可开始任务

===========================================================================================
参考链接：可视化ETL平台

最后编辑于：2023.12.06 14:32:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345