MySQL到ClickHouse实时同步-CloudCanal实战

简述

CloudCanal 近期实现了 MySQL（RDS）到 ClickHouse 实时同步的能力，功能包含全量数据迁移、增量数据迁移、结构迁移能力，以及附带的监控、告警、HA等能力(平台自带)。

ClickHouse 本身并不直接支持 Update 和 Delete 能力，但是他自带的 MergeTree 系列表中 CollapsingMergeTree 和 VersionedCollapsingMergeTree 可变相实现实时增量的目的，并且性能完全够用,能够比较轻松达到 1k RPS 以上的能力。

接下来的文章，简要介绍 CloudCanal 是如何实现这个能力，以及作为用户我们怎么比较好的使用这个能力。

技术点

结构迁移

CloudCanal 默认提供结构迁移，默认选择 CollapsingMergeTree 作为表引擎，并增加一个默认字段 __cc_ck_sign，源主键作为 sortKey，如下示例:

 CREATE TABLE console.worker_stats
(
    `id` Int64,
    `gmt_create` DateTime,
    `worker_id` Int64,
    `cpu_stat` String,
    `mem_stat` String,
    `disk_stat` String,
    `__cc_ck_sign` Int8 DEFAULT 1
)
ENGINE = CollapsingMergeTree(__cc_ck_sign)
ORDER BY id
SETTINGS index_granularity = 8192

ClickHouse 表引擎中，CollapsingMergeTree 和 VersionedCollapsingMergeTree 都能通过标记位按规则折叠数据，从而达到更新和删除的效果。VersionedCollapsingMergeTree 相比 CollapsingMergeTree 优势在于同一条数据的不同变更可以乱序写入，但是 CloudCanal 选择 CollapsingMergeTree 主要原因在于2点

1. CloudCanal 中同一条记录必定是按源库变更顺序写入，不存在乱序情况
1. 不需要维护 VersionedCollapsingMergeTree 中的 Version 字段(版本，也可以起其他名字)

所以 CloudCanal 选择了 CollapsingMergeTree 作为默认表引擎。

写数据

CloudCanal 写数据主要包含全量和增量两种，即单次搬迁存量数据和长期同步，两者写入略有不同。全量写入对端主要工作是批量和多线程，因为 CloudCanal 结构迁移默认设置了标记位字段 __cc_ck_sign default 值为 1, 所以就不需要做特殊处理。

对于增量, CloudCanal 则需要做 3 件事情。

转换 Update、Delete 操作为 Insert
这一步有两件事情要做，第一件是按照操作类型，填充标记字段值，其中 Insert 和 Update 为 1 ，Delete 为 -1 ，第二件是将对应增量数据的前镜像或者后镜像填充到结果记录中，以便后续 insert 写入。

 for (CanalRowChange rowChange : rowChanges) {
            switch (rowChange.getEventType()) {
                case INSERT: {
                    for (CanalRowData rowData : rowChange.getRowDatasList()) {
                        rowData.getAfterColumnsList().add(nonDeleteCol);
                        records.add(rowData.getAfterColumnsList());
                    }

                    break;
                }
                case UPDATE: {
                    for (CanalRowData rowData : rowChange.getRowDatasList()) {
                        rowData.getBeforeColumnsList().add(deleteCol);
                        records.add(rowData.getBeforeColumnsList());

                        rowData.getAfterColumnsList().add(nonDeleteCol);
                        records.add(rowData.getAfterColumnsList());
                    }

                    break;
                }
                case DELETE: {
                    for (CanalRowData rowData : rowChange.getRowDatasList()) {
                        rowData.getBeforeColumnsList().add(deleteCol);
                        records.add(rowData.getBeforeColumnsList());
                    }

                    break;
                }
                default:
                    throw new CanalException("not supported event type,eventType:" + rowChange.getEventType());
            }
        }

按表归组
因为 IUD 操作已全部转换为 Insert, 且为全镜像(所有字段都填充了值),所以可以按表归组，然后批量写入。即使单线程也能满足大部分场景的同步性能要求。

protected Map<TableUnit, List<CanalRowChange>> groupByTable(IncrementMessage message) {
        Map<TableUnit, List<CanalRowChange>> data = new HashMap<>();
        for (ParsedEntry entry : message.getEntries()) {
            if (entry.getEntryType() == CanalEntryType.ROWDATA) {
                CanalRowChange rowChange = entry.getRowChange();
                if (!rowChange.isDdl()) {
                    List<CanalRowChange> changes = data.computeIfAbsent(new TableUnit(entry.getHeader().getSchemaName(), entry.getHeader().getTableName()), k -> new ArrayList<>());
                    changes.add(rowChange);
                }
            }
        }

        return data;
    }

并行写入
将按表归组的数据使用并行执行框架执行，具体不详述。

举个"栗子"

添加数据源

1.jpg
创建任务，选择数据源和库，并连接成功，点击下一步

2.jpg
选择数据同步，建议规格至少选择 1 GB.目前 MySQL->ClickHouse 结构迁移自动过滤，所以选择无效。点击下一步

3.jpg
选择表，默认 ClickHouse 上创建 CollapsingMergeTree 表引擎，并自动添加 __cc_ck_sign 折叠标记字段。点击下一步

4.jpg
选择字段，点击下一步

5.jpg
创建任务

6.jpg
等待任务自动结构迁移、全量迁移、数据同步追上

7.jpg
造点 Insert、Update、Delete 负载

8.jpg
延迟追平状态，停止负载

9.jpg
检查源端 MySQL 表数据，以其中一张表为例

10.jpg
检查对端 ClickHouse 表数据，不一致?!!

11.jpg
手动优化下表，数据一致。虽然可以等待 ClickHouse 自动优化，但是如果需要直接得到准确结果，可手动优化(注意:手动优化可能导致数据库机器压力过大)

12.jpg

常见问题

我在ClickHouse上已经创建了表怎么办？

目前比较建议直接使用 CloudCanal 自动结构迁移的方式来创建任务。

如果已建表为 CollapsingMergeTree 表引擎，请将标记位字段改成 __cc_ck_sign Int8 DEFAULT 1`，再创建任务(此时就不再自动结构迁移，而是使用已存在表)。

如果为其他表引擎，暂时不支持(主要是不支持增量能力，需要 CloudCanal 进一步探索)。

同步过去的数据什么时候合并？

当 CloudCanal 同步数据到 ClickHouse 时，ClickHouse 并不会实时合并数据，也没有一致性可言，所以一般情况是等待合并，或者直接手动合并(造成机器高负载、高IO)，如 optimize table worker_stats FINAL。

DDL 怎么做？

目前 CloudCanal 还未支持到 ClickHouse 的 DDL 同步，产品实现上，目前是忽略的。所以如果做 DDL ，加字段建议对端先加，再加源端，减字段反之。

总结

本文简要介绍了 CloudCanal 实现 MySQL（RDS）到 ClickHouse 数据迁移同步的能力，具备一站式、数据实时特点，从技术点、例子、以及常见问题角度展开。文章如有错误，烦请大家勘误，后续也欢迎大家试用，提供宝贵的意见和建议。
CloudCanal-免费好用的企业级数据同步工具，欢迎品鉴。
了解产品可以查看官方网站： http://www.clougence.com
CloudCanal社区：https://www.askcug.com/

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342