实时数仓-Canal介绍

实时数仓中架构如下图:

实时数仓架构图.jpg

实时架构主要数据来源有3块

  1. 日志文件(或设备上的心跳数据),由Flume或者Springboot程序直接写到kafka中
    
  2. 接口API,使用程序调用接口
    
  3. 业务数据库,大部分是使用mysql,mysql数据可以由binary log进行实时获取到kafka集群
    
一,实时获取业务数据库

离线获取mysql数据,一般通过JDBC获取数据,这样对mysql的负载也是很大;
实时获取mysql数据,一般通过binary log获取数据,这样对mysql的负载很小。
实时获取binlog的工具:canal/Maxwell/Debezium; canal是阿里开发的,Maxwell国外的,上升很快

1.1 canal介绍
  1. 原始场景;阿里otter中间件的一部分
    otter是阿里用于进行异地数据库之间的同步框架,canal是其中一部分
  2. 场景1:更新缓存
  3. 场景2:抓取业务数据新增变化表,用于制作拉链表。
    拉链表:需要知道数据今天变化情况,canal只是监控数据库数据变化,然后把数据抽到新的数据库中,做拉链表
    canal不消耗mysql性能,canal监控mysql文件变化
  4. 场景3:抓取业务表的新增变化数据,用于制作实时统计
1.2 canal的工作原理

参考mysql主备复制实现
canal的工作原理很简单,就是把自己伪装成salve, 假装从master复制数据

canal的工作原理.jpg

读取binary log需要master授权和用户名密码;
Maxwell也是读取binary log

二,mysql的binlog
2.1 什么是binlog
    MySQL的二进制日志可以说是MySQL最重要的日志了,他记录了所有的DDL和DML(除了数据查询语句)语句,以事件形式记录,还包含语句所执行的消耗时间,MySQL的二进制日志是事务安全型的。
    一般来说开启二进制日志大概会有1%的性能损耗。二进制的两个最重要的使用场景:
    1. MySQL Replication在Master端开启binlog, Master把它的二进制日志传递给slaves来达到master-slave数据一致的目的
    2. 数据恢复,通过使用mysqlbinlog工具来使数据恢复

    二进制包括两类文件;二进制日志索引文件(文件名后缀为.index)用于记录所在的二进制文件
    二进制日志文件(文件名后缀为.00000*)记录数据库所有的DDL和DML(除了数据查询语句)语句事件
    二进制日志文件量比较大

mysqlbinlog工具可以用binlog进行备份恢复

2.2 MySQL binlog开启

Linux(Centos 7)服务器上的MySQL:

#修改binlog
cd /etc/
vim my.cnf
#/etc/my.cnf是mysql下关键配置文件
#默认mysql数据目录是/var/lib/mysql
binlog文件也在这个目录下:文件中名类似:mysql-bin.000106
data数据文件是ibdata1

开启binlog:
修改配置文件:/etc/my.cnf
1. 添加:log-bin=mysql-bin
2. bin-format=row
3. binlog-do-db=testdb //指定binlog监控的数据库
4. server-id=1 //如果mysql是集群,canal的server-id要设置高点,不要与mysql重复了
2.3 binlog格式
  • statement 语句级
    如:update xxx set xxx= xx where xxx =xxx,会把SQL记录在binlog中,会把这条SQL重新执行一遍,
    优点: 记录的是语句,日志文件不会很大
    缺点: 有可能照成mysql主从数据不一致,比如使用now(),rand()都有可能照成数据不一致

  • row 行级
    语句执行后会记录每一行的结果,在slave时,直接拿每一行的值去覆盖
    优点: 解决数据不一致问题,大数据抽取binlog进行数据解析方便
    缺点: 如果一次更改数据量很大,有几百万时,会出现大量日志;遇到批量执行的SQL出现时,会出现大量的冗余

  • mixed 混合
    一般情况下使用statement, 遇到几种特殊情况,使用row,
    特殊情况:NOW(), RAND(), UUID(), UDF, INSERT DELAYED, AUTO_INCREMENT
    优点: binlog日志文件不会太大,同时也能保证主从数据一致
    缺点: 大数据去抽取binlog日志文件解析得到数据不方便,数据分析使用方去分析数据最方便直接,分析语句太麻烦

    2.4 重启Mysql
sudo systemctl restart mysql//重启mysql

sudo service sshd restart //重启sshd命令

 ps -ef|grep mysql//查看mysql进程是否开启
 
 改完/etc/my.cnf文件后需要把文件权限降级,
 sudo chmod 644 /etc/my.cnf

新建一个canal账号,给canal使用,给canal的账号赋权限:SELECT,REPLICATION SLAVE, REPLICATION CLIENT

GRANT SELECT,REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO canal@'%' IDENTIFIED BY 'canal'
三,canal安装

安装前先看看canal的原理图,如下:

canal原理图.jpg

canal的github上的地址:https://github.com/alibaba/canal/releases/
这里下载1.14版本,
一个canal可以对应多个数据库配置,一个Server可以对应多个Instance,每个Instance可以独立监控一台MySQL服务器

下载后在Linux目录/usr/local中新建canal目录,把下载的文件canal.deployer-1.1.4.tar.gz上传到该目录中,运行如下语句进行解压:

tar -zxvf canal.deployer-1.1.4.tar.gz

解压后可以把文件canal.deployer-1.1.4.tar.gz删了
下面需要修改配置文件:

  • 需要修改配置文件./conf/canal.properties

    **1. canal.zkServers是配置zookeeper的信息,如果canal配置集群模式,这个需要配,如果只是单机版不需要配置,我这边是单机版,就没有配置了;

    1. canal.serverMode配置成kafka,这样canal会直接把数据写入到kafka中;
    2. canal.mq.servers 配置成kafka的broker server信息,让canal知道怎么把数据写入kafka**
  • 需要修改配置文件./conf/example/instance.properties
    **1. 修改canal.instance.master.address的值,改成你需要监控的mysql的host和port;

    1. 修改canal.instance.dbUsername和canal.instance.dbPassword的值,改成你要监控的mysql的账号和密码
    2. 修改canal.mq.topic的值,改成在kafka中的topic
    3. canal.mq.partition表示数据写到kafka中哪个分片中,一般不知道分片,给注释掉
    4. canal.mq.partitionsNum表示建的topic有几个分区,可以根据数据量大小设置分区数

**注意: 1. canal是一个数据源一个topic,这样会把每张表的binlog都放在一个topic中,所以后面需要做实时分流

  1. 一个instance.properties对应一个数据库服务器,一个canal可以配置多个instance,可以配置多个instance.properties
  2. 一个instance中能监控多少个数据库,取决于mysql的配置文件/ect/my.cnf中binlog-do-db的值**
  • 启动canal
#启动命令
cd ./canal/bin
./startup.sh

启动成功后,JPS后会出现CanalLauncher

四,Canal高可用配置

canal高可用配置原理如下图:

canal对比Maxwell, Maxwell没有高可用,服务故障了,就重启,keepalived工具可以监测进程是否挂了,挂了后可以触发重启

  • copy当前服务器上的canal文件夹到standby服务器上,代码如下:
scp -r ./canal hadoop@dw-test-cluster-006:/usr/local/tools/
  • 修改配置文件/conf/example/instance.properties
    之前canal版本需要把server.id修改,不过1.1.4这版已经自动分配service.id了,不需要再修改配置了
    这样两台机器的配置一样

  • 修改配置文件/conf/canal.properties中的zookeeper的配置

canal.zkServers = dw-test-cluster-001:2181,dw-test-cluster-002:2181,dw-test-cluster-003:2181,dw-test-cluster-004:2181,dw-test-cluster-005:2181,dw-test-cluster-006:2181,dw-test-cluster-007:2181
  • 两个服务器都重启canal
./canal/bin/restart.sh

用JPS检查下服务是否启动成功。
如下图在改下配置,防止一个节点挂了,另一个节点发重复数据,如下图配置:


image.png
  • canal生成kafka topic时,分区平衡设置
    在example/Instance.properties文件中加如下配置
    表示全库全表的主键
    canal.mq.partitionHash=.*\\..*:$pk
    
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343