MySQL-主从复制基础

0.企业高可用性标准 ***

0.1 全年无故障率(非计划内故障停机)

99.9%                 ----> 0.001*365*24*60=525.6  min
99.99%                ----> 0.0001*365*24*60=52.56 min
99.999%               ----> 0.0001*365*24*60=5.256 min

0.2 高可用架构方案

负载均衡:有一定的高可用性 
LVS  Nginx
主备系统:有高可用性,但是需要切换,是单活的架构
KA ,   MHA, MMM
真正高可用(多活系统): 
NDB Cluster  Oracle RAC  Sysbase cluster   , InnoDB Cluster（MGR）,PXC , MGC

1. 主从复制简介 **

1.1\. 基于二进制日志复制的
1.2\. 主库的修改操作会记录二进制日志
1.3\. 从库会请求新的二进制日志并回放,最终达到主从数据同步
1.4\. 主从复制是异步的
1.4\. 主从复制核心功能:
辅助备份,处理物理损坏                   
扩展新型的架构:高可用,高性能,分布式架构等

2. 主从复制前提(搭建主从的过程) ***

## 2.1 两台或两台以上mysql实例 ,server_id,server_uuid不同
## 2.2 主库需要开启二进制日志
## 2.3 主库需要建立专用的复制用户(replication slave)
## 2.4 保证主从开启之前的某个时间点,从库数据是和主库一致(补课),从库通过备份主库，恢复的方式进行“补课”
## 2.5 人为告知从库,复制user,passwd,IP port,以及复制起点(change master to)
## 2.6 从库应该开启专门的复制线程                    线程(三个):Dump thread  IO thread  SQL thread 开启(start slave)

3. 主从复制搭建(Classic replication) ***

3.1 启动主库

[root@db01 3307]# pkill mysqld
[root@db01 3307]# systemctl start mysqld3307

3.2 准备从库

[root@db01 3308]# rm -rf /data/3308/data/*
[root@db01 3308]# rm -rf /data/3308/mysql-bin*

[root@db01 3308]# mysqld --initialize-insecure --user=mysql --basedir=/application/mysql --datadir=/data/3308/data
[root@db01 3308]# systemctl start mysqld3308

3.3 检查配置文件

1.二进制日志是否开启
2.两个节点的server_id不同

[root@db01 3307]# vim /data/3307/my.cnf 
log_bin=/data/3307/data/mysql-bin
server-id=7

[root@db01 3308]# vim /data/3308/my.cnf 
log_bin=/data/3308/data/mysql-bin
server-id=8

3.4 主库中创建复制用户

[root@db01 3307]# mysql -S /data/3307/mysql.sock 
db01 [(none)]>grant replication slave on *.* to repl@'10.0.0.%' identified by '123';
db01 [(none)]>select user,host from mysql.user;

3.6 备份主库并恢复到从库

[root@db01 3307]# mysqldump -S /data/3307/mysql.sock -A --master-data=2 --single-transaction  -R --triggers >/backup/full.sql
vim /backup/full.sql
-- CHANGE MASTER TO MASTER_LOG_FILE='mysql-bin.000001', MASTER_LOG_POS=653;
[root@db01 3307]# mysql -S /data/3308/mysql.sock
db01 [(none)]>source /backup/full.sql

3.7 告知从库关键复制信息

ip port user  password  binlog position 
[root@db01 3307]# mysql -S /data/3308/mysql.sock
db01 [mysql]>help change master to

CHANGE MASTER TO
  MASTER_HOST='10.0.0.51',
  MASTER_USER='repl',
  MASTER_PASSWORD='123',
  MASTER_PORT=3307,
  MASTER_LOG_FILE='mysql-bin.000001',
  MASTER_LOG_POS=154,
  MASTER_CONNECT_RETRY=10;

3.8 开启主从专用线程（IO、SQL线程）

从库：
start slave ;

3.9 检查复制状态

db01 [mysql]>show slave  status \G
Slave_IO_Running: Yes
Slave_SQL_Running: Yes

4. 主从复制的原理 (Classic Replication)*****

4.1 主从中设置到的文件和线程

4.1.1 线程

主库:
BINLOG_DUMP THREAD : DUMP_T
从库:
SLAVE_IO_THREAD: IO_T
SLAVE_SQL_THREAD : SQL_T

4.1.2 文件

主:
binlog (mysql-bin.000001)
从: 
relaylog (db01-relay.000001)  ===>中继日志
master.info                 ===》主库信息记录日志
relay-log.info              ===> 记录中继应用情况信息

4.2 主从复制原理

image

主从复制原理描述：

1.从库执行change master to 时，会将主库信息(ip pot user password binlog position)写入到master.info进行记录
2.从库start slave 时，从库会启动IO线程和SQL线程
3.IO_T，读取master.info信息，获取主库信息连接主库
4\. 从库IO_T请求连接主库，主库会专门提供一个DUMP_T线程，负责和IO_T交互
5\. IO_T根据master.info记录的binlog文件名和position号，请求主库DUMP最新日志
6\. 主库通过DUMP_T线程将最新的binlog日志，通过网络TP(传送)给从库的IO_T
7\. IO_T将收到的日志存储到了TCP/IP 缓存，立即返回ACK给主库 ，主库工作完成
8.IO_T将缓存中的数据，存储到relay-log日志文件,更新master.info文件binlog 文件名和postion，IO_T工作完成
9.SQL_T读取relay-log.info文件，获取到上次执行到的relay-log的位置
10.SQL_T会按照上次的位置点回放最新的relaylog，会再次更新relay-log.info文件。
11. 从库会自动purge应用过的relay-log会进行定期的清理。
细节：
1.主库一旦有新的日志生成，都会通过dump_T发送'信号' 给IO_T,增强了主从复制的实时性。

5. 主从故障监控\分析\处理 *****

5.1 线程相关监控

主库:

show full processlist;
每个从库都会有一行dump相关的信息
HOSTS: 
db01:47176
State:
Master has sent all binlog to slave; waiting for more updates
如果现实非以上信息,说明主从之间的关系出现了问题

从库:

db01 [(none)]>show slave status \G
*************************** 1\. row ***************************

主库相关信息（master.info）

主库地址
Master_Host: 10.0.0.51
复制用户
Master_User: repl
主库端口
Master_Port: 3307
尝试连接次数
Connect_Retry: 10
主库的binlog最新信息
Master_Log_File: mysql-bin.000006
Read_Master_Log_Pos: 234

从库relay应用信息有关的（relay-log.info）

从库已经执行过的relay_log的信息
Relay_Log_File: db01-relay-bin.000008
Relay_Log_Pos: 407
从库的relaylog对应的是主库的binlog
Relay_Master_Log_File: mysql-bin.000006

从库复制线程有关的状态

Slave_IO_Running: Yes
Slave_SQL_Running: Yes
Last_IO_Errno: 0
Last_IO_Error: 
Last_SQL_Errno: 0
Last_SQL_Error:

过滤复制有关的状态

Replicate_Do_DB: 
Replicate_Ignore_DB: 
Replicate_Do_Table: 
Replicate_Ignore_Table: 
Replicate_Wild_Do_Table: 
Replicate_Wild_Ignore_Table:

从库延时主库的时间（秒）

Seconds_Behind_Master: 0

延时从库有关的状态(人为)

SQL_Delay: 0
SQL_Remaining_Delay: NULL

GTID 复制有关的状态

Retrieved_Gtid_Set: 
Executed_Gtid_Set: 
Auto_Position: 0

5.2 主从复制故障分析

5.2.1 IO

5.2.1.1 连接主库错误(Connecting)

Last_IO_Error: error reconnecting to master 'repl@10.0.0.51:3307' - retry-time: 10  retries: 7
[root@db01 ~]# mysql -urepl  -p123333  -h 10.0.0.51 -P 3307
ERROR 1045 (28000): Access denied for user 'repl'@'db01' (using password: YES)

原因:
密码错误 
用户错误 
地址错误
端口
防火墙
连接数上限

1）用户相关信息错误连接报错

image

用户相关信息错误解决方法

stop  slave  
reset slave all 
change master to 
start slave

2）主库连接数上线,或者是主库太繁忙

show slave  staus \G 
Last_IO_Errno: 1040
Last_IO_Error: error reconnecting to master 'repl@10.0.0.51:3307' - retry-time: 10  retries: 7
处理思路:
拿复制用户,手工连接一下

[root@db01 ~]# mysql -urepl -p123 -h 10.0.0.51 -P 3307 
mysql: [Warning] Using a password on the command line interface can be insecure.
ERROR 1040 (HY000): Too many connections
处理方法:
db01 [(none)]>set global max_connections=300;

(3) 防火墙,网络不通

5.2.1.2 请求二进制日志

情况

binlog 没开
binlog 损坏，不存在
从库方面,二进制日志位置点不对

解决方法

注意: 在主从复制环境中,严令禁止主库中reset master; 可以选择expire 进行定期清理主库二进制日志
解决方案:
重新构建主从
stop  slave  
reset slave all 
change master to 
start slave

5.2.1.3 存储binlog到relaylog

了解

relaylog文件的权限发生改变，导致无法写入。
IO线程也会有报错，但发生情况很少

5.2.2 SQL 线程故障

SQL线程功能：

(1)读写relay-log.info 
(2)relay-log损坏,断节,找不到
(3)接收到的SQL无法执行

导致SQL线程故障原因分析：

1\. 版本差异，参数设定不同，比如：数据类型的差异，SQL_MODE影响
2.要创建的数据库对象,已经存在
3.要删除或修改的对象不存在  
4.DML语句不符合表定义及约束时.  
归根揭底的原因都是由于从库发生了写入操作.
Last_SQL_Error: Error 'Can't create database 'db'; database exists' on query. Default database: 'db'. Query: 'create database db'

SQL线程问题（例）

image.png

处理方法(以主库为核心的处理方案)：

stop slave;
drop database db;
start slave;
将从库跟主库发生冲突的库或者表删除，再重新启动从库。

处理方法(以从库为核心的处理方案)：

（比较暴力）

方法一：
stop slave; 
set global sql_slave_skip_counter = 1;
#将同步指针向下移动一个，如果多次不同步，可以重复操作。
start slave;

方法二：
/etc/my.cnf
slave-skip-errors = 1032,1062,1007
常见错误代码:
1007:对象已存在
1032:无法执行DML
1062:主键冲突,或约束冲突

但是，以上操作有时是有风险的，最安全的做法就是重新构建主从。把握一个原则,一切以主库为主.

主键冲突

image.png

解决方法：

重新构建主从代价太大
将从库跟主库冲突的行的内容update改为跟主库一样，然后再跳过此次错误

一劳永逸的方法:

(1) 可以设置从库只读.
db01 [(none)]>show variables like '%read_only%';
read_only            普通用户
super_read_only      管理员用户
(2)加中间件
读写分离。

6. 主从延时监控及原因 *****

主库做了修改操作,从库比较长时间才能追上.

6.1 外在因素

网络 
主从硬件差异较大
版本差异
参数因素

6.2 主库

(1) 二进制日志写入不及时
[rep]>select @@sync_binlog;
(2) CR(传统)的主从复制中,binlog_dump线程,事件为单元,串行传送二进制日志(5.6 5.5)
(3) 主库本身极其繁忙
慢语句
锁等待
从库个数
网络延时

1\. 主库并发事务量大,传送时是串行
2\. 主库发生了大事务,由于是串行传送,会产生阻塞后续的事务.

解决方案:
1\. 5.6 开始,开启GTID,实现了GC(group commit)机制,可以并行传输日志给从库IO
2\. 5.7 开始,不开启GTID,会自动维护匿名的GTID,也能实现GC,我们建议还是认为开启GTID
3\. 大事务拆成多个小事务,可以有效的减少主从延时.

6.3 从库

SQL线程导致的主从延时
在CR复制情况下: 从库默认情况下只有一个SQL,只能串行回放事务SQL,不管传的日志有多少，只能一次执行一个。
1\. 主库如果并发事务量较大,从库只能串行回放
2\. 主库发生了大事务,会阻塞后续的所有的事务的运行


解决方案:
1\. 5.6 版本开启GTID之后,加入了SQL多线程的特性,但是只能针对不同库(database)下的事务进行并发回放.
db01 [(none)]>show variables like '%workers%';
+------------------------+-------+
| Variable_name          | Value |
+------------------------+-------+
| slave_parallel_workers | 0     |
+------------------------+-------+

2\. 5.7 版本开始GTID之后,在SQL方面,提供了基于逻辑时钟(logical_clock),binlog加入了seq_no机制,
真正实现了基于事务级别的并发回放,这种技术我们把它称之为MTS(enhanced multi-threaded slave).
3\. 大事务拆成多个小事务,可以有效的减少主从延时.
[https://dev.mysql.com/worklog/task/?id=6314]

6.4 主从故障监控

(1) 有没有的问题?
Seconds_Behind_Master: 0

(2) 有没有主库原因?

Master_Log_File: mysql-bin.000003
Read_Master_Log_Pos: 154

| mysql-bin.000003 | 154

(3) 有没有及时回放

Master_Log_File: mysql-bin.000003
Read_Master_Log_Pos: 154

[root@db01 data]# cat relay-log.info
./db01-relay-bin.000009
367
mysql-bin.000003
154

7. 小结

1. 主从复制原理
2. 主从复制故障
3. 主从延时：group commit    MTS

最后编辑于：2022.01.07 14:45:07

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,189评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,577评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,857评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,703评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,705评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,620评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,995评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,656评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,898评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,639评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,720评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,395评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,982评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,953评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,195评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,907评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,472评论 2赞 342

MySQL-主从复制基础

0.企业高可用性标准 ***

0.1 全年无故障率(非计划内故障停机)

0.2 高可用架构方案

1. 主从复制简介 **

2. 主从复制前提(搭建主从的过程) ***

3. 主从复制搭建(Classic replication) ***

3.1 启动主库

3.2 准备从库

3.3 检查配置文件

3.4 主库中创建复制用户

3.6 备份主库并恢复到从库

3.7 告知从库关键复制信息

3.8 开启主从专用线程（IO、SQL线程）

3.9 检查复制状态

4. 主从复制的原理 (Classic Replication)*****

4.1 主从中设置到的文件和线程

4.1.1 线程

4.1.2 文件

4.2 主从复制原理

5. 主从故障监控\分析\处理 *****

5.1 线程相关监控

主库:

从库:

主库相关信息（master.info）

从库relay应用信息有关的（relay-log.info）

从库复制线程有关的状态

过滤复制有关的状态

从库延时主库的时间（秒）

延时从库有关的状态(人为)

GTID 复制有关的状态

5.2 主从复制故障分析

5.2.1 IO

5.2.1.1 连接主库错误(Connecting)

1）用户相关信息错误连接报错

用户相关信息错误解决方法

2）主库连接数上线,或者是主库太繁忙

5.2.1.2 请求二进制日志

情况

相关报错

解决方法

5.2.1.3 存储binlog到relaylog

5.2.2 SQL 线程故障

SQL线程功能：

导致SQL线程故障原因分析：

SQL线程问题（例）

处理方法(以主库为核心的处理方案)：

处理方法(以从库为核心的处理方案)：

主键冲突

一劳永逸的方法:

6. 主从延时监控及原因 *****

6.1 外在因素

6.2 主库

6.3 从库

6.4 主从故障监控

7. 小结

推荐阅读更多精彩内容