哨兵
哨兵是个基于redis HA解决方案,他支持redis 自身的主从角色替换,所以严格来说他其实只是个redis的主从监控服务,当主从角色关系发生变化后,由于IP 发生变化,仍然需要手动干预,当然同样可以通过脚本解决。
基本主从复制
redis 的主从复制主要有以下几点:
- redis从在服务起来后,像主redis 发送sync包,通知redis 主服务我是你的从之一(redis支持一主多从),主库收到sync 后本地执行bgsave(在save的过程中,如果有新的写入,会保存在缓存中),本地bgsave 好会进行传输,传输到从库后从库进行载入,载入完成后主库继续发送之前缓存的新写入的数据。至此初始化完成,之后的同步是当主库每写入一个数据,就在从库上写一条数据,此为增量同步。
- redis 主从配置主要在从库上进行配置:
slaveof 10.1.1.1 7001 #指定主redis的ip以及端口
slave-serve-stale-data no # 当redis 从和主断开连接或者正在同步数据的时候,该选项为no的时候会提示无法写入,一般建议关闭,
slave-read-only yes #redis 从只读
- 主从redis 均打开,根据info 看下主从进程:
主:
Replication
role:master
connected_slaves:0
master_repl_offset:940
repl_backlog_active:0
repl_backlog_size:1048576
repl_backlog_first_byte_offset:0
repl_backlog_histlen:0
从:
Replication
role:slave
master_host:10.1.99.163
master_port:7011
master_link_status:up
master_last_io_seconds_ago:3
master_sync_in_progress:0
slave_repl_offset:941
slave_priority:10
slave_read_only:1
connected_slaves:0
master_repl_offset:0
repl_backlog_active:0
repl_backlog_size:1048576
repl_backlog_first_byte_offset:101
repl_backlog_histlen:1036
此时说明主从已经完成,可以通过set 插入数据进行检查。
- 当主挂了以后,redis 可以进行手动主从切换,在redis 从上输入slaveof NO ONE 后,取消redis 从的主从指向,此时从redis 可写可读,然后将从redis的rdb文件替换主的rdb文件,启动主redis即可,如果需要自动切换的话,就可以用到之前说的哨兵了。
配置哨兵
- sentinel.conf 配置: #劲量保持有2个sentinel 节点,由于redis 哨兵一直不是稳定版本,单个sentinel 有时候会存在主宕了以后无法检测到。sentinel 可以部署在任意从或者主上。
port 26379
dir "/usr/local/redis-sentine"#工作路径,注意路径不要和主重复
daemonize yes# 守护进程模式
protected-mode no #关闭保护模式
logfile "./sentinel.log"
sentinel monitor mymaster 10.1.99.163 7011 1 #哨兵监控的master,主从配置一样,这里只用输入redis主节点的ip/port和法定人数。
sentinel down-after-milliseconds mymaster 15 # master或slave多长时间(默认30秒)不能使用后标记为s_down状态。
sentinel failover-timeout mymaster 18000 #若sentinel在该配置值内未能完成failover操作(即故障时master/slave自动切换),则认为本次failover失败。
sentinel auth-pass mymaster 123456
sentinel parallel-syncs mymaster 1 #指定了在执行故障转移时, 最多可以有多少个从服务器同时对新的主服务器进行同步
启动sentinel:
root@:src# ./redis-sentinel ../sentinel.conf &
注意此时的从redis 配置上有slaveof 10.1.99.163 7011 这一行,sentinel 上也有sentinel monitor mymaster 10.1.99.163 7011 1 这一行。
测试,kill 掉主redis 的进程,然后等待15s。哨兵会重新推选出新的master:
4973:X 03 Mar 02:10:26.397 # +odown master mymaster 10.1.99.163 7011 #quorum 1/1
4973:X 03 Mar 02:10:26.398 # +new-epoch 1
4973:X 03 Mar 02:10:26.398 # +try-failover master mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:26.421 # +vote-for-leader b1e8393b52407207cd8c228bef46638d31bb3448 1
4973:X 03 Mar 02:10:26.421 # +elected-leader master mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:26.422 # +failover-state-select-slave master mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:26.474 # +selected-slave slave 10.1.99.164:7012 10.1.99.164 7012 @ mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:26.475 * +failover-state-send-slaveof-noone slave 10.1.99.164:7012 10.1.99.164 7012 @ mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:26.534 * +failover-state-wait-promotion slave 10.1.99.164:7012 10.1.99.164 7012 @ mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:27.449 # +promoted-slave slave 10.1.99.164:7012 10.1.99.164 7012 @ mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:27.450 # +failover-state-reconf-slaves master mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:27.495 # +failover-end master mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:27.495 # +switch-master mymaster 10.1.99.163 7011 10.1.99.164 7012
4973:X 03 Mar 02:10:27.497 * +slave slave 10.1.99.163:7011 10.1.99.163 7011 @ mymaster 10.1.99.164 7012
登录原从查看:
#Replication
role:master
connected_slaves:0
master_repl_offset:0
repl_backlog_active:0
repl_backlog_size:1048576
repl_backlog_first_byte_offset:0
repl_backlog_histlen:0
#CPU
used_cpu_sys:0.56
used_cpu_user:0.20
used_cpu_sys_children:0.00
used_cpu_user_children:0.00
#Cluster
cluster_enabled:0
# Keyspace
10.1.99.164:7012> set barney 123
OK
10.1.99.164:7012>
原从变为主了,且可写了。之后查看从的配置文件,发现之前的slaveof 配置没有了,再看所有哨兵的配置,sentinel monitor mymaster 10.1.99.164 7012 1 自己变为了从库的信息。
然后重启原master,发现info 变为slave 了,可以再手动切换回来。切换后等一会就看到sentinel 的配置会在再次发生改变。
主从切换
一般都是在服务的代码里会做一个对redis 状态的检测,如果timeout 则尝试连接从,除此之外可以用sentinel.conf 里的 sentinel notification-script <master-name> <script-path>配置,当主从角色替换的时候会触发这个脚本的通知,告知项目或者运维人员主从的问题。说到底,redis 哨兵机制只是一个监控项目,比较适合于不需要集群规模的小规模计算。