问题现象
ceph集群对应虚拟机读写IO不正常,查看ceph集群osd都正常,查看osd读写性能的时候中有块硬盘读写时延有抖动,导致ceph集群健康检查有问题
临时修复
ceph osd reweight 43 0
同时ceph -s
查看,直至集群健康
注意:会导致数据同步
制定硬盘更换方案
参考信息,大致有三种更换方法,目前是只能按照第二种方法更换,由于硬盘为JBOD模式,所以直接热插拔
定位故障硬盘
lsblk查看
查看硬盘sn号
再BMC系统中将硬盘点亮
执行换盘操作
#设置禁止集群回填等操作标记
for i in noout nobackfill norecover noscrub nodeep-scrub;do ceph osd set $i;done
#停掉OSD服务
systemctl stop ceph-osd@43
umount /var/lib/ceph/osd/ceph-43
#将删除的OSD从crush map中删除
ceph osd out 43
ceph osd crush remove osd.43
#清除到OSD的认证密钥
ceph auth del osd.43
#在osd map中清除osd
ceph osd rm 43
#拔出旧硬盘,更换新硬盘,添加新osd
ceph-volume lvm create --data /dev/sdn
#重新开启集群禁用标志
for i in noout nobackfill norecover noscrub nodeep-scrub;do ceph osd unset $i;done
注意:增加osd会导致数据同步