集群服务器主节点突然故障,无法强制关机
故障代码:
VLT0204 system board voltage is outside of range,即电压不稳定超出了正常范围
解决思路
1.重启节点,定位宕机时间,检查日志信息
重启需要先释放静电
(1)拔掉服务器的电源线
(2)长按开机键30S以上
*注:长按30s可能不够,就再多按几次,不然开机没一会儿可能又电压报警 *
第一次重启时,开机没20s又电压报警,没有启动成功,因此想连接一下显示器,服务器开机到哪一步出问题。结果就是多次开机都失败了。
注意到由于是显示器,事先插了电源线,再连接到服务器的VA接口,推测可能是静电没有放干净。于是先拔掉了显示器的电源,再释放静电后开机。这次成功开机。
接下来登陆后检查日志,日志介绍可以参考:
https://baijiahao.baidu.com/s?id=1613381635234443098&wfr=spider&for=pc
ll /var/log
# 系统日志目录
总用量 16M
drwxr-xr-x. 2 root root 232 4月 17 15:04 anaconda
drwx------. 2 root root 99 7月 21 09:01 audit
-rw-------. 1 root root 0 8月 17 11:06 boot.log
-rw-------. 1 root root 90K 8月 15 03:30 boot.log-20200815
-rw-------. 1 root root 26K 8月 17 11:06 boot.log-20200817
-rw-------. 1 root utmp 1.5K 8月 20 09:34 btmp
-rw-------. 1 root utmp 2.7K 7月 27 09:53 btmp-20200801
drwxr-xr-x. 2 996 993 6 8月 8 2019 chrony
-rw-------. 1 root root 93K 8月 21 09:01 cron
-rw-------. 1 root root 123K 8月 9 03:40 cron-20200809
-rw-------. 1 root root 120K 8月 16 03:20 cron-20200816
-rw-r--r--. 1 root root 91K 8月 17 10:57 dmesg
-rw-r--r--. 1 root root 90K 8月 14 17:43 dmesg.old
-rw-r-----. 1 root root 0 4月 17 15:18 firewalld
-rw-------. 1 root root 1.3K 4月 17 15:51 grubby
-rw-r--r--. 1 root root 193 4月 17 14:55 grubby_prune_debug
-rw-r--r--. 1 root root 292K 8月 21 09:01 lastlog
-rw-------. 1 root root 21K 8月 21 03:45 maillog
-rw-------. 1 root root 7.3K 8月 15 03:30 maillog-20200816
-rw-------. 1 root root 748K 8月 21 09:04 messages
-rw-------. 1 root root 725K 8月 16 03:20 messages-20200816
...
# 重点查看
cd /var/log/
less boot.log-20200817 #启动是否有异常
less dmesg #包含内核缓冲信息(kernel ring buffer)。在系统启动时,显示的许多与硬件有关的信息。
less messages #包括整体系统信息,其中也包含系统启动期间的日志。此外,mail,cron,daemon,kern和auth等内容也记录在var/log/messages日志中。
less secure #sshd有关信息记录,包括失败登录
less btmp #登陆失败的信息
lastlog #/var/log/lastlog记录所有用户的最近信息。非文本文件,可以使用lastlog进行查看。
less cron #cron计划任务的日志
2.sra查看宕机时间段的服务器运行情况
以上日志都在宕机时间段突然结束,并没有记录任何信息。因此使用sra检查服务器当时的负载情况
sra日志位于/var/log/sa目录下,指定记录故障时间段的日志信息文件,查看记录
sra -f [指定检查的文件]
也可以指定时间段
或者指定一次性输出全部信息
sra -A -f [指定检查的文件]
故障时间段,服务器负载处在极低水平,且系统未报警有关信息,推断可能是硬件问题导致,所以联系售后。
3.联系售后(需要服务码)
节点正面,硬盘那一侧(一般是右侧),有一个可抽拉的标签,有服务编号与代理服务码。这个服务编号可以在戴尔官网联系售后服务。
4.设置idrac网口ip,并下载硬件日志
工程师要求提供硬件日志。需要用网线连接idrac网口,我这边是R930位置在背面的右下角。
可以拿个笔记本 接到idrac网口 先看看日志
首先需要确认机器的idrac网口是否设置了静态IP
设置教程
可以进入bios或通过LCD小屏幕配置IDRAC的IP
我是通过通过LCD小屏幕,先View查看现在的IP设置,发现是0.0.0.0。
然后就进行SetUp进行有关设置(IP为192.168.0.120,子网掩码255.255.255.0,如果不成功就设置网关为192.168.0.1,默认应该是192.168.0.0)。
再回到View查看是否已经设置成功。连接网口以后,需要先设置网络的IP。
点开网络设置-> ipv4 -> 设置IP为192.168.0.121 (可以自行修改),子网掩码255.255.255.0打开浏览器后,连接:https://192.168.0.120,并登陆
默认:
ip:192.168.0.120
账号 密码 root calvin
登陆管理页面以后,可以查看各自硬件的信息。如果需要技术支持,需要导出有关的日志。参考:
https://www.dell.com/support/article/zh-cn/sln295784/%E9%80%9A%E8%BF%87-idrac7-%E5%92%8C-8-%E5%AF%BC%E5%87%BA-supportassist-%E6%94%B6%E9%9B%86%E5%92%8C-perc-%E6%97%A5%E5%BF%97?lang=zh
实际上我把日志导出交给售后,收到的回复和管理界面上写的警告信息一致,都是
CPU 1 VMSE PG voltage is outside of range。
售后认为,可能是cpu1 可能是主板 故障,可以把cpu1拿掉 把cpu2放在cpu1槽位上试试 看看情况。
5.维修拆机,并测试
由于过保,售后给了一个拆机视频的连接作为参考
https://v.qq.com/x/page/e0332ofwp9y.html
6.移除问题节点,并重新挂载硬盘机柜
目前的方案是,现将主节点的磁盘挂载解除,并移到其他节点作为临时主节点。
注意磁盘和机器的开关机顺序:
- 移除时要关机:先关节点,再关磁盘柜,磁盘柜的开关在屁股后面有个拨片。
- 挂载需要开机,应该先开磁盘柜,再开节点。
连接成功后,使用fdisk -l
查看目前的查看硬盘及分区信息,注意不要对已有的盘进行修改,以防数据丢失。
接下来,需要将该节点作为挂载的服务端,其他节点为客户端进行挂载。
注意:确定nfs服务启动,防火墙权限开放
参考:
https://qizhanming.com/blog/2018/08/08/how-to-install-nfs-on-centos-7