[TOC]
服务器 Raid 第3章 故障处理
本次使用IBM x3650 M3的服务器作为实验服务器使用LSI芯片RIAD卡 支持Web BIOS
来自叽的提示,当服务器出现故障到到达现场后请:
==不要慌==!
==不要慌==!
==不要慌==!
毕竟都已经凉了慌了也没有用,越忙越容易出错。
这里推荐先检查服务器前信息板卡有无报错,在登陆服务器IPMI管理口查看服务器事件日志。
服务器事件日志在
Eventlog中查看
关于诊断面板(IBM 3650 M3)
主要涉及两个指示灯(当硬件故障时告警会有提示)
- DASD (其他服务器也有叫DEV或者HD的)
- Riad
DASD故障解释:
发生硬盘驱动器错误,这个需要检查是否有硬盘有故障指示灯亮起。
如硬盘故障灯亮起。 则需要更换硬盘
下图为硬盘凉了的告急,如果没做的Raid你就凉透了
显示器也会出现如下报错(那你系统是悲剧了)
故障处理
其实如果在部署的时候,配置了Riad 1、5、6、10可以直接将备件硬盘更换上即可。(这个时候raid卡会自动同步新盘的数据)
Raid是服务器数据的核心直接决定服务器业务的生死。(服务器部署一定要做Riad)
加电状态下更换(SAS完全没有问题 如果业务可以停 STAT盘其实最好关机更换强迫症)
有时会发现加入磁盘无法同步,进入WEBBIOS 选择后加入的硬盘,将其设置"Make Unconfi good"后,再设置成热备盘就可以自动同步了。
RaiD故障解释:
Raid 控制器故障。若无法进入控制器建议重新更换控制器。
故障处理
把Raid卡换了就可以了。更换后需要重新导入阵列信息。
关于服务器硬盘的位置改变的问题
==关机的情况下==将磁盘拔出,调换顺序,对阵列本身无任何影响。
但阵列卡设置中,会发现磁盘顺序变更。
这里的调换 包括硬盘的排列顺序和硬盘的位置。
这里虽然进入了系统 服务器 DASD在报错
这里还是建议记录一个每个硬盘的位置啦特别是第一块硬盘。
服务器硬盘迁移至备用服务器
这里是确认了服务器硬盘没有损坏,数据完整情况下。
如服务器出现:
- 服务器主板损坏,急需拷贝数据,恢复至其他服务器进行临时使用。
阵列卡(同型号和不同型号)
将故障服务器关机,拆下硬盘,放入备用服务器开机后需要先进入WeBBIOS,进入后阵列卡会提示有新的阵列信息,是否需要导入(选择Preview导入)。
注意 选择导入配置的时候 部分阵列信息和所有阵列信息
读取到阵列配置以后直接将硬盘阵列导入阵列卡即可恢复系统(选择improt )
关于Miss解释
当硬盘被意外拔出后会出现此状态
关于unconfigured bad 处理
进入此状态硬盘,重新标记为Make Unconfi good 若还是此状态那你的盘就凉凉了
关于Rebuild
无法自动同步的情况下,需要重新启动服务器进入WebBioss使用手动重构的方式。(一般把盘激活后设置为HSP)
重构时候,可以点击进入查看进度。(此时可以重启服务器进入系统。无需在此界面等待)
-
不同型号阵列卡
进入系统时如果系统没有Raid 卡驱动,存在服务器无法进入系统情况,但阵列恢复后可以使用PE进行数据的拷贝。