记得一个月前的普通的中午,我正在享受午餐的时候,一个电话打来,说xx系统和集团公司断连了,我内心纠结了一下,扔下手中的刀叉,赶到了qjl四楼。
我到的时候,yj已经在现场了,还有一个工程师,大伙都在紧锣密鼓的抢修故障。
这个时候,我脑子里蹦出一个思路:
1、硬件小组在哪里?it人员在哪里?还得派it人员到机房现场看下有无硬件损坏,比如硬盘,电源,风扇等。
2、ip小组在哪里?得有人看下网络路由通不通,哪一个地方通道不通?
3、bell厂家在哪里?在现场了,有没有联系远程的后台backup,本地能否启下process或者初步分析下原因。
想到这,我逐一拨通了it,ip人员电话,大家响应很及时,一个往机房赶去,一个来我这里。
时间一分一秒的过去,故障有时处理好,过一会又说还不行,真让人着急。15分钟就这么过去了,时间仿佛静止了一般。
这时候,ip天才sq出现了,他风急火燎得打开电脑,娴熟的用crt连接上设备,ping发现xx路段不通,立刻告知我们,我们纳闷,这是什么情况,不是说yy的吗?
同时,it男也赶到了机房,他迅速检查了现场硬件,并没有发现任何问题,一切正常。
怎么办?我们请示领导,能否切换到备用平面,领导同意,ip天才立马启动了备用平面切换,业务恢复了!
有惊无险,故障在一个小时内解决了,如果超出两个小时,后果不堪设想。那么,到底是什么原因导致本次故障的呢?
过了一天,大伙就埋头分析原因,撰写报告了,整个报告的编写花费了五天时间,可是我们天才的同事们怎么想,怎么说,都无法解释当时出现的现象,报告写到一半就戛然而止,我们也只能给上级领导提交阶段性总结报告。
可是我们不甘心,我们一定要查的水落石出,昨天晚上,我们的天才们在深夜再一次模拟了当天的故障情况,在检查路由的时候,终于发现防火墙在NAT转换的时候,出现了不该有的错误,经过现场数据修改,路由通了,故障原因也终于查明,好样的。
从这起故障中,我看到了大伙不屈不挠的精神,打破砂锅问到底的韧性,正因为有了他们的天赋和勤奋,yd的网络才能继续提升,为客户提供更加优质的服务,谢谢你们!