从事IT技术的同学,排障如家常便饭,是我们必须掌握的技能,然而在很多时候,我们的排障效率并不高,从而影响了业务恢复时间。那么,我们如何才能提升排障效率,成为troubleshooting的高手呢?
先判断大概方向,再做细致分析定位。故障排查都是有时限要求的,为了尽快定位问题原因,我们要根据已知故障现象,先做初步判断,定个大概方向出来,然后再做细致分析定位。
收集故障信息要有针对性。收集故障信息,也是要花费时间的,尤其是在业务未恢复的情况下,时间显得尤为珍贵,我们不能漫无目的的收集信息,而是每收集一个信息,都要有足够的针对性,都是经过仔细思考的,都是要佐证你的判断的,要极力避免在没必要的信息上浪费宝贵的时间。
故障信息充分共享。如果故障涉及多方定位,要充分共享各方收集到的故障信息,互相佐证,能够更快定位问题。
要对1%的可能性心存敬畏。排障就像侦探断案一样,无论我们水平有多高、经验有多丰富,要时刻记住我们的认知可能会存在盲区,因此不能放过任何蛛丝马迹。在时间不紧迫的情况下,要收集一份全量日志,抓包也要抓一份全量报文,以防我们判断错误或认知有盲区,从而错过问题的真正原因。
善用对比法。当问题排查没有实质性进展时,对比法不失为一个很好的排障方法,很多时候将两个类似的个体进行对比,很容易发现端倪,找到差异,从而定位问题原因。
善用逻辑推理。即便我们对某个知识领域不是很熟悉,也可以根据已知,进行逻辑推理,从而判断真伪。
勤实战、勤思考。只有真正分析问题、解决问题的人,排障能力才会得到不断的提升,指着听别人分享故障案例来提升排障能力的想法是不现实的,效果会很有限,即便你听懂了,下次出现同样的问题,你可能还是解决不了,因为你没有经历分析问题的过程。
做好以上几点,你也可以成为排障的高手。