我认为,重要的是:提高你的故障检修技巧是长久之计,而不是得到后就可以忘记的结果。
故障检修技巧虽然主要是通过积累经验来提高,但实际上,也可以通过阅读(文章、博客和论坛等)、培训和其他的方式获得。
如果你缺乏使用Linux服务器的经验,这并不意味着在解决问题时你就就一定缺少经验,即使你具有丰富的技艺也可能只在特定的故障检修情形中看到其他人会忽视的方面。Nike有一句广告词,我很赞赏,这就是:Just do it! 就是说,不要让你的经验阻碍你获取更多的经验!
故障检修的步骤
这里列出的步骤,是用于解决所有问题的“基础”,是指导解决问题的基础。
故障检修的步骤有:识别问题、诊断故障、找出解决方案并实施、确认故障是否解决、记录解决方案。
识别问题:就是鉴别问题是属于硬件问题还是故障问题。
诊断故障:区分故障的症状和起因。确认系统故障是否由于底层的、基本的因素所致;确定这样的症状,是否有利于解决其起因。
找出解决方案并实施:毫无疑问,这个步骤通常是反复的,一次又一次的过程。
确认故障是否解决:上个步骤的解决方案一般需要在不同条件下测试多次。
记录解决方案:有时候,我经常成功的实践了一个很好的解决方案,但是忘记了这是在以后遇到同样的问题时更好解决问题的一个关键。这种情况下,就不得不重新学习这个方案,很明显,花费几分钟的时间记录在排除故障过程中的每一个解决方案很快就能使你获得巨大的意外收获。
总结
微软公司提出过一个故障检修方法论:谓之D.E.T.E.C.T。这是由一组微软微软技术支持工程师创立的方法,为我们提供了一个策略。实际上,这些步骤是放之四海皆准的,无论是交换机故障,还是Windows服务器故障,抑或是Linux服务器故障,都适用。
D.E.T.E.C.T是:
D Discover 发现问题
在用户层次上与用户交谈,试着了解他们使用的软件(如果可能的话,包括发布的版本)以及他们的硬件是否在硬件兼容性列表内。问题表现出的症状是什么。
E Explore 探索界限
是否能够鉴别自从上一次报告系统正常以来都发生了那些变化?能否鉴别问题发生时运行的是什么软件吗?
T Track 跟踪可能的方法
你可以从处理这些故障中学习并通过跟踪所采取的步骤,避免陈旧的、效率低下的尝试——错误的方法。
E Execute 实施方法
撇开管理问题,以便在第一个方案的尝试失败时不会受到其它部门的干扰。若方案A失败就应考虑方案B。不要忘记在执行解决问题的任务之前备份重要的系统和应用程序。
C Check 检验成功
T 总结
不管是什么样的故障排除方法,本质上所有的方法都是遵从一个基本的模式:
发送者——→接受者
输入——处理——输出模式
按照微软D.E.T.E.C.T方法论,进行故障查找明显的是成功解决系统问题的第一步。
故障检修的定义
方法论
相信很多网管员都会叹息过:如果能够恢复这一切就好了。
在很大程度中,故障检修是一种方法论。木工有一句话可以引用在这里:两次测量,一次切断。网管员在任何情况下都应三思而后行。
遵从故障排除的黄金规则可以减少你的痛苦:“一次只改变一个变量。”一次改变一个变量,然后进行成功或失败的测试,这样就能有效的证明我们排除故障工作工作的结果。这就是方法论的精髓。
我再次强调:在排除故障时,一次一个变量并进行测试。相信我!