扫一扫
关注微信公众号

零故障做得到吗?
2008-12-11   摩卡软件

概述
企业IT系统越来越多,网络、设备和产品越来越复杂,业务越来越依赖于稳定可靠的系统运行,公司内部和外部用户对IT部门的支持服务和协调管理也提出了更高的要求,如果企业的运行设备出现了故障,往往会给企业带来巨大的损失。此时,往往企业会要求运维部门力保设备的运行正常,同样运维部门也会提出相关的口号,例如,连续100天运维无故障。也就是我们常说的零故障。
 
IT部门如果缺乏快速有效的协调机制和必要的辅助管理工具,就会出现救火队式的混乱局面,其主要表现如下:
被动响应式的工作方式。
很难及时发现和预见问题的发生。
问题出现后,很难快速、准确地找到根本原因,并及时地找到相应的人进行修复和处理。
问题找到后,缺乏流程化的故障处理机制。
支持过程总是被打断和干扰。
关键人员的工作负载过重。
缺乏过程和变化的跟踪记录。
IT支持部门面临不断改进服务和降低成本的压力。
服务请求的响应时间和质量无法衡量。
决策基于我认为而不是我知道
结果造成IT部门整天疲于奔命,无法满足服务时效性和稳定性的需求。这种工作模式下的IT资源管理,不仅IT部门吃力不讨好,而且也无法发挥IT系统的整体性能和功能,同样也无法达到企业提出的零故障的要求。
什么是零故障
对故障我们已作定义就是设备失去了规定的功能,再从故障的字面看,它是由人意而引起的碍,即故障的根源在人,它是由於人的思维方法和行动上的错误而引起的,也就是说人们的认识及其相应的行为的结果以故障的形式表现出来。因此只要改变与设备相关的所有人的认识,增加相应的知识,提高其技能,改进其方法和行动,故障就会消失。
  有人可能要问,按照零故障观点,设备岂不可以永久地使用下去了吗,这里我们要区分两个不同的概念就是自然老化和强制恶化。所谓自然老化就是虽然使用方法正确,但随着时间的推移,设备发生了性能逐渐下降。而所谓的强制恶化是指未按应有的方法作业,人为地促使了恶化。因此零故障观点的意义在於指导我们正确认识故障,做该做的事以避免强制恶化,延缓自然老化。
       为了实际推进这项工作,我们针对可能产生故障的原因,导出实现零故障的四大对策:
    1、具备基本条件 
  所谓具备基本条件,就是指CPU、内存、硬盘等硬件设备。故障是由设备的劣化引起的,但大多数故障是由於基本条件3要素引起的。
    2、严守使用条件 
  机器设备在设计时就确定了使用条件。严格按照使用条件使用,设备就很少产生故障。比如电压、转速、温度及安装条件等,都是根据设备的特点而决定的。
    3、使设备恢复正常 
  一台设备,即使具备了基本条件,保证使用条件,由於很难做到十全十美,因此设备还是会发生劣化,产生故障。所以使隐含的劣化明显化并使之恢复到正常状态。这意味着我们应经常地对设备进行正确的检查和预防。
   4、提高人的素质 
  所有的处理都要由人来实施,在实现零故障的过程中人是最根本的。首先,每个人都要有认真的态度,兢业的精神,其次,对故障有一个正确的认识,最後就是要提高操作和维修人员的专业技能。 
总的来说,我们在日常工作中要做好以上这几方面的工作:就可以防止故障的出现。当然这种故障也只是无限的接近零故障,或者是在某一段时间内实现了零故障。
 
摩卡业务服务管理的故障预处理
对于实现企业的零故障,摩卡软件的摩卡业务服务管理(Mocha Business Service Management,简称Mocha BSM),在这方面有着超过十年的经验积累,所以可以更多的从客户方面去考虑,通过基础模块的监控,周期性的反映出了设备的CPU、内存、硬盘等设备的运行情况,同时具有配置变更管理功能,当硬件设备松动或出现变化时,可以及时产生报警,保证了基本条件的正常运做。
 
通过机房的监控,可以实时的看到设备环境的温度、湿度、烟感度等使用条件,可以帮助管理人员提供预防因环境的原因而造成设备出现故障。
同时也根据对相关设备的监控信息的设置,可以提供相关设备的定位,可以提前报警,系统还可以定制定时任务提醒管理人员定期定时对设备进行检查,帮管理人员实现防患于未然,真正的接近零故障。

热词搜索:

上一篇:关注网卡工作状态 让网络故障降到最低限度
下一篇:网络流量分析——企业网络的守护者

分享到: 收藏