扫一扫
关注微信公众号

基于ITIL的IT运维服务管理的实施
2010-04-20   网络

一、引言

  随着信息化应用水平的提高,公安交通管理业务对信息系统的依赖越来越大。如今,大部分城市从机动车、驾驶入管理、交通违法业务办理、交通事故处理等面向公众的业务,到公文流转、工资管理、财务管理、协同工作等内部办公,各个业务环节都已经采用信息系统协作办公。随着信息化程度不断提高,计算机设备的数量越来越多、信息系统的规模越来越大、各系统之间关联越来复杂,计算机信息系统发生故障所带来的负面影响也越来越大。在难以通过不断增加专业人员来维护和管理日益庞大的计算机系统的情况下,广州交警支队2001年开始尝试计算机系统维护服务外包,但由于运维管理基础薄弱、没有维护服务外包管理经验等原因,其效果不佳。因此,研究如何进行计算机系统运行维护管理和维护服务外包管理,有效提高故障处理速度,减少系统故障带来的负面影响,使庞大的计算机系统在可监、可控、可管的状态下运行,已经成为我们科技主管部门当前的重要任务。

二、信息技术基础架构库(ITIL)简介

  20世纪80年代,英国政府为了提升信息化设备和系统的运行效率,保障信息系统建康运行,有效进行服务外包管理,指定了当时的英国政府计算机与通信局,研究开发一种方法。用于指导全国政府部门如何高效、经济地运营信息化设备和系统,结果产生了信息技术基础架构库(Information Technology Infrastructure Library—FILL),它收集了IT服务业内的最佳实践。ITIL不是一套标准,而是供组织内部进行IT服务管理的参考经验,是指导如何在运维管理中定义人员、流程、服务活动及其之间关系的指导框架。2003年开始,国内一些IT服务企业开始宣传ITIL服务管理理念。

  ITIL的框架包括业务管理、服务管理、IT基础架构管理、安全管理、应用管理等,最核心的是服务管理中的服务支持和服务提供,如图1所示。IT服务供应商可能更多关注服务提供,而作为客户的IT主管部门可能更关心服务支持。

  服务支持主要包括:服务台、故障管理、问题管理、配置管理、变更管理和发布管理等六个模块。

  (一)服务台。服务台是信息系统最终用户与科技主管部门的联络点和报障台,也是科技主管部门掌握系统运行情况,指挥技术人员进行故障处理等维护工作的平台。服务台的主要任务是登记报障记录、指挥维护人员执行维护流程、监督维护过程,以及综合协调解决维护出现的各种突发问题。

  (二)故障管理。故障管理的主要任务是解决设备或者系统故障,并尽快恢复使之正常运行。

  (三)问题管理。故障管理区别于问题管理,故障管理是要尽快恢复系统使之正常提供服务,而问题管理是要主动预防故障的发生,也就是人们常说的预防性维护。实际上,可以通过两种途径启动问题管理流程,一种是通过故障统计分析,发现常见故障,然后归结为“问题”,启动问题管理流程,另一种是通过建立系统巡检制度,主动发现“问题”,在尚未形成“故障”时解决“问题”。

  (四)配置管理。配置管理主要是收集和存储单位内部的所有软、硬件设备的各种信息,供其它流程使用。这些配置管理信息包括设备编码、类别、品牌、型号、配置、单位、放置位置、使用人、管理人、联系电话、供应商、保修期限、供应商维修电话等等。这些信息存放到配置管理数据库(Configure Management Data Base·CMDB)

  (五)变更管理。如果要对单位内部的设备、系统进行增、删、改等时,需要进行审批和控制,这就是变更管理。通过变更管理,能够对变更进行影响评估,确保变更对正在运行的系统产生最小的负面影响,同时通过变更审批流程进行沟通和协调,确保有关人员都知道这个变更以及所带来的影响,保证变更具有可追溯性。变更管理与配置管理、问题管理密切关联,应互相协调。

  (六)发布管理。发布管理的主要任务是确保首次进入一个单位的软、硬件设备运用到本单位的系统中获得成功。最简单的例子,就是我们从网上下载了Windows XP的SP2补丁程序后,首先要在各个业务系统用的电脑上进行测试,观察打了补丁后的业务用电脑有无出现异常。或者,新采购的打印机,要用于车管业务系统,首先要测试它能够打印成功。其实,发布管理与配置管理、变更管理联系更密切,变更的实施,很多时候是通过发布管理活动进行的。

三、广州交警IT运维服务管理实践

  通过对以上六个ITIL服务支持模块的理解,我们认为六个模块中配置管理是基础,其次是服务台、故障管理、变更管理,最后是问题管理和发布管理。结合广州交警IT运维服务的实际情况,我们提出了广州交警IT运维服务管理的构思。

  (一)建立配置管理数据库。配置管理数据库(CMDB)是关于所有信息设备和软件的信息,它是我们进行运维管理的基础。建立CMDB,首先要进行设备、系统的普查、建档、标签化,然后整理入库,最后还要调整流程,使各个环节工作能够及时更新CMDB。

  (二)研究制定六个模块的管理流程,特别是理清这六个模式之间的关联关系。深刻理解这六个模块的含义和流程,以及如何将这些流程切实落实到我们的管理工作,是十分关键的,否则制定流程将会成为摆设,实施不了或者坚持不下去。

  (三)研究制定多张控制表单,用于控制、监督流程的严格执行,同时用于规范维护人员行为,这是十分重要的工作。控制表单应该具有简洁、可行,布局合理、信息齐全等特点。制定控制表单体系,应充分体现流程之间的关联性。

  (四)首先采用手工方式,执行这些流程和反映流程的表单,发现问题不断完善,不断改进这些流程和表单。经过手工阶段,验证了表单的实用性。然后研究开发运维管理系统软件,作为管理工具之一,进一步规范最终用户的报障、评价等行为,便于通过管理系统(网站)监督每一宗故障处理的环节、所花时间,便于科技主管部门处理各下属单位的投诉(有日志可追溯),判断过错责任,也可避免一些无理投诉,使科技主管部门有效地抓住了工作主动权。

  运维管理最重要是落实。实践中,我们制定了许多措施,在实际操作中起到十分重要的作用。

  (一)对服务外包公司建立服务评价方法。在发布招标文件、签定合同书阶段就明确提出服务评价方法,并且启用了经济杠杆,考核评价得分与合同支付(经济利益)挂钩,加强了科技主管部门对于服务提供商的监督、管理和控制力度,使服务提供商更加积极、主动采取有效措施提高服务水平和故障处理效率。

  (二)建立有效监督机制,保证维护工作不出现漏洞。在分析运维管理的各个环节时,还要对照管理环的各个环节检查是否存在管理漏洞。在项目管理或者服务管理中,都有计划(启动)、执行、监督(控制、反馈)、关闭(总结、提升)四个环节。他们之间的关系如图2所示。其中,监督、控制、反馈是不可缺少的环节,维护服务的执行需要考核、监督才能更加有效,也需要通过控制才能决定其能够进入关闭状态(即服务项目的验收),通过反馈重新制定计划或者修订计划,再改变计划来影响执行效果。

  (三)建立了系统巡检体系,主动预防、及早发现系统存在的隐患,并启用问题管理流程消除之。问题管理流程的启动条件,除了定期不定期进行故障统计分析外,还有主动出击,主动通过系统巡检发现系统隐患,然后通过问题管理跟踪表,启动问题管理流程,以及后续的变更管理等,首先由维护人员甚至服务提供商、设备原厂商的二线、三线人员提出建议方案,然后进入变更评估和审批环节,方案批准后执行,并启动配置管理,更新配置管理数据库,最后由用户考核、评价,执行监督环节后同意关闭。

  四、结束语

  实施运维服务管理,提高了设备和系统维护效率和平均无故障时间,大大解放了技术力量、落实了维护责任和安全责任,提升了科技部门的服务能力和服务水平。同时,科技部门能够主动、全面地掌握所有设备的分布、运行状况,有利于科学决策。

  持续地提升服务管理水平,不断提高各业务部门对科技部门工作的满意度,是实施运维管理的重要目标。我们除了进一步完善运维管理体系外,还要不断研究服务管理的规律,更加系统性地提高服务管理水平。

热词搜索:

上一篇:电子政务网络运维实施之道
下一篇:ITIL3.0时代的IT运维管理逐渐升温

分享到: 收藏