扫一扫
关注微信公众号

IT运维管理系统规划
2010-04-22   网络

托电信息化发展历经八年,从只有一个OA办公系统、数十台终端到如今拥有包括小型机在内的服务器五十余台、交换机等网络设备百余台、终端上千台。信息化工作的重点已经从信息系统建设向运维管理和系统应用的深度整合等转移。
目前,信息中心每天的工作量,多数都属于运维管理的范畴。信息中心从机组四期工程结束后就着手开始运维管理方面的建设工作,几年间相继上了蓝带思科桌面管理系统、东华的IT运维系统、青鸟桌面管理系统。但运维工作整体并不尽如人意,原因是多方面的,个人认为主要有以下几点:
1.运维管理的理念需要逐步成熟的过程。
2.受到与运维相关的信息技术发展制约。
3.现有运维相关的产品有各自的侧重或局限性。
信息中心正在实施的两个项目NETIQ和机房环境监测系统为我们提供了一个契机,我们可以建设一个真正适合自己的网络运维管理系统,这个时机已经基本成熟。
一、运维管理系统建设的可行性
信息中心运维工作主要来自网络设备、系统应用、机房设备、终端。NETIQ服务器监控系统可以对服务器、数据库进行集中监控管理。机房环境监测系统可以对机房温湿度、空调、UPS等指标进行集中监控管理。终端管理方面,可以考虑购置更好的产品加上二次开发或者在现有桌面管理系统的基础上进行二次开发。相对于以上,网络设备的管理使用SNMP基本可以满足运维需求,NETIQ可以实现,也可以在运维管理中心开发相应的管理模块。这些系统的建设,本身就是具有针对性的综合管理系统,而且可以为运维管理中心系统提供运维信息的采集平台,是运维管理系统建设的基础。
二、运维管理系统的构想
运维管理系统由运维管理系统群和运维管理中心两部分组成。运维管理系统群包括网络设备管理模块、NETIQ系统、机房环境监测系统、终端管理系统,运维系统群为运维管理中心提供运维信息采集平台。运维信息采集包括网络设备运维信息采集、服务器组运维信息采集、机房环境运维信息采集、终端运维信息采集。
运维管理中心主要包括以下几个部分:运维任务的生成、运维任务的处理、完成确认、知识库、运维统计分析、运维报告、绩效评价、违规处理、维护商管理、应急预案管理、系统权限等。

生成运维任务
运维任务的生成有两个途径,一个是从信息采集获得,另外可以手动生成。运维任务分为运行管理任务和维护管理任务两类,运行任务管理是指系统、设备在正常运行状态下的监控管理或操作,主要包括定期巡检任务、正常的配置操作、补丁管理、用户管理、升级操作等,巡检任务由系统按规定自动生成,包括信息中心人员的日常巡检和维护商的定期巡检。维护管理任务是指当设备、系统出现异常或故障时的处理过程。运维任务的生成包括的信息有:设备或系统名称、IP地址、报警信息、时间、运维编码等等,由终端直接发起的运维信息应该包含联系人的姓名、电话等,以便于运维人员接手任务后与发起人主动取得联系。生成的运维任务包括网络设备、应用系统、机房操作、终端运维等几种任务。运行管理和维护管理并没有严格的界限,往往是你中有我我中有你。
㈡运维任务的处理
运维任务生成后,由管理人员按照各自的职责分工,领取相应的运维任务进行处理,运维任务处理过程及信息分类:

运维类别

网络设备包括:交换机、路由器、防火墙、VPN设备、行为管理设备、其他

应用系统包括:操作系统、应用服务、数据库、接口、其他

机房运维包括服务器、网络设备、空调系统、供电系统、消防系统、环境监控系统

终端运维包括:终端、外设

运维内容

网络设备包括配置操作:增加 、更改、删除,其他操作:版本升级、设备更换、其他

应用系统包括:配置变更、软件安装、升级、用户管理、数据管理、日志管理、补丁管理、策略管理、其他

机房运维包括具体的设备信息

终端运维包括:电脑硬件、操作系统、应用程序、打印机、其他

处理过程

处理结果

原因分析

影响情况

对用户的影响情况(时间范围)

运维任务在处理过程中包含以下几个状态,分别是:
等待处理: 等待运维人员接手
执行状态:运维人员正在处理任务
挂起状态:运维过程中出现其他急需办理的事物或其他原因暂停执行
提交状态:任务处理完毕,等待完成确认
完成状态:一个任务完全结束后的状态
驳回状态:任务处理过程中信息有待补充等原因被驳回。
当任务处理人员发现需要维护商来处理的时候,将任务转给维护商,由维护商接手任务,相关人员配合共同完成运维任务并填写相应的记录,最后由运维人员给予维护商相应的评价。
㈢运维任务的完成确认
对已经完成并提交的运维任务进行确认、评价,对于运维内容是否放入知识库给予确认,对于运维过程中存在的违规情况根据相关规定给予处罚确定等。
㈣运维统计分析
当某些问题经常出现的时候,信息中心必须运用统计分析对设备、系统产生的问题或故障协同相关维护商,进行深入分析,找出原因,解决问题。另外运用统计分析可以为今后的运维工作提供指导方向,制定下一步运维计划。
㈤运维报告
通过运维管理中心,对运维数据有选择的筛选、汇总,定期生成信息系统运维报告,以便于工作总结、分析、计划。运维报告应具有针对性,例如呈送公司领导的、呈送各部门的以及信息中心的整体报告。
㈥知识库
知识库的信息积累来自于运维管理系统和平时的手工录入,应做好信息的分类、查询功能。当运维任务生成后,系统会把相关的信息在知识库中进行检索,并把结果显示在任务中,供运维人员参考。
㈦绩效评价
运维系统内的各方包括终端用户、维护商、运维人员都是可以评价的对象。终端用户可以给打印机维护商评价;也可以给信息中心运维人员给予评价;维护商可以给维护人员评价;运维人员可以给维护商的工作给予评价;运维人员可以对终端用户使用计算机的情况给予评价。
㈧违规处理
对于运维过程中发现违反信息系统相关制度的行为应予以必要的处理。需要做两方面工作:涉及这个内容的制度条款应该拿到系统中来,处理的方式方法有待确定;对于违规行为,在运维处理过程中应该做相应的证据记录。
㈨维护商的管理
对维护商的信息集中管理,运维工作予以记录、评价,运维合同的到期提醒等,如何对维护商产生实际的约束力,发挥其在运维工作中应有的作用,是我们需要考虑的问题。

(十)应急预案管理

当设备或系统的故障达到规定程度时,启动应急预案,并对整个处理过程实现系统化管理,以及预案的演练等其他工作进行记录。
三、终端管理系统
目前通行的终端管理系统所包含的功能主要有:硬件信息的提取(CPU、内存、硬盘等)、操作系统基本信息(操作系统版本、安装的应用程序等)、软件分发、补丁管理、外设管理、远程管理、主机防护等。有的产品还具有接入认证、内外网隔离、硬盘加密、网络行为管理等功能。360安全套件在终端健康状况、插件管理、实时防护、木马查杀、垃圾清理等方面做的比较好。瑞星网络版则是着重防病毒。将这些软件的功能加以综合利用,建设终端管理系统(组),为运维管理中心提供数据。
厂区终端使用最多的是OFFICE办公软件和浏览器,出现问题最多的是浏览器,所以应当把对浏览器的运维作为终端运维的重点之一。此外终端管理系统收集的终端硬件信息可以与信息中心现有的资产管理系统建立联系,可以实现较为准确的资产定位,协同各部门信息员及时掌握资产的变动情况。
客户端的二次开发要求:客户端既属于终端管理系统,又可以和运维管理中心通信,同时可以对于我们所需的现有产品没有涉及到的进程或指标进行监测。
1、实时交互性
当运维人员需要远程维护时与终端用户进行询问、控制申请等信息交互,当运维任务结束后,终端用户可以给维护人员以相应的评价。运维管理中心收集到的终端健康情况也可以发送到目的终端,给使用者以相关的提醒。
2、人性化
终端使用人提交运维申请后,可以看到运维管理中心当前的运维状况,谁接手了自己提交的申请,自己排在第几位等信息。客户端运行应尽量避免对终端用户的正常工作形成干扰,如果能做到让使用者感觉舒服又实用那是最好了。
3、资源占用率
客户端运行时,进程的大小,CPU占用率可以参考较为成熟的软件如360及瑞星运行时的情况。
4、定制化安装
对于信息中心维护范围内和维护范围外的终端,应该采取不同的安装策略。比如对维护范围外采用接入认证、监控健康状态、信息提醒等,但不启用维护功能。用户在安装客户端时,填写相应的信息以便系统管理。
四、运维系统建设工作重点
1.运维管理中心的开发
2.终端管理系统的建设
3.NETIQ系统所涉及监测指标的调整,与运维管理中心的接口准备
4.机房环境监测系统所涉及监测指标的调整,与运维管理中心的接口准备
5.对于特定应用系统的运行监测,NETIQ能否开发出对应的监测服务模块,或者应用系统的商可以开发出对自身运行状况的监测功能。
6. 与运维工作相关制度的完善、建立。
五、总结
综上所述,运维管理系统由多个子系统组成,我们应该看到它的复杂性。如何让整个系统协调运作,如何挖掘、调整、发挥运维系统的功能,提高运维工作效率,不是一朝一夕的事情。运维管理系统体现的是管理理念,相关制度的落实是整个运维工作好坏的关键,也是运维管理系统成功的关键。

热词搜索:

上一篇:电子运维管理系统的规划和演进
下一篇:企业信息化建设、IT规划风险探讨

分享到: 收藏