扫一扫
关注微信公众号

网络故障管理探析
2010-06-01   网络

随着信息检索、数据交换、多媒体信息传输等各种各样日益增长的网络应用,网络管理越发显得重要。如何提高网络的效率、安全性和稳定性,如何应对各类突发的网络通信事件,如何及时有效处理网络故障,如何有效地制定好网络发展规划?……诸多问题已成为困扰网络管理的一大难题。

网络规模越大,网络结构越复杂,网络故障的预测、分析和处理越是必不可缺的。有效的网络故障管理已成为企业级网络运维中一项关键性的工作。下面结合本人在网络故障管理工作中的经验,进行一些探讨和分析。

故障管理基本内容和检测模式

国际标准化组织(ISO)关于网络管理的模式主要阐述了网络管理的主要功能,包括: 故障管理、性能管理、配置管理、记账管理、安全管理,以下主要就故障管理进行分析。

故障管理的目的是用来监测网络故障,作预先设定的反映,并载入日志文件提醒用户注意,自动修正网络问题,使网络正常运行。因为故障会使网络瘫痪,或是使整个网络性能降低,故障管理是ISO网络管理原理最广泛的应用。

故障管理的内容包括:诊断网络问题、隔离网络问题、修复网络问题、试图恢复重要的子系统和整体解决网络问题。

在着手解决问题的时候,必须有一套方法来分析和鉴别网络故障发生的类型和位置,逐步排查可能的故障点(区)和故障原因,具体分析时可以采用通过模拟方法来确定真正的故障原因。每一个故障可以基于相应的症状来解决或是采用专用的故障监测工具来监测。可以在具体环境中进行监测和诊断。一旦明确故障的症状和原因,就可以采用一系列相应的措施来补救。具体问题的解决是根据特殊网络环境而制定的网络故障解决计划,而不是简单的生搬硬套。要顺利完成故障检测,必须对网络拓扑情况有深刻了解,并熟悉网络中采用的设备的特性,以及网络中主要节点主机操作系统中的网络配置等。

网络故障的两种基本检查方法

网络故障的两种基本检查方法包括分层检查和分段检查。采用这样的检查办法可以节约检查时间,快速确定故障位置,有利于对故障的分析和判断。

1、分层检查的原则

OSI7层参考模型包括7个层次,如图1所示。每个层次完成一部分的功能,相邻层次之间相互独立,两台计算机系统同等层次之间的操作相对透明。


                        图1  OSI网络结构的7层模型

分层检查包括应用程序层(应用层、表示层、会话层)和数据传输层(传输层、网络层、数据链路层、物理层)的检查。


                         图2 分层检测步骤

具体的分析按“物理层->数据链路层->网络层->传输层->……->上层应用的次序分析问题。分层检查的步骤如图2所示。

2、 采用分段检查的原则。

分段检查包括用户端、接入设备、主干交换设备、中继设备等之间的链路连通及相应端口的状态。

链路连通包括:物理线路的介质类型,物理线路的连通,物理线路的质量(线路的距离、衰耗、终端设备的电气特性等),物理线路的最大数据承载能力,收发线路的对应等。

相应端口的状态包括:两端设备对应的端口类型的统一、速率的匹配、双工设置、收/发时钟的时钟源,数据收/发的线路接通,数据流控制和拥塞控制等。

分析具体就是:按“数据终端设备->网络接入设备->网络主干设备->网络中继设备->网络主干设备->网络接入设备->数据终端设备的次序分析问题。

分段检查的步骤如图3所示。


图3 分段检测步骤

解决网络故障的一般步骤

对网络故障有了初步的检查和判断后,就要着手网控故障的处理,网络故障的处理一般遵循以下步骤(如图4所示)。

1、明确故障特征和导致故障原因

例如,问题的症状是某个用户无法得到某个主机相应服务的应答,造成这种故障的原因有:主/客户机设置错误,网卡故障,错误的路由配置等。

2、收集实际情况


图4 网络故障解决步骤

列出故障症状,并且确定出可能的原因后,就要着手收集实际情况。情况的收集一般包括网络分析跟踪、串口的跟踪、堆栈错误纪录和操作系统核心错误纪录。这些问题的分析有助于故障范围的缩小和故障的明确定位。

3、基于故障的情况,分析故障原因

在了解网络拓扑和熟悉采用设备的特性的基础上,应该能够判断是软件问题还是硬件故障。这样,就能够缩小分析范围,搞清楚是产品的问题、传输介质的问题还是主机问题,也就可以建立相关的网络错误模型。

4、制定实施的方案

基于故障分析结果制定实施方案。只能一个故障一个实施方案。这样有助于有步骤地解决问题。如果一次修改超过一个可能性的话,也能解决问题,但可能无法精确分析问题的原因,以后的故障排除将更加困难。

5、执行这个方案

这个步骤主要是执行已经制定的计划。制定计划的合理性决定了实施计划的结果。必须严格地执行已制定的计划,不能改变其中的步骤和顺序。

6、观察计划执行的结果

当测试一种可能性来发现解决问题的方法时,必须根据活动计划来收集结果。这些测试的结果还用来调整和修改计划,直到问题被解决。

7、基于测试的结果来缩小故障原因

必须坚持不懈地测试,分析测试的结果,以及引起这种结果的原因。尽量缩小问题的范围。当明确问题并找到解决方案后,就可以停止测试。

8、重复问题解决过程

当缩小问题的可能性时,重复以上的流程(如图4),并且根据测试的结果修正的计划来进一步缩小可能性,不断重复上面的流程,最终一定会确认故障和解决问题。

四、总结

网络管理和故障分析技术牵涉面广,技术分析复杂,而且在当今“网络就是计算机”的时代更加显示出它的重要性,为有效地保障企业网持续、稳定、高效地正常运行,只有通过不断的加强学习和实践才能胜任这项工作。

热词搜索:

上一篇:Linux 操作系统日志管理全攻略
下一篇:网络故障管理预警先行

分享到: 收藏