监测Linux系统10条最佳成功经验_中国IT运维网www.cnitom.com

监测Linux系统10条最佳成功经验

2007年08月20日
/

1. 定义所获得的“生产”资源的含义 - 一个服务器，一个应用或一种服务。
2. 找出满足此生产需求的监测方式。
3. 执行监测可能性，可以通过手动方式也可以借助开源工具，比如Nagios或其它商业工具。
4. 定义那些 “损坏、不存在、警惕” (broken/unavailable/on fire) 的含义 - 通常也被称之为警告、出错、危险 (warn/error/critical)。
5. 在你的监测系统中执行警报以捕捉这些阈值。
6. 定义不同的警报级别所对应的处理流程。
7. 确保你的警报处理流程是与那些提示处理流程相符的。
8. 为各团队创建角色和责任来分摊与他们工作特性相符的警报、控制和细节操作。聚焦于个人通常意味着为他们的区域提供更好的绩效。
9. 为你整个系统中的警报、监测协议、角色等指定少数超级用户，以确保他们按照单一蓝本(blueprint)执行。
10. 如需要，则进行修正、清理和重复。

声明：中国IT运维网登载此文出于传递更多信息之目的，并不意味着本站赞同其观点或证实其描述。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请网友及读者仅作参考，并请自行核实相关内容。如原作者不同意在本网站刊登内容，请及时通知本站予以删除。凡本网站注明"来源：中国IT运维网"的作品，在授权范围内使用时，请保留注明"来源：中国IT运维网"。