扫一扫
关注微信公众号

数字时代的危机管理和事件管理
2021-10-11   企业网D1Net

  研究表明,云计算/数字时代的危机和事件管理将成为企业采用的一种安全策略。

  “事件”被定义为计划外停机或中断,向用户提供较低质量的服务、部分或完全中断服务。如果是重大事件,那么它就是一个“危机”。

  当事件开始影响提供给客户的服务质量时,它就会成为一个问题,因为大多数服务提供商与消费者签订了服务等级协议,这些协议通常内置了惩罚措施。

  行业专家指出,大多数企业并没有设置实时处理与IT相关的事件或危机的机制。很多企业采用传统的方法应对危机,因为他们没有考虑采用云计算或者SaaS模式,而一些数字原生公司也并不太重视危机管理。

  特别是对于“永远在线”的需求和要求,事件可能随时发生,而且经常发生在周末和节假日。当事件发生时,准备充分的企业必须处于识别、评估、管理、解决并有效地将其传达给客户的状态。

  这里要注意的另一个关键问题是安全事件和服务事件之间的区别。安全事件是指发生数据泄漏的情况。数据泄露的缓解和危机管理涉及采用一组不同的程序,从禁用帐户到通知利益相关者和帐户所有者以及将问题上报给安全和身份识别团队。服务事件是指部分或全部发生服务中断。它需要DevOps、开发人员和Ops团队进行处理。由于它们有些相似,一些危机管理程序可能会重叠。但是,如果企业的支持团队不知道正确的升级流程,那么他们可能会在紧急情况下向错误的渠道发送严重警报。在此只讨论服务中断,尽管安全事件也有很多相似之处。

  尽可能避免发生事件

  在任何情况下,避免出现问题都比解决问题要好。企业可以做很多事情来避免这种情况,例如漏洞审计、预警监控、代码配置审计、发布审查、异常检测等。企业还应该投资于适当的可观察性、监控、日志记录和跟踪解决方案。

  未雨绸缪

  大多数企业在发生事件时并没有准备或制定行动计划。在数字世界中,事件不会等待数天的时间才能解决或管理。

  在其他人之前确定事件

  在行业专家发布的一份名为“在数字经济中,应该快速失败但必须快速恢复”的文章中,讨论了需要比客户或合作伙伴更快地发现问题的速度。软件开发已经完全采用了DevOps和敏捷原则,但是运营团队还没有完全接受DevOps方法论。例如传统的监控系统,无论是应用程序性能监控、基础设施监控还是数字体验监控系统,都可以很快发现是否存在服务中断。然而在当前的环境中,识别导致问题的微服务,或者识别导致这一问题已生效的更改是复杂的。

  迅速果断地采取行动

  当发生重大事件时,应该是全员参与的情况。一旦确定了关键事件(第1级),就应为事件分配一名事件指挥者,必须立即打开协作作战室(虚拟或物理),并邀请服务所有者参与。如果可能的话,必须立即将问题上报给能够解决问题的人员,而不是经过L1到L3等工作流程,这会进一步拖延进程。此外,如果有太多人被邀请到这些协作作战室,则必须有一种机制来识别故障平均调查时间(MTTI),这样,如果被邀请的人员没有直接关系,也无法帮助解决问题,那么他们可以离开继续开展他们的富有成效的工作。

  在数字频道上拥有自己的策略

  当发生重大服务中断时,企业的用户需要知道,服务所有者需要知道,企业主管需要知道。也就是说相关人员都应该知道。其中一部分原因是外部沟通。最起码要显示一个状态页面,显示服务的状态和质量,让每个人都时刻了解服务状态。此外,应该对出现问题的原因、正在采取什么措施进行修复以及可能的问题进行初步解释,或者作为状态更新或在LinkedIn、Twitter、Facebook和企业所在的其他社交媒体平台上的帖子中发布。企业的用户通过社交媒体可以知道服务已关闭。如果用户没有得到任何更新的信息,那么企业的竞争对手可能就会散布谣言来破坏企业的品牌声誉。

  这是大多数数字公司比较薄弱的地方,因为他们没有做好准备。而在工程师和支持团队试图解决问题的关键时刻,实时危机和声誉管理至关重要。使用情绪分析和声誉工具找出谁在说极端负面的话也是一个好主意,并尝试让他们离线直接处理或实时回应,以避免进一步升级。

  进行无可指责的事后分析

  在很多企业看到的一个共同模式是,在解决了危机和事件之后,每个人似乎都很快转向下一个问题。可能是因为问题太多,导致企业的支持团队、DevOps和Ops团队不堪重负,或者他们认为没有必要分析发生了什么或为什么会发生。危机/事件管理的一个特别重要的部分是弄清楚出了什么问题,为什么会出错。更重要的是,企业如何才能根除这个问题,这样就不会再发生这种情况。在找出解决方案后,将其正确记录,还需要有一个存储库来存储这些解决方案,以便在再次发生事件时,知道如何快速果断地解决这个问题。

  跟进

  此外,与受其影响的顶级客户讨论这种情况;企业解释为解决问题所做的工作以及如何解决问题,以避免重复。更重要的是,讨论在事件发生之前是如何做好准备的,这将给企业增加巨大的信心。这样企业不仅不会失去客户,而且会因为其处理方式而获得更多收益。

  此外,危机管理公司的建议是在事件发生之后取消企业计划举办的其他活动。例如如果企业的关键服务中断数天,而其高管正在拉斯维加斯参加大型会议,那么社交媒体对此也会十分关注。监控社交媒体平台(至少LinkedIn、Twitter、Facebook或企业在其他社交媒体平台,包括对企业的博客网站的负面评论)的语气;企业甚至可以使用基于人工智能的情绪分析工具来识别仍然不满意的客户,以讨论他们担忧的问题以及如何解决这些问题。在解决这些问题之前,企业的事件还没有完全解决。

  另一个最佳做法是在重大事件发生后的一段时间内避免炒作或宣传。一些企业继续执行这一计划并得到客户的强烈反对,而他们都在空谈并且没有产生任何实际效果。

  结论

  每个企业迟早都会面临这个问题。没有人是无敌的。当问题发生在自己身上时,企业准备好应对它了吗?处理得当的企业可以获得客户的信任,表明他们已准备好应对未来再次发生的事件。

  那么,企业是通过正确的方式来获得客户的信任,还是通过弄虚作假和掩饰而失去信任?这将决定企业的未来发展。

  企业需要在云计算时代的工具选择、最佳实践、趋势和适当的IT事件/危机管理设置获得建议,以便在发生这种情况时做好准备。

热词搜索:

上一篇:监控易:一体化运维助力电网企业实现“双碳”目标!
下一篇:如何选择最佳的桌面即服务解决方案

分享到: 收藏