每小时损失200万美元！AWS宕机事件为CIO敲响IT韧性警钟 - 网络安全

　　周一上午，AWS发生了大范围的中断，影响了数千名客户，进而引发多个数字服务出现问题。最初，为将数百项AWS服务恢复至美国东部-1(US-East-1)区域所做的努力，在一定程度上缓解了困难，但并未完全解决问题，这使得亚马逊不得不在当天晚些时候找出并纠正根本原因。

　　根据该公司状态页面上的更新信息，该公司将问题归因于一个负责监控其网络负载均衡器健康状况的内部子系统。

　　“我们已采取了额外的缓解措施，以助力负责监控我们网络负载均衡器健康状况的基础内部子系统恢复，目前，AWS服务的连接性和API已开始恢复。”美国东部时间中午左右，该公司这样表示，不过其仍将服务状态列为“降级”。

　　云服务中断可能会波及数字服务，同时扰乱多个应用程序的运行，阻碍业务连续性计划的实施。当受影响的超大规模云服务商是市场份额领先的AWS时，其影响会更为严重。

　　根据Gartner的估算，去年，亚马逊的云服务吸引了所有IaaS支出中的37.7%，而微软的市场份额为23.9%。谷歌去年仅控制了9%的支出。

　　Info-Tech Research Group的数字基础设施实践负责人John Annand表示，云服务中断为CIO们敲响了警钟，有助于他们评估自身IT资产的弹性。

　　“试图将任何风险降至零，其难度会呈指数级上升，”Annand说，“你希望风险越低，所需付出的成本就越高。”

　　IT压力测试

　　对于CIO们来说，供应商选择是构建弹性的拼图之一，但Annand表示，从架构角度来看，依赖多个重叠供应商的云系统可能会过于复杂。

　　“这在纸面上看起来很美好，人们也在会议上谈论它，但实际上他们并不会这么做，”Annand说，“你必须选择一个云平台的有效性和易用性，然后试着围绕你知道无论如何都会发生中断的时间来制定计划。”

　　Omdia的IT运营首席分析师Roy Illsley表示，对于CIO们来说，此类中断事件的关键启示在于要制定双源策略。

　　“这一事件表明，即使是像AWS这样的服务商也会受到影响，而且除非你有应急预案，否则你将陷入困境。”他在一封电子邮件中这样说道。

　　Illsley说，多云提供了额外的弹性层，但在云之间迁移工作负载颇具挑战性。理想情况下，CIO们应考虑将多云与本地环境相结合，不过他提醒说，这一策略的成本更高，也更为复杂。

　　“没有灵丹妙药，”Illsley说，“但CIO们必须尽职调查，并考虑制定一个独立于主要云服务供应商之外的稳健恢复计划。”

　　对于正在应对业务中断的企业来说，IT中断可能会导致巨大的成本。根据New Relic上个月公布的数据，技术问题导致的每小时运营停机，会使公司损失的中位数达到200万美元。该公司发现，云服务故障是导致IT停机的主要原因。

　　去年，当向Windows设备推送的CrowdStrike有缺陷的更新导致大规模中断时，全球IT系统陷入了混乱。2024年7月的这一事件，导致《财富》500强公司估计直接经济损失超过50亿美元，其中医疗保健行业受到的财务冲击最大。

　　分析师和专家此前表示，非计划性的IT故障可以提供一个重新评估业务连续性计划的机会。

　　“问题不在于服务是否会中断，”Annand说，“而在于何时会中断。作为CIO，你的工作是与公司高层一起管理这一风险，并制定出一个计划。”

每小时损失200万美元！AWS宕机事件为CIO敲响IT韧性警钟
2025-10-22 企业网D1Net