盘点2012数据中心断网事件的五大故障诱因_中国IT运维网www.cnitom.com

无论多么高远的梦想还是要找到稳固的立足点，云服务最终还是要从一个数据中心被传输到另外一个数据中心，在这个过程仍然摆脱不了需要人、计算机、网络、电能、存储等之间协同工作。

　　人再囧途之泰囧在2012年岁末床下了华语电影的票房记录，而且还在刷新着记录。但是在IT界，频频爆发的数据中心安全故障事件，也在一次次冲击着企业用户的心理防线。只期待，数据中心的安全问题，不要成为人再囧途之"泰囧"。

　　云计算服务在这个时代被吹捧成为IT圣者，所有的服务都可以被“云”化。但是，当很多公司勇于第一个吃螃蟹之后，却发现往往最容易受伤的也是他们。近几年来，层出不穷的云服务断网事件，让业界听得心惊胆寒。

　　人们渐渐回归理想，更加清晰地看清楚云计算的真面目。可以说，无论多么高远的梦想还是要找到稳固的立足点，云服务最终还是要从一个数据中心被传输到另外一个数据中心，在这个过程仍然摆脱不了需要人、计算机、网络、电能、存储等之间协同工作。这样一来，整个过程出现错误和漏洞就在所难免，再加上天灾人祸。所以，启用云服务你必须有一定的思想准备，同时要有第二手的解决方案来应对。

　　编者在这里回顾一下近年来发生的一系列断网事件背后的原因。从2009年-2012年之间。也许能让你看到：即便是计算机出错似乎在所难免，再保险的措施似乎也只能把安全事件控制在一个小概率范围内。

　　断网类型一：系统故障

　　典型事件1：亚马逊AWS平安夜断网

　　故障原因：弹性负载均衡服务故障

　　2012年12月24日，刚刚过去的圣诞节平安夜，亚马逊并没有让他们的客户过得太平安。亚马逊AWS位于美国东部1区的数据中心发生故障，其弹性负载均衡服务(Elastic Load Balancing Service)中断，导致Netflix和Heroku等网站受到影响。其中，Heroku在之前的AWS美国东部区域服务故障中也受到过影响。不过，有些巧合的事情是Netflix的竞争对手，亚马逊自己的业务Amazon Prime Instant Video并未因为这个故障而受到影响。

　　12月24日，亚马逊AWS中断服务事件不是第一次，当然也绝非最后一次。

　　2012年10月22日，亚马逊位于北维吉尼亚的网络服务AWS也中断过一次。其原因与上次相似。事故影响了包括Reddit、Pinterest等知名大网站。中断影响了弹性魔豆服务，其后是弹性魔豆服务的控制台，关系数据库服务，弹性缓存，弹性计算云EC2，以及云搜索。这次事故让很多人认为，亚马逊是应该升级其北维尼吉亚数据中心的基础设施了。

　　2011年4月22日，亚马逊云数据中心服务器大面积宕机，这一事件被认为是亚马逊史上最为严重的云计算安全事件。由于亚马逊在北弗吉尼亚州的云计算中心宕机，包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。亚马逊官方报告中声称，此次事件是由于其EC2系统设计存在漏洞和设计缺陷，并且在不断修复这些已知的漏洞和缺陷来提高EC2(亚马逊ElasticComputeCloud服务)的竞争力。

　　2010年1月，几乎6万8千名的Salesforce.com用户经历了至少1个小时的宕机。Salesforce.com由于自身数据中心的"系统性错误"，包括备份在内的全部服务发生了短暂瘫痪的情况。这也露出了Salesforce.com不愿公开的锁定策略：旗下的PaaS平台、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出现问题，Force.com同样会出现问题。所以服务发生较长时间中断，问题将变得很棘手。

　　断网诱因二：自然灾害

　　典型事件1：亚马逊北爱尔兰柏林数据中心宕机

　　故障原因：闪电击中柏林数据中心的变压器

　　2011年8月6日，在北爱尔兰都柏林出现的闪电引起亚马逊和微软在欧洲的云计算网络因为数据中心停电而出现大规模宕机。闪电击中都柏林数据中心附近的变压器，导致其爆炸。爆炸引发火灾，使所有公用服务机构的工作暂时陷入中断，导致整个数据中心出现宕机。

　　这个数据中心是亚马逊在欧洲唯一的数据存储地，也就是说，EC2云计算平台客户在事故期间没有其他数据中心可供临时使用。宕机事件使得采用亚马逊EC2云服务平台的多家网站长中断达两天时间之久。

　　典型事件2：卡尔加里数据中心火灾事故

　　故障原因：数据中心发生火灾

　　2012年7月11日卡尔加里数据中心火灾事故：加拿大通信服务供应商ShawCommunicationsInc位于卡尔加里阿尔伯塔的数据中心发生了一场火灾，造成当地医院的数百个手术延迟。由于该数据中心提供管理应急服务，此次火灾事件影响了支持关键公共服务主要的备份系统。此次事件为一系列政府机构敲响了警钟，必须确保及时的恢复和拥有故障转移系统，同时结合出台灾害管理计划。

　　典型事件3：超级飓风桑迪袭击数据中心

　　故障原因：风暴和洪水导致数据中心停止运行

　　2012年10月29日，超级飓风桑迪：纽约和新泽西州的数据中心都受到了此次飓风的影响，所带来的恶劣影响包括为曼哈顿下城地区的洪水和一些设施的停机，周围地区数据中心发电机运行失常。飓风桑迪所带来的影响超出了一般单一的中断事故，为受灾地区数据中心产业带来了规模空前的灾难。事实上，柴油已然成为了数据中心恢复工作的生命线，作为备用电源系统接管了整个地区的负荷，促使特别措施，保持发电机的燃料。随着眼前的工作重点逐步转移到灾后重建，我们有必要长期就数据中心的选址、工程和灾难恢复进行探讨，这一话题可能将持续几个月，甚至几年。