IT运维管理,创造商业价值!
中国IT运维网首页 | 资讯中心 | 运维管理 | 信息安全 | CIO视界 | 云计算 | 最佳案例 | 运维资源 | 专题策划 | 知识库 | 论坛

盘点2012数据中心断网事件的五大故障诱因(2)

2013年01月03日
zol/zol


  断网诱因三:人为因素

  典型事件1:Hosting.com服务中断事故


  故障原因:服务供应商执行断路器操作顺序不正确造成的UPS关闭

  2012年7月28日Hosting.com停运事件:人为错误通常被认为是数据中心停机的主导因素之一。7月Hosting.com中断事件造成 1100名客户服务中断就是一个例子。停机事故的发生是由于该公司位于特拉华州纽瓦克的数据中心正进行UPS系统预防性维护,"服务供应商执行断路器操作顺序不正确造成的UPS关闭是造成数据中心套房内的设施损失的关键因素之一。"Hosting.com首席执行官ArtZeile说。"没有任何重要的电力系统或备用电源系统出现故障,完全是一种人为的错误造成的。"

  典型事件2:微软爆发BPOS服务中断事件

  故障原因:微软在美国、欧洲和亚洲的数据中心的一个没有确定的设置错误造成的

  2010年9月,微软在美国西部几周时间内出现至少三次托管服务中断事件向用户致歉。这是微软首次爆出重大的云计算事件。

  事故当时,用户访问BPOS(Business Productivity Online Suite)服务的时候,如果使用微软北美设施访问服务的客户可能遇到了问题,这个故障持续了两个小时。虽然,后来微软工程师声称解决了这一问题,但是没有解决根本问题,因而又产生了9月3日和9月7日服务再次中断。

  微软的Clint Patterson说,这次数据突破事件是由于微软在美国、欧洲和亚洲的数据中心的一个没有确定的设置错误造成的。BPOS软件中的离线地址簿在"非常特别的情况下"提供给了非授权用户。这个地址簿包含企业的联络人信息。

  微软称,这个错误在发现之后两个小时就修复了。微软称,它拥有跟踪设施,使它能够与那些错误地下载这些数据的人取得联系以便清除这些数据。

  断网诱因三:人为因素

  典型事件1:Hosting.com服务中断事故


  故障原因:服务供应商执行断路器操作顺序不正确造成的UPS关闭

  2012年7月28日Hosting.com停运事件:人为错误通常被认为是数据中心停机的主导因素之一。7月Hosting.com中断事件造成 1100名客户服务中断就是一个例子。停机事故的发生是由于该公司位于特拉华州纽瓦克的数据中心正进行UPS系统预防性维护,"服务供应商执行断路器操作顺序不正确造成的UPS关闭是造成数据中心套房内的设施损失的关键因素之一。"Hosting.com首席执行官ArtZeile说。"没有任何重要的电力系统或备用电源系统出现故障,完全是一种人为的错误造成的。"

  典型事件2:微软爆发BPOS服务中断事件

  故障原因:微软在美国、欧洲和亚洲的数据中心的一个没有确定的设置错误造成的

  2010年9月,微软在美国西部几周时间内出现至少三次托管服务中断事件向用户致歉。这是微软首次爆出重大的云计算事件。

  事故当时,用户访问BPOS(Business Productivity Online Suite)服务的时候,如果使用微软北美设施访问服务的客户可能遇到了问题,这个故障持续了两个小时。虽然,后来微软工程师声称解决了这一问题,但是没有解决根本问题,因而又产生了9月3日和9月7日服务再次中断。

  微软的Clint Patterson说,这次数据突破事件是由于微软在美国、欧洲和亚洲的数据中心的一个没有确定的设置错误造成的。BPOS软件中的离线地址簿在"非常特别的情况下"提供给了非授权用户。这个地址簿包含企业的联络人信息。

  微软称,这个错误在发现之后两个小时就修复了。微软称,它拥有跟踪设施,使它能够与那些错误地下载这些数据的人取得联系以便清除这些数据。

  断网诱因五:系统Bug

  典型事件1:Azure全球中断服务


  事故原因:软件Bug导致闰年时间计算不正确

  2012年2月28日,由于"闰年bug"导致微软Azure在全球范围内大面积服务中断,中断时间超过24小时。虽然微软表示该软件BUG是由于闰年时间计算不正确导致,但这一事件激起了许多用户的强烈反应,许多人要求微软为此做出更合理详细的解释。

  典型事件2:Gmail电子邮箱爆发全球性故障

  事故原因:数据中心例行性维护时,新程序代码的副作用

  2009年2月24日,谷歌的Gmail电子邮箱爆发全球性故障,服务中断时间长达4小时。谷歌解释事故的原因:在位于欧洲的数据中心例行性维护之时,有些新的程序代码(会试图把地理相近的数据集中于所有人身上)有些副作用,导致欧洲另一个资料中心过载,于是连锁效应就扩及到其它数据中心接口,最终酿成全球性的断线,导致其他数据中心也无法正常工作。

  典型事件3:“5.19断网事件”

  事故原因:客户端软件Bug,上网终端频繁发起域名解析请求,引发DNS拥塞

  2009年5月19日的21:50,江苏、安徽、广西、海南、甘肃、浙江等六省用户申告访问网站速度变慢或无法访问。经过工信部相关单位调查通报称,此次全国六省网络中断事故,原因是国内某公司推出的客户端软件存在缺陷,在该公司域名授权服务器工作异常的情况下,导致安装该软件的上网终端频繁发起域名解析请求,引发DNS拥塞,造成大量用户访问网站慢或网页打不开。

  其中,DN SPod是国内知名的域名解析服务商之一的N SPod公司,服务数家知名网站的域名解析服务。此次攻击导致DN SPod公司所属的6台dns域名解析服务器瘫痪,直接造成包括暴风影音在内的多家网络服务商的域名解析系统瘫痪,由此引发网络拥塞,造成大量用户不能正常上网。 工信部指出,此次事件暴露出域名解析服务成为目前网络安全的薄弱环节,指示各单位要加强对域名解析服务的安全保护。

  小结:启用云服务的公司,很大程度是考虑这种服务可以更加编辑,性价比高。但是,这样的考虑如果是以降低安全性作为代价,估计很多公司老大不会同意。层出不穷的云服务断网事件引起了云端安全性的担忧。

  目前来看,解决的办法可以从几个角度出发,对于企业级客户来说,务必在采用云服务的同时定期备份云端的数据,拥有第二套解决方案按,以备不时之需。而对于云服务提供商来说,既然各种断网事件是在所难免的,那就必须思考一个对策,将自己用户的损失降到最低,对断网事件的响应效率要提高。

  政府部门则具有监督和提醒的职责,云服务相关的法律法律要相继出台和不断完善,并且提醒用户百分之百可靠的云计算服务目前还不存在。

发表评论请到:http://bbs.cnitom.com

相关阅读

图文热点

40/100G完全实现虚拟化数据中心和园区网络
40/100G完全实现虚拟化数据中心和园区网络虚拟化趋势是显而易见、始终如一的,根植于对成本和性能效率、业务灵活性以及IT部...
“Surface”细节,有你不知道的!
“Surface”细节,有你不知道的!10月26日 Windows 8正式亮相前,微软披露Surface定价,市场供应以及限量预购等最...

本类热点