十大云中断(我们可以从错误中学习)

发送您的IT业务云带有风险,这10个巨大的云影响的中断可以证实这一点

发送您的IT业务云带有风险,这10个巨大的云影响的中断可以证实这一点。

作为一个概念,有很多喜欢云。放弃那些笨重的服务器和给自己一个白色的硬盘在天空中。其他人处理保养,让你把你的数据,你想要它。甚至“云”这个词本身让我想起一个天上的(如果稍微蓬松)幻想。

当然,现实是一个大杂烩。你在避免保养,你失去了控制。和安全问题是相当大的。但没有噩梦一样生动的是当你的云服务。

(得到的解释和建议你需要云计算的真正优势在信息世界”的编辑长达21页的拘留云计算深潜水PDF的特别报道。|熬夜与信息世界的云云计算报告通讯。]

问问任何一个企业的影响亚马逊网络服务的知名停机4月。

“我们很被风吹走,”尼克•弗朗西斯说的创业,帮助侦察,发起了仅仅一周之前亚马逊的问题。“我们绝对没有准备。”

弗朗西斯不是唯一一个猝不及防。大名鼎鼎的属性Reddit和Foursquare当亚马逊的云气急败坏的说。

“云已成为这个神奇的东西只是工作,是完全可靠的,”卢说穆斯林,Rackspace的首席战略官云提供商的公平份额的中断。“事实是,购买通过购买计算的云是另一种方式,和计算本质上是有缺陷的。如果你想确保这些缺陷不会伤害你,你必须提前计划。”

有助于保持你的业务在云中无痛,我们提供这些来之不易的教训的10个最严重的风暴云网络经受住了。

巨大的云停机1号:亚马逊网络服务噗。把自己从网络维护gruntwork做生意是一个主要卖点的云。缺点呢?无助地站在当你的云供应商的常规配置更改,您的业务停转。

这就是许多AWS客户经历了今年4月,当亚马逊的北弗吉尼亚数据中心故障,使用技术术语——完全发疯的去了。2020欧洲杯预赛

错误开始网络升级期间,当一个误传交通转移给一群亚马逊EBS(弹性块存储)卷成remirroring风暴,为他们寻找可用的箱子,可以插入备份自己的反常,我知道。那引发了一系列的事件最终记下了很多公司的美国东部地区。

短的版本,无论如何,如果你感兴趣的全部细节,清除47小时在你的时间表和阅读亚马逊的手写稿的解释

问题持续了四天。虽然许多企业挣扎,其他诸如Netflix从容面对了风暴。生存的关键?设计系统与这些类型的失败。

“我们的架构避免使用EBS作为我们主要的数据存储服务,SimpleDB, S3,和卡桑德拉服务,取决于不受中断影响,“Netflix工程师写的“教训Netflix从AWS停机”博客。无状态服务和多个冗余热的副本数据可用性区域关键避免AWS云失败的痛苦。

认为你必须Netflix-size业务保持安全吗?再想想。为什么Twilio公司,有助于开发人员通信集成到Web应用程序,使用Amazon的EC2主机基础设施的核心,然而,4月的停机没有对其稳定性的影响。

“基于云的基本前提是假设网络有故障,”埃文·库克说,为什么Twilio的联合创始人兼首席技术官。“我们建立了一个基础设施在一个主机可以会失败,所以我们不要依赖任何单一机器或单一组件的核心架构本身。”

巨大的云停机2号:伙伴关闭。智能手机可以很容易地访问您的数据,但仅仅因为一些“聪明”的名字并不意味着它不可能是愚蠢的。例子:t - mobile助手运行,大约在2009年秋季。

还记得这个失败吗?微软所有的伙伴了近一周的服务中断让用户没有访问电子邮件、日历信息,和其他个人资料。然后,雪上加霜的是,微软承认完全失去了cloud-stored碎片将无法恢复。显然,良好的ol的帮派雷德蒙忘记了备份。

这项技术可能已经进化之后,但教训是相同的:当涉及到关键数据,永远不要认为别人会自动保护你。确保你理解你的云提供商的灾难恢复设置,更好的是,自行安排自己的独立备份重要数据。

“应用相同的操作规则甚至在云中,”Ken Godskind说,监控产品的副总裁AlertSite, SmartBear公司。“组织使用云不能假设,因为它是在云中,所有的责任业务连续性计划在某种程度上已被转移到提供者。”

巨大的云停机3号:Gmail失败。所有云服务,谷歌的Gmail礼物更有可能威胁到微软的一个本地控制的企业。取代你奢侈的交换服务器廉价,可靠Postini支持的电子邮件服务。不喜欢什么?

一个皮疹的讨厌的中断,最近有150000 Gmail用户签字只到他们的账户找到空白的石板——没有电子邮件,没有文件夹,没有表明他们实际上是看自己的收件箱。谷歌的信贷提供定期更新并承诺一个快速修复。但维修只要4天的一些影响用户。

“怎么会发生这种事,如果我们有你的数据的多个副本,在多个数据中心吗?”2020欧洲杯预赛Google vice president of engineering Ben Treynor asked in一个博客发布。“在一些罕见的情况下,软件缺陷会影响几个副本的数据。这就是发生在这里。”

谷歌最终不得不实际的物理磁带备份为了恢复数据。最终,公司的多层数据保护工作,但不是没有让成千上万的用户锁定的邮件好几天。

是一个原因,挥动双臂,离开了云吗?可能不会。但它仔细看看自己的数据保护措施的理由,考虑建立一个备份离线访问解决方案现在,在一个紧急的需要。

“当你看广泛的平均值,云会有更多操作成功比你作为一个个体,“AlertSite的肯Godskind说。“只是当你去网络规模,失败是放大的影响更大。”

巨大的云停机4:Hotmail的脏乱。当然,微软没有总是为其提供了最大的广告大推动云计算,要么。见证微软的Hotmail服务经验丰富的数据库错误自己的2010年底,导致成千上万的空收件箱的新年。

这个错误,据微软源于一个脚本,该脚本是为了删除虚拟账户创建自动化测试。脚本错误的目标17000个真实账户。

微软花了三天时间恢复为大部分的用户服务。影响一个不幸的8%的人觉得不得不等一个额外的三天前他们的数据是属于哪里。

甚至通过头痛助手无法微笑。

巨大的云停机5号:Intuit双管齐下。Intuit去年遭遇坎坷,其云服务,包括像tutbotax流行平台,加快,QuickBooks,离线在一个月内两次。最坏的情况下是一个36小时停机6月。电源故障显然使事情变得疯疯癫癫,与该公司的主要系统和备份系统得到了完全的网格。

它只添加雪上加霜,然后,当另一个明显的电源故障Intuit周后。其他问题,第二个中断似乎导致异常高obscenity-laden大喊大叫。

“25小时停机时间是难以接受,”一位用户写道:。“被动、不透明和僵硬的沟通从直觉没有帮助。”

哎哟。

“事实是,有更好的解决方案比单个云如果你需要绝对的可用性,”Chris增白剂说,惠普的首席策略师安全优势项目。“不一定,你必须复制所有的东西,但即使是将一个额外的步骤,也许自己备份关键数据——可以使所有的差异。”

巨大的云停机6号:微软的bpo哦。很难生产当你云生产力套件咬虚拟尘埃。这就是发生在组织依赖微软商业云提供几周前:服务,命名——在真正的微软的风格——微软企业生产力在线标准,开始口吃5月10日左右。付费用户的电子邮件被推迟了九个小时。

两天后,当它看起来就像bpo是清白的,返回的延迟也传出消息开始在管道。如果这还不够,微软经历了单独的问题,阻止用户登录到门户基于web的展望。

“我想向你道歉,我们的客户和合作伙伴,为明显的不便造成的这些问题,”戴夫•汤普森写道,微软在线服务公司副总裁一个博客

“我还想道歉的明显的不便说15音节每次你说我们的服务是可笑的名字,“他应该补充道。

巨大的云停机7号:Salesforce错误。一个小时的停机时间可能听起来不算多,但是当你的公司持有的客户服务运作的关键成千上万的企业,不少的组织一定会认为那些60分钟一生。

Salesforce.com学会了这是其数据中2020欧洲杯预赛心关闭去年1月。4天到新年,Salesforce.com报道全面失败,这意味着服务,备份,十全十美是过时的。

烦人吗?绝对的。令人惊讶的?不完全是。

“事实是,基于云计算的数据中心,你猜怎么着?2020欧洲杯预赛——他们下去,”蒂姆•克劳福德表示所有覆盖的首席信息官,柯尼卡美能达的一个部门。“一直都是这样,永远是这样。我们必须面对现实。”

克劳福德说成功的云计算需要一个不同的心态比传统服务器设置:由你,他认为,决定是否你的业务的数据可以忍受偶尔的停机时间,如果不是这样,以确保您的配置有弹性需要避免它。

“当你选择一个云提供商,你需要做你的家庭作业了解他们提供这些服务,如果他们能够建立一定程度的冗余一样好,甚至比你自己能做什么,”克劳福德说。“如果答案是否定的,那么你为什么要使用它们?”

巨大的云停机8号:Terremark是可怕的一天。这些天,Terremark可能使标题其数十亿美元的Verizon交易,但在2010年初,长时间停机主导云提供商的报道。

Terremark运气变坏的圣帕特里克节,2010年3月17日。公司的vCloud快递服务就急转直下,与迈阿密数据中心线下大约七个小时。2020欧洲杯预赛用户无法访问存储在数据中心的整个时期。

不要过于冗余,但这会带来冗余的价值——拥有你的重要数据在不同的数据中心或在多个服务器上,更好的是,不同的地区。2020欧洲杯预赛你也可以传播它的额外的步骤在不同提供商作为故障保护。

“你可以选择一系列供应商举办一个工作负载——一个作为备份或两个备份,然后另一个作为你的主,“建议哈罗德·莫斯,IBM的首席技术官云安全策略计划。“你可以实现你的工作量在一种安全的方式,通过适当的安全,并开始介绍你的弹性功能。”

巨大的云中断9:贝宝跌倒。希望云中断与一些严重深远影响?试着把贝宝离线几个小时。

这不是假设的练习:贝宝爱上了真实的在2009年的夏天,让数以百万计的世界各地的商人没有办法出售自己的产品。大约一个小时的服务是完全不可用,几个不一。贝宝表示硬件故障是罪魁祸首。

毫无疑问,这是一种罕见的中断,但所有的销售损失,这个不幸的中断很容易赚点云计算的耻辱。

巨大的云停机10号:Rackspace的艰难的一年。当你提供云服务网站TechCrunch和贾斯汀,你最好相信人们会注意到当你的服务器停止工作。

12 第1页
第1页的2
工资调查:结果是在