今年夏天,多个知名组织经历了尴尬和经济上昂贵的业务中断。
这些服务的解释和借口interruptions-delivered由公司高管和周一早上的中卫alike-fail,解决这些问题的根本原因:缺乏严格的高级管理人员的监督。
西南航空公司和三角洲都经历了消费者的普遍不满和业务中断在上个月由于高管归咎于设备故障。专家们将危机归咎于胡乱拼凑遗留的基础设施。
都没有抓住问题的关键。
2016年7月20日,西南航空公司IT系统三丈由于故障路由器,取消了700个航班,成千上万的旅客滞留机场。西南航空公司首席执行官Gary Kelly特征故障作为“一旦- -一千年洪水。”
数千年洪水的区别和一个设备故障采取了业务,后者是完全可以预防的。
复杂的IT系统的公司雇佣防范失败和多层次的保护和备份。因此,当他们失败是由于远远超过单个元素或错误。通常一个灾难性的级联故障不是由于缺乏标准或备份系统,而是管理的失败。
研究西南航空和δ中断
让我们看看最近的中断和公司反应。
西南估计财务损失数千万美元。西南航空的飞行员和机械师工会呼吁凯利的辞职事件,因为它触及了酝酿已久的紧张关系自上而下的削减成本。
有人可能会认为航空业会很快学到一个教训停机以其引人注目的影响:失去了数百万美元的收入,股票价格的负面影响,客户感到愤怒,高管在媒体呼吁管理不善。
然而不到一个月后西南中断后,类似的系统故障了达美航空8月8日。
根据航空公司“…一个临界功率控制模块在我们技术指挥中心发生故障,导致大量变压器和电力的丧失。通用动力稳定和力量迅速恢复。但当这事发生,关键系统和网络设备没有切换到备份。其他系统。现在我们看到的这些系统的不稳定。”
第一批报告指责开关设备故障或发电机停机火。后报告建议关键服务被安置在single-corded服务器或这两个绳子dual-corded服务器插入相同的饲料,这可以解释为什么备用电源未能保留一些关键服务。
正常运行时间研究所的领域的经验和与客户在我们的顾问角色,我们发现它的员工往往部署single-corded它与双电源设备或错误地安装设备到一个路径,击败了数百万美元花在设施系统冗余由于疏忽大意或无知。
在这个例子中,一小部分服务器失去权力,开始一连串的依赖系统的中断,导致数以百计的取消和延误的航班。
三角洲的问题延伸了天成千上万的世界各地的乘客滞留在机场。航空业分析师Helane贝克估计,航空公司将会受到1.2亿美元的营业收入损失从中断。
据美联社报道,“达美航空首席执行官巴斯蒂安道歉的危机和说,虽然他知道航空公司需要技术例如investments-an更新手机应用程序——“我们不相信,无论如何,我们有这种类型的弱点。”
达美航空的首席执行官不需要专家预测数据中心基础设施的生命周期或落后于每个服务器线出口,但他或她需要报告的透明度和问责制链,确保流程和管理结构2020欧洲杯预赛跟从为了防止或减轻这些问题。
在一天结束的时候,发生了停电原因实际和可预测的,不性感,不参加了。几百台服务器没有插入正确的outlets-these基本的配电管理的原则。
三角洲投资于多个功率路径的数据中心系统是为了生存失败。2020欧洲杯预赛他们一切以维持客户服务,但缺乏过程或执行流程打败了投资。
解决复杂系统故障
大型工业和工程系统本质上是有风险的。更大的组件的数量和更大的计划所需的技能和团队合作,管理和安全操作系统。机械部件和人类活动之间可能有成千上万的点,一个错误可能发生并可能引发一连串的失败。
复杂系统故障通常开始当一个组件或元素系统的失败,要求附近的“节点”(或系统)中的其他组件的工作负载或服务失败的组件的义务。如果这增加负荷太大,它可能导致其他节点过载和失败,创建一个瀑布效应是每个组件失败增加了另一方面,负荷已经强调组件。
尽管操作员错误或单一设备故障有时可能会出现引发一个事件,一个事件并不足以推翻一个健壮的系统,除非条件,系统已经摇摇欲坠的边缘的严重故障,有多个潜在风险因素置之不理的管理。
彻底失败需要多个缺点,因此责备归因到一个孤立的元素是近视的,可以说,寻找替罪羊。
最常见的灾难性的失败不是由于缺乏标准,但崩溃或规避的建立过程,复合成一个灾难性的结果。
多层复杂系统故障表示管理失败变化和改进。
级联故障的责任流从上到下。领导决策和重点表现在最关键的水平:人员配备和培训不足,一个组织的文化,变成了由被动心态,或削减预算,减少预防/主动维护。
正常运行时间研究所已经评估了世界的精英和数据中心操作来验证组织程序,问责和透明度,确保数据中心资产的长期性能。2020欧洲杯预赛
这些评估确保管理装备一线运营商资源,他们需要降低风险和做出适当反应,出现小故障时避免级联到大关键故障。
如果行政领导,运营商和监管机构坚持自己的政策和要求,没有偷工减料的经济学或权宜之计,许多灾难可以避免。
遗留推卸责任和现代性的谬论
据《华尔街日报》,在过去的三年里,三角洲花了“数亿美元”的IT基础设施升级和系统,其中包括今年的1.5亿美元。
”,今年早些时候(δ)任命了新的首席信息官和带来了新领导人的信息技术和基础设施团队,”《华尔街日报》写道。
然而媒体的传统智慧是,航空公司系统逆行和脆弱。
根据一个列《经济学人》,“航空公司的系统是如此脆弱,因为他们的年龄和复杂性。…作为航空公司合并,添加了更多的新功能来像技术毛团的一个小问题突然转到更大的,即使是专家难以解开。”
列继续声称问题在于从根本上unsolvable-too昂贵和复杂,即使是最大的和最先进的IT公司地址。
的能力,技术和IT架构师、可用资金的航空公司永远被困在一个遗留技术的死亡螺旋未能说服。但它也忽略了一点。
这些系统在1980年代就失败了今天相同的原因,他们失败了。几乎所有的IT系统都是脆弱的,当电力崩溃。
按照这个标准,是今天的云计算系统脆弱?
虽然云提供商努力建筑师应用程序,这些应用程序是弹性的,立即转移在发生硬件故障,大量证据表明,当功率下降,客户受到影响。
后报告新闻文档中的数据中心设施事件翻译云服务中断。2020欧洲杯预赛现代和灵活的云的声音,但最终有一个数据中心。2020欧洲杯预赛
近年来,行业权威人士声称数据中心设计,冗余电源路径在下降。2020欧洲杯预赛基于我们丰富的野外经验证明1000年全球数据中心的设计,继续支持基础设施弹性和冗余的证据。2020欧洲杯预赛
要求公司提供数据中心容量最大的云供应商什么级别的基础设施弹2020欧洲杯预赛性建筑,考虑到股权。同时可维护的、双路径基础设施是一种常态。对容错的关注(系统+系统)是逐渐减少,但“单线程”基础设施是一个只有很少愿意承担的风险。
然而网站基础设施只是一样好管理团队能够运行在云的道貌岸然或者航空公司IT部门。
教训从这最近一系列中断是你买不到透明度和持续改进的文化从一个供应商目录。你不解决风险,把更多的基础设施问题。而是,IT组织需要确保他们的人充分训练和的资源。他们需要确保程序记录和跟踪。关键资产维护和测试怎么样?
现在,美国国会是参与。
“在一封信中13个航空公司的高管,民主党参议员Edward Markey和Richard Blumenthal概述了最近的10个问题关于中断,航空公司的技术系统以及航空公司容纳乘客在停机期间,“报道了达拉斯晨报。
高管们和政客们试图分析和建议如何防止或减轻未来航空中断,我们希望他们会看着这些失败背后的管理原则,而不是单点故障目前引用的损失。