数据中心故障的严重程度似乎正在下降,而停机的成本继续攀升。停电是“重要故障地点的最大原因。“网络故障和系统故障也降低数据中心,和人为错误经常贡献。2020欧洲杯预赛
这些发现的一些问题在最近的正常运行时间研究所数据中心故障报告,分析类型的中断,它们的频率,他们无论是在资金成本和后果。
不可靠的数据是一个持续的问题
中断正常运行时间相关的警告说,数据应该被怀疑地考虑到缺乏透明度的停机受害者和报告机制的质量。说:“故障信息不透明和不可靠的安迪•劳伦斯研究部执行董事正常运行时间,在一个新闻发布会上对正常运行时间2023年年度停机分析。
在一些行业,如航空公司,有强制性的报告要求,有限的报告在其他行业,劳伦斯说。“所以我们必须依靠我们自己的手段和方法来获取数据。和我们都知道,不是每个人都想分享细节中断由于各种各样的原因。有时你得到一个非常详细的根源分析,其他时间你得到很好,”他说。
正常运行时间报告中数据从三个主要来源:正常运行时间的异常事件报告(播出)数据库;自己的调查;和公共报告,包括新闻、社交媒体、故障跟踪器,和公司报告。每个不同的准确性。公开报告可能缺乏细节和可能不是值得信赖的来源,例如。正常运行时间率自己的调查产生公平/好数据,由于受访者都是匿名的,和他们的工作角色有所不同。空气质量被认为是非常好的,因为它包含详细的,自愿的集中化数据共享的数据中心在同龄人中所有者和经营者。
停机率略有萎缩
有证据表明,停机率逐渐下降近年来,根据正常运行时间。
这并不意味着中断的总数是萎缩,中断的数量在全球范围内增加每年随着数据中心行业的扩张。“这可以给假象,停机率相对于负载正在增长,而相反的是,“正常运行时间。“中断的频率不是增长一样快的扩张或全球数据中心的足迹。”
总的来说,正常运行时间观察每网站停机率持续下滑,作为跟踪通过自己的调查的四个数据中心经理和运营商进行了从2020年到2022年。在2022年,60%的受访者表示,他们已停机在过去的三年里,从2021年的69%和2020年的78%。
”似乎有一种温柔,轻轻地提高照片的停机率,”劳伦斯说。
故障严重程度似乎正在减少
而60%的数据中心网站经历了停机在过去的三年里,只有一小部分被评为严重或严重。
正常运行时间措施中断的严重程度在一到五,五是最严重的。1级中断可以忽略不计,因为没有服务中断。五级关键任务中断涉及服务和/或操作的主要和破坏性的混乱和通常包括大型金融损失,安全问题,合规漏洞,客户损失。和声誉损害。
5级和4级(严重的)中断历史约占20%的中断。2022年,中断的严重的/严重的类别降至14%。
一个关键原因是,数据中心运营商更好地处理突发事件,根据克里斯•布朗,首席技术官在正常运行时间。“我们成为更好地设计系统和管理操作,一个单一的故障或失败并不必然导致严重或严重故障,”他说。
今天的系统构建与冗余和运营商更严格的关于创建系统,有能力应对异常发生率和避免中断,布朗说。
金融人数正在上升
当中断发生时,他们正变得越来越贵的趋势可能会继续依赖数字服务。
在过去四年的正常运行时间的调查数据,主要故障的比例超过100000美元的直接成本和间接成本正在增加。在2019年,60%的停机了复苏的成本低于100000美元。在2022年,只有39%的停机成本不到100000美元。
同样在2022年,25%的受访者说他们最近的故障成本超过100万美元,而45%的人说他们最近的故障成本在100000美元和100万美元之间。
通胀的部分原因,布朗说;替换设备和劳动力的成本更高。
更重要的是公司的程度取决于数字服务的经营自己的事业。失去了一个关键的IT服务可以直接绑定到中断业务和收入损失。“这些中断,尤其是严重和严重中断,有能力影响多个组织,和一个更大的人,”布朗说,“成本的日益降低。”
第三方提供商背后最引人注目、公共中断
随着越来越多的工作负载都外包给外部服务供应商,第三方数字基础设施公司的可靠性越来越重要的企业客户,和这些供应商往往遭受最公众的中断。
第三方商业运营商的数据centers-cloud提供者、数字服务提供商、电信provi2020欧洲杯预赛ders-accounted 66%的公共中断跟踪自2016年以来,正常运行时间。看着年年,比例已经攀升。的比例在2021年中断造成的云,主机托管,电信、和托管公司为70%,2022年上升到81%。
“越多,公司将他们的IT服务推向别人的领域,他们将不得不也应有的勤奋和继续做他们的尽职调查”即使在交易达成之后,”布朗说。
人为错误是一个频繁的原因中断和一个相对简单的因素来解决
虽然很少单一或停机的根本原因,人为误差在66%到80%的电力供应中扮演一些角色,根据正常运行时间的估计基于25年的数据。但它承认人类错误分析是具有挑战性的。缺点比如不当培训、操作者的疲劳和缺乏资源很难确定。
正常运行时间发现人类错误中断大多是通过引起员工未能按照程序(47%的受访者)或程序本身是错误的(40%)。其他常见的原因包括在职问题(27%)、安装问题(20%)、人员不足(14%)、预防性维护量问题(12%)、和数据中心的设计或遗漏(12%)。
从积极的一面来看,投资于良好的培训和管理过程可以对减少中断没有花费太多。
“你不需要去一个银行家一堆资本资金来解决这些问题,”布朗说。“人们需要努力创建程序,测试他们,确保他们是正确的,培训员工遵守它们,然后有监督,以确保他们真的是跟着他们。”
“这是低挂水果为了防止中断,因为人为错误是涉及很多,”劳伦斯说。
电力问题继续阻碍数据中心的可靠性
正常运行时间前几年说目前的调查结果是一致的,表明现场力量仍然重要网站的最大原因中断的问题。尽管大多数中断有几个原因,报告对他们的质量差别。
在2022年,44%的受访者认为权力是他们最近有影响力的主要原因事件或中断。权力也是2021年重大停机的主要原因(43%)和2020 (37%)
网络问题,系统错误,和冷却失败也突出令人不安的原因,正常运行时间。
网络复杂性导致更多的中断
正常运行时间用自己的数据,从2023年的正常运行时间弹性的调查,深入网络故障趋势。在受访者中,44%表示,他们的组织已经经历了一个重大故障造成的网络或连接问题在过去三年。另有45%的人认为没有,12%不知道。
网络的两个最常见的原因,和与连接中断配置或变更管理失败(45%的受访者)和第三方网络提供商的失败(39%)。
正常运行时间趋势归因于当今网络的复杂性。“在现代,动态地切换和软件定义环境,项目管理和优化网络不断修订或重新配置。错误变得不可避免,在这样一个复杂和高通量的环境,频繁的小错误可以通过网络传播,导致很难阻止级联故障,诊断,并修复”,正常运行时间报道。
其他主要的网络相关故障的常见原因包括:
- 硬件故障:37%
- 刀具磨损行:27%
- 固件/软件错误:23%
- 网络攻击:14%
- 网络/堵塞故障:12%
- 与天气有关的事件:7%
- 损坏的防火墙/路由表的问题:6%
常见的原因是系统和软件中断
当正常运行时间弹性调查要求受访者如果他们的组织经历了重大的中断造成的IT系统或软件失败在过去的三年里,36%的人表示是的,50%的人说没有,15%不知道。最常见的原因中断相关系统和软件是:
- 配置和变更管理问题:引用了64%
- 固件/软件故障:40%
- 硬件故障:36%
- 能力/交通拥堵问题:22%
- 数据同步/腐败:14%
- 网络攻击/安全问题:10%
火灾没有共同但会是毁灭性的
公开记录中断,包括中断在媒体上报道,揭示广泛的原因。原因可以不同于数据中心运营商和IT团队报告,自媒体的知识和理解中断取决于他们的观点。“真正有趣的是纯粹的多种原因,部分原因是因为这是公众和媒体对他们,”劳伦斯说。
火是一个原因,出现在公开报道中中断,但没有排名高度it相关的来源之一。具体来说,正常运行时间发现,7%的公开报道数据中心故障是由火灾造成的。在web发布会上,正常运行时间相关数据中心火灾的发生率增加锂离子电池(锂)的使用。
锂离子电池有一个较小的足迹,更简单的维护,比铅酸电池和更长的寿命。然而,锂离子电池存在火灾风险更大。Maxnod数据中2020欧洲杯预赛心在法国遭遇devasting火3月28日,2023年,“我们认为这是由于锂离子电池火,”劳伦斯说。锂离子电池火也是主要的报道引起火10月15日,2022年,在韩国SK集团旗下的主机托管设施和由其C&C子公司。
“我们发现,每次我们做这些调查,火不会消失,”劳伦斯说。