服务中断剖析：我们是怎么到这里的？

正确的分析系统可以在问题出现之前帮助IT部门预防问题

通过吉尔赫克特，CEO，连续性软件

足球竞猜app软件 |

尽管供应商编写的，这一块做出了贡献不会促进产品或服务，并已编辑，由网络世界编辑批准。足球竞猜app软件

由于委婉语去，这是很难被击败的术语“服务中断” 13759 IT部门。虽然这听起来很良性的 - 这停止工作，但是技术团队将很快恢复秩序 - 任何人都熟悉的现实都知道一词的真正含义“巨大的打击，以底线。”

的科技新闻快速细读将确认这一走势。达美航空公司的全球船队刚刚由数据中心问题的接地。2020欧洲杯预赛在Salesforce.com前不久的一张日服停运花费公司2000万$。客户数十万五月时所不便时，他们无法达到Barclays.com因“故障”。而在汇丰服务中断，今年早些时候促使英国央行的顶级管理者感叹的一个，“每隔几个月我们还没有在一家大银行的另一个IT故障......我们不能继续这样。”

然而，计算机时代已经过去了近半个世纪，我们仍然继续这样。根据IDC的研究，基础设施故障每小时可能使大型企业损失10万美元，而关键应用程序的故障每小时可能损失高达100万美元。不管针对这个问题的解决方案是什么，服务中断和以往一样常见，也一样致命。

那么停电是从哪里来的呢？芝加哥大学（University of Chicago）的一个团队进行了一项有趣的研究，列出了导致在线服务公司服务中断的13个主要原因，但这些教训对IT部门同样有价值。研究人员分析了1000多篇网络文章和论文，讨论了516次计划外停机的原因，希望确定发生了什么，为什么发生，以及如何修复。

升级，例如，负责的服务中断的15％。人们可以推测，每一次升级“已在离线环境中彻底的测试。”显然不是;否则，它会站在原因，升级不会在服务中断这样一个主要因素。即使升级是在服务器上进行测试，“升级推到完全的生态系统可能是脆弱” - 这意味着新的升级尚未经过彻底够了，说，这项研究。

错误配置是另一个重要因素——造成10%的服务中断。研究表明，虽然IT工作者经常要为错误的配置负责，但这并不总是他们的错。通常，新软件或现有应用程序的升级会对配置文件进行更改，而应用程序会满足自己的“需求”，同时将事情抛到别处。“一个子系统的配置变化可能需要跟随着其他子系统的变化而变化，否则整个生态系统对什么是正确的会有冲突的看法，”研究说。

服务中断的其他原因包括由于交通问题、断电、安全问题——当然还有人为失误而对生态系统造成的过度压力。但也许最大的问题——根据芝加哥大学的研究，服务中断最常见的原因是“未知的”。在研究的516次中断中，研究小组无法确定294次（48%）中断的根本原因。一旦一个IT部门进入未知领域，他们就会遇到大麻烦。如果你不知道问题出在哪里，你怎么能解决？

一种方法是使用自动大数据分析来识别潜在的中断。这些系统持续地评估网络元素，分析硬件、软件、配置文件、网络连接和构成IT系统的所有其他东西之间的关系。IT部门的员工不能做这项工作，因为有太多的信息需要跟踪。

这些系统可以做人类做不到的事情——识别与行业最佳实践和供应商建议的风险偏差，同时提供早期预警功能，帮助管理员了解任何更改的影响。因此，当安装新软件的时候，例如，分析系统可以发送有关安装的影响、哪些服务和功能将受到影响以及应采取哪些步骤来防止停机风险的警报。

组织从升级的vSphere 5.5至6.x的，例如，都是靠自己努力微调他们的系统时。有许多问题需要考虑 - 而这几乎是不可能的IT工作人员，以确保所有的基地已盖好。所有这将需要一个错过了一步显著妨碍操作，甚至造成另一个可怕的停运。有了正确的操作分析，用户可以更快，更可靠地完成作业，利用自动配置验证的能力。

这种类型的大数据分析不同于（和补充）日志分析和其他评估导致停机的历史数据的方法。虽然这还不完全是预言，但正确的分析系统可以帮助it团队在实际问题出现之前防止问题的出现。考虑到如今IT团队所处的复杂环境，任何帮助——无论是神圣的还是其他的——都可能受到欢迎。

Gil Hecht是Continuity Software的首席执行官，Continuity Software是一家为防止基础设施中断提供IT运营分析的公司。

加入网络世界社区足球竞猜app软件脸谱网和领英评论那些最重要的话题。

IT薪资调查：结果是