(飓风摧毁了一个岛屿,举办了两个数据中心,控制了一个美国生物技术公司的关键任务系统。他们在企业喷2020欧洲杯预赛气式飞机上举办了四十年的岛屿的备份专家,以拯救这一天。这是故事challenges he faced and how he overcame them. He spoke on the condition of anonymity, so we call him Ron, the island Atlantis, his employer Initech, and we don’t name the vendors and service providers involved.)
Initech在atlantis2020欧洲杯预赛上有两个数据中心,其中包含在大约200个虚拟和物理机器上运行的400TB数据。备份系统基于领先的传统备份软件供应商,并备份到目标重复数据删除磁盘系统。每个数据中2020欧洲杯预赛心都备份到自己的本地重复数据删除系统,然后将其备份复制到其他数据中心中的磁盘系统。这意味着每个数据中心都有整个Initech在亚特兰蒂斯的备份副本,因此即使一个数据中心被销毁,公司仍将拥有其所有数据。2020欧洲杯预赛
Initech偶尔也会将这些备份复制到磁带上,并将它们存储在亚特兰蒂斯上,以备气隙之用。这些磁带本可以存放在大陆上,但却没有被销毁。幸运的是,这些磁带没有在灾难中被销毁,但却有可能被销毁。Initech曾考虑使用云进行灾难恢复,但由于亚特兰蒂斯的带宽限制,发现这是不切实际的。
当飓风来袭时,伊泰克公司开始寻找一个人来领导地面上的恢复进程。由于破坏程度,他们知道他们需要一个能处理命令级恢复的人。在伊泰克只有几个人有这样的技能水平,罗恩就是其中之一。他们让他坐私人飞机去了亚特兰蒂斯。
在那里,他发现了一个令人难以置信的一般毁灭水平,并且特定于发动机,一个数据中心被淹没,在每个机架中取出了服务器的底部行,将服务器留在上部机架中。2020欧洲杯预赛恢复计划是将仍在致电干数据中心的服务器移动并在那里恢复所有内容。2020欧洲杯预赛
ron表示将服务器从一个地方转移到另一个地方的总体计划,而ron表示匆忙确实导致某些服务器不恰当地处理。这意味着在移动的另一端重新组装它们是难的。(注意自我:在移动它们时对服务器很好。)
罗恩必须克服的最大障碍是亚特兰蒂斯和大陆之间的网络连接被暂时禁用由于飓风,它创建了一个主要problemInitech了不幸的决定依赖于大陆的活动目录,而不是一个单独的活动目录设置在亚特兰蒂斯。这意味着任何广告查询都必须直接访问大陆,而大陆现在是无法访问的。这意味着他们无法登录到启动恢复所需的系统。
他们尝试了多种选择,从基于卫星的互联网开始。虽然这给了他们一些连接,但他们发现自己在最大限度地利用每天的带宽分配,之后卫星ISP会减少他们的连接。他们还尝试用微波连接到另一个ISP。这是一个多步微波中继,所以在中继的任何建筑物的电力损失可能导致另一个临时中断。事实证明,当网络连接所依赖的基础设施——建筑和电力——不稳定时,要有一个稳定的网络连接真的很难。
实际的修复是比较容易的部分。从任何标准来看,这肯定都不算快,但确实奏效了。将一个数据中心恢复到另一个数据中心的整个过程花费了两个多星期。2020欧洲杯预赛考虑到亚特兰蒂斯的现状,这确实令人印象深刻。
他们使用的备份软件在管理程序级别备份VMware,所以恢复200多个虚拟机相对简单。恢复少数几个需要裸金属恢复的物理服务器变得更有挑战性。如果您从未在不同的硬件上执行过裸金属恢复,那么可以这样说,它可能具有挑战性。Windows是相当宽容的,但有时事情就是不工作,你需要手动执行许多额外的步骤。这样的恢复是修复过程中最困难的部分。
灾难的课程
从灾难中得到的第一个教训是最深刻的:备份和恢复系统虽然重要,但它们可能不是灾难恢复中最困难的挑战。要找到一个恢复的地方和一个使用的网络可能会困难得多。请注意,这不是在备份设计上懈怠的理由。如果有什么不同的话,那就是有理由确保至少备份工作,而其他工作都不能工作。
不依赖于Active Directory的本地帐户将是一个好的开始。启动恢复所必需的服务,如Active Directory,应该至少有一个本地缓存的服务副本,该服务可以在没有Internet连接的情况下工作。这种服务的一个完全独立的实例将具有更强的弹性。
尽可能地排练大规模的恢复,并确保您知道如何在没有GUI的情况下执行它们。能够通过SSH登录服务器并在命令行上运行恢复是更高效且灵活的。作为似乎很多人的外国,命令行恢复通常是前进的唯一方法。在亚特兰蒂斯,电力服务处于溢价,因此将其使用给电力监视器并不是一个选择。
额外的硬件会非常有用。灾难恢复中的一个问题是,一旦您恢复了系统,就需要对它们进行备份。但是在这样的恢复中,并不一定有很多额外的硬件可以用于备份。您拥有的硬件正在非常努力地恢复其他系统,因此您不希望让它承担备份刚刚恢复的系统的任务。在这里,云可能会有所帮助,但在这种情况下,这不是一个选择。
当您的主要备份系统忙于进行恢复时,您需要计划如何在灾难恢复期间和之后备份服务器。Initech通过磁带库解决了这个问题。在灾难发生之前,itech用磁带把备份文件拷贝到一个安全的地方。主磁盘系统被充分使用来执行恢复,所以他们需要一些东西来执行新恢复的服务器的日常备份。他们禁用了脱机磁带复制过程,并暂时将生产备份定向到以前仅用于创建脱机副本的磁带库。关于磁带的一个伟大的事情是它实际上有无限的容量,只要你有足够的额外的磁带。另外,多放一些磁带比多放一些磁盘要便宜得多。考虑到itech数据中心的容量,如果有足够的磁带来处理几周的备份2020欧洲杯预赛,成本将低于1000美元。但是,教训是,在进行主要恢复时,您需要计划如何进行备份。
自动备份包含是去的方式。所有现代备份软件包都有能力备份所有VM和这些VM上的所有驱动器,但并非每个人都使用此功能。Initech - 就像很多公司一样 - 试图通过备份中的某些文件系统在其备份中保存一些钱。这意味着它们错过了许多重要的文件系统,因为它们没有手动选择。课程:使用备份软件自动备份所有内容的能力。如果您知道有些东西是完整的垃圾,可以手动排除它。但是手动排除比Initech选择了一些系统的手动包含设计更安全。
你得弄清楚你的病人要睡在哪里!在重大灾难中,没有酒店房间,所以要提前计划,确保有能力在现场为IT人员提供住宿、洗澡和餐饮,他们将在大楼里住很长一段时间。罗恩被告知要带上他的睡袋,但这里应该有全新的睡袋、充气床垫和盥洗用品。此外,考虑一下紧急粮食配给。我技术公司能够给罗恩和他的同事提供食物,但这肯定不容易。购买和维护这些补给是让救援人员休息和吃饱的一个小代价。
DR测试只会测试一段灾难是完全不充分的,以模拟真正的灾难就是这样的。它很难测试完全灾难恢复,但是Initech实际上已经完成了这样的测试,它本可以确定关于实际恢复的一些不准确的假设。您测试的越多,您就越了解。
最后,测试性能不是实际性能的预测因素。即使您执行完整的DR测试,即使是完整的DR测试,也将是不同的。如果您正在处理泛滥的自然灾害,这尤其如此,将其放火,甚至将其吹到Smithereens。2020欧洲杯预赛您可以尽力尝试考虑所有这些方案,但最终您还需要的是人们可以对地面上意外作出反应的人。在这种情况下,Initech发出了一位经验丰富的退伍军人,他们原来是局面的合适人选。他和另一个人用拳打滚动并找到了一种恢复的方法。即使他的所有现代IT系统都有可用的,人们仍然是您最好的资产。
思想的食物
在计划灾难恢复时需要考虑的几个问题:
- 备份设计中是否有错误的假设?
- 你有没有考虑过备用通信系统,以防主连接中断?
- 你知道在哪里可以安置一群IT人员,他们需要离你的数据中心很近吗?
- 你对自己在这样的灾难中成功的能力有多大信心?
如果你不能很好地回答这些问题,也许可以进行几次极速会话。