据互联网监测平台,捕获点,亚马逊Web服务的简单存储服务(S3)经历了三小时,39分钟中断上周二有跨依靠流行的云平台上的其他Amazon云服务和许多互联网网站级联效应。
“S3就像在云中的空气,” Forrester的分析师Dave BARTOLETTI说;当它的股价下跌很多网站无法呼吸。但是中断,错误和中断是生活在云中的事实。BARTOLETTI说,没有理由惊慌:“这不是一个趋势,”他说。“S3已经非常可靠,所以安全,它已经排序亚马逊的云中皇冠上的明珠的。”
+更多在网络世界足球竞猜app软件:云对决:亚马逊网络服务与微软Azure与谷歌云平台|Amazon的S3断电释放出道歉的洪水 - 从别人+
什么这个星期应该是,虽然是一个警钟,以确保您的基于云的应用程序已经准备好下一次云打嗝。以下是准备自己的云中断五个提示:
不要把所有的鸡蛋放在一个篮子里
这个建议将意味着不同的事情为不同的用户,但其基本思想是,如果你在云中部署数据的应用程序或一块一分,也不会是很容错。根据你想如何高度可用的应用程序是将决定你跨越了多少篮子传播你的工作负载。有多种选择:
- AWS建议至少在多个可用区域蔓延的工作量。每16个区域组成AWS的被分解成至少两个,有时多达五个,AZS。每个AZ是指从在同一区域的其他AZS隔离。AWS提供了在同一地区AZS之间的低延迟连接,创建分发您的工作负载的最基本的方法。
- 为了增加保护,用户可以在多个地区传播自己的应用程序。
- 终极保护是部署跨多个供应商的应用程序,例如使用微软Azure,谷歌云平台或者一些内部或托管的基础设施资源作为备份。
BARTOLETTI说,不同的客户有不同程度的紧迫性这样做。如果你依靠云来赚钱为您的企业或者其生产力不可或缺的,你最好确保它的容错和高可用性。如果你用它来备份不经常访问的文件,那么你可以忍受偶尔的服务中断。
ID尽快故障
当一个发生一个键响应到云失败是知道。AWS有一系列的方法可以做到这一点。其中最根本的就是用它所谓的健康检查,提供的每个账户使用AWS资源的状态自定义视图。亚马逊的CloudWatch可以被配置为自动跟踪服务的可用性,监控日志文件,创建警报和反应失败。这一工作的一个重要前体具有“正常”的行为是什么让AWS的云工具可以检测到“异常”行为进行彻底的分析。
一旦一个误差被识别出来,有需要被预先配置成响应于情况多米诺效应反应的范围(参见上文关于多AZ,多区域,或者多云)。负载均衡器可以在地方重定向流量和备份系统能够在如果已经设置了他们这样做(见下文)被踢。
建设从一开始就冗余系统
这不会是试图以应对实时的中断是非常有用的。停电前的准备工作,将节省您当它不可避免地来了。有两种基本的方法来实现冗余云系统:
-支持:当故障发生时,应用程序自动检测到它并进行故障切换到备份,冗余系统。在这种情况下,备份系统可以关闭,但准备在检测到错误时,旋转起来。另一种方法是备用的备份可以悠闲地在后台的整个时间运行(这将花费更多,但会减少故障时间)。缺点这些备用方法是有可能是,当检测到错误,并且当失效备援系统踢之间的滞后。
- 主动冗余:为了(理论上)避免停机,用户可以设计他们的应用程序有活动的冗余。在这种情况下,应用程序在多个冗余资源分布:当一个发生故障时,其余资源吸纳工作量较大份额。甲分片技术可以被用于在该服务被分解成部件。说,例如,在八个虚拟机实例的应用程序运行 - 这八个实例可以被分成四组的每两个和流量可以在它们之间的负载平衡。如果一个碎片下降,其他三个可以拿起流量。
返回的数据了
这是一两件事有冗余系统,这是另一回事您的数据备份。因为它首先影响亚马逊上最流行的存储服务,S3,这将是本周的破坏尤为重要。AWS有多种方式来本地回的数据了:
-Synchronous复制是一个过程,其中一个应用程序仅确认一个事务(如将文件上载到云中,或将信息输入到数据库中),如果该事务已经在次要位置被复制。这种方法的缺点是,它可以引入延迟,等待出现二次复制和一次系统得到确认。当延迟不是一个优先事项,这是好的,但。
-Asynchronous复制:这个过程解耦副本,这对于需要低时延写能力的系统好主节点。用户应该是愿意在这种情况下发生故障时妥协最近交易的一些损失。
-Quorum为主复制:是设置需要进行备份的交易是合格的信息的最小量同步和异步复制的组合。
要确定如何最好地建立冗余系统和回的数据后,客户应考虑其所需的恢复点目标(RPO)和恢复时间目标(RTO)。
测试你的系统
为什么要等待中断发生,看看你的系统是有弹性的失败?事先测试一下。这可能听起来很疯狂,但最好的云建筑师都愿意杀整个节点,服务,锆刚玉,甚至是区域,看看他们的应用程序可以承受它。“你应该不断地殴打自己的网站,” BARTOLETTI说。Netflix公司有一个名为混沌猴子和大猩猩混沌开源工具,这是它的一部分丝棉军能自动杀死某些内部系统,以测试他们的容错性。做他们的工作?这周,Netflix公司没有与它的服务是宕机报告任何问题。
对于与AWS最佳做法架构容错的更多信息,请查看本AWS白皮书。