Google提供多项服务,并相当可靠公司如何办到
大都取决于Ben Treynor,Google工程副总裁兼公司网站可靠性团队创建者并开发出有趣的方法谷歌 思考可靠性
+足球竞猜app软件多网络世界:10小费保证你不被微软云SLA烧+
众人可能假设商家目标Googleaps应用系统和其他服务百分百提高可用性确定目标,但Treynor实事求是egle产品均服务级协议决定产品在一个月或一年中停机次数取99.9%恢复时间,例如:允许每月停机43分钟或每年约8小时40分钟8小时40分钟Treynor称它为“错误预算”。
Google产品管理员不必完美-他们只需要比SLA保证更好谷歌上每个产品团队都有它能出错的“预算”。基本说来,他们无法犯比SLA允许更多的错误
Treynor解释说,在传统网站可靠性模型中,网站可靠性工程师与产品管理员基本脱节产品管理者想继续增加服务提供量,但SREs并不喜欢修改,因为这打开了更多潜在问题之门。错误预算模型通过合并SREs和产品团队的优先级解决了这一问题
fun事实:特雷诺收集酷车
产品组可启动新特征如果产品超出SLA范围,则不允许推出新特征直到可靠性提高
产品开发者对架构可靠系统负起责任,这对每个人都是双赢的。SREs获取可靠系统,开发商获取增加特征,用户不经历停机时间(期望多)。系统误差预算-而不是100%恢复时间-给开发商和工程师一些回旋余地,同时更密切地协调开发商和网站可靠性工作者的优先事项观看Treynor视频解释过程来.
似乎有效跟踪CloudHarmony公司表示谷歌IaS云计算平台去年在主要销售商中有一些最佳恢复时间统计更多细节见谷歌与亚马逊、微软等来.废电量当然仍然会发生Google计算引擎本月实战