SLA简介
服务级别协议(英语:service-level agreement,缩写SLA)也称服务等级协议、服务水平协议,是服务提供商与客户之间定义的正式承诺。服务提供商与受服务用户之间具体达成了承诺的服务指标——质量、可用性,责任。SLA最常见的组成部分是以合同约定向客户提供的服务。例如,互联网服务供应商(ISP)和电信公司通常在与客户的合同条款内包含简单定义的服务级别协议。在此事例下,SLA通常定义有平均故障间隔(MTBF)、平均失败时间(MTTF)和平均修复时间(MTTR);哪一方负责报告错误与支付费用;吞吐量;抖动;或类似的可衡量细节。
构成
一份典型的 SLA 通常应定义以下 4 方面活动。
衡量各项动态指标满足 SLA 的定义
检査各项被衡量的指标,并进行问题诊断和根源分析
采取适当的行动解决问题
为满足 SLA 而持续维护及改进服务行为。
除了服务活动的定义外,定义淸晰、简明、一致性的数据点也是签定 SLA 双方避免风险,确保协议执行的必要条件。对于每一条服务级别的定义通常都包括以下数据点。
分类定义:在 ITIL 中成为服务目录。指一个需要被衡量、报告和持续提供的关键业务流程或功能。
服务时间:需要遵循 SLA 的时间。应清楚地描述 SLA 执行的日期和时间及特殊的时间约定。
服务责任:对服务需求详细说明的条款,包括在打破 SLA 时的升级行为和管理。
服务级别指标:对服务供应方工作的考核方法,通常以百分比表式以及承诺的服务响应时间等。
计量公式:用于计算性能的数学公式,描述衡量服务的数学公式。
测量间隔 / 报告周期:性能测量的时间,判断 SLA 足否被满足的测量周期,如按月或全年。
数据源:用于监视或测量的工具,描述数据的类型及来源,如何保存,确定相关负责人或团队。
默认触发条件:服务商为了避免处罚,必须满足的可测量的指标;比如重大事件的解决时间为分钟级别响应
除了上述技术性的描述外,作为条款性文件,SLA 还应包含例外情况、奖惩措施及计算方法。
SLA计算方法
互联网公司技术部门每年都会设定SLA目标,对负责的业务作出稳定性承诺。我们今年一定要做到3个9、4个9,即99.9%、99.99%等,5个9相当难,待过的公司还没看到过。
这么多9代表什么意思呢?
首先,SLA的概念,对互联网公司来说就是网站服务可用性的一个保证。9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然。
这么多9是怎么计算的呢?
全年拿365天做计算吧,看看几个9要停机多久时间做能才能达到!
1年 = 365天 = 8760小时
99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时
99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟
99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟
从以上看来,全年停机5.26分钟才能做到99.999%,即5个9。依此类推,要达到6个9及更多9,可说是非常难了。
计算公式:可用性 = 可用时长 / (可用时长 + 不可用时长)
可用性 | 全年故障时长 |
99.9% | 8.76小时 - 525.6分钟 |
99.95% | 4.38小时 - 262.8分钟 |
99.96% | 3.504小时- 210.24分钟 |
99.97% | 2.628小时 - 157.68分钟 |
99.98% | 1.752小时 - 105.12分钟 |
99.99% | 0.876小时 - 52.6分钟 |
99.999% | 0.0876小时 - 5.26分钟 |
99.9999% | 0.00876小时 - 0.5256分钟 |
参考: