服务水平协议(SLA)是一个外部服务供应商和客户之间的合同,或IT部门和它服务的内部业务部门之间的合同。协议文件包括服务供应商或IT部门将提供的服务,以及期望达到的性能标准。与SLA相关联的性能指标,服务水平,有时也被称为服务水平目标(SLO)。SLO通常用测量术语,描述各方设定的基准或目标,涉及供应商在给定时期内为客户提供的服务。例如,当作为呼叫中心的指标时,SLO可能是80%的来电能在一分钟内被服务代表接听。
SLA使客户和内部业务部门(在这里都统称为“客户”)能够衡量服务供应商或IT部门(统称为“服务供应商”)的性能,并确认它们根据合同提供的服务。SLA通常由IT服务领域建立,比如呼叫中心,数据中心或应用程序维护。客户为从服务供应商购买的每个服务创建SLA,每个都包括性能指标的一个子集。
虽然没有硬性规定,每个SLA中应该包含多少SLO,测量重要的指标,才是有意义的。
每个SLO与一个性能特点相符合,与整体服务的交付相关。一些SLOs的例子包括:系统的可用性,帮助台事件解决时间和应用程序响应时间。
SLA的八个组成部分
SLA通常包括以下部分:
1. 服务水平名称
2. 服务水平指标的定义
3. 测量计算(用于计算性能的数学公式)
4. 测量类型(基于部门或基于事件)
5. 测量源(用于监视或测量的工具)
6. 测量时期(性能测量的时间)
7. 默认触发条件(服务供应商为了避免服务水平处罚,必须满足的可测量的指标;比如高级别事件的解决时间为两小时)
8. 服务水平处罚(与性能指标相关的处罚金额,如果服务水平没有达到,客户有权获得的赔偿)
SLA方法论
SLA方法论是指SLA如何运行;如果服务供应商无法根据达成一致的指标执行、处罚的后果。上面列出的第八项SLA组成中,还定义了最大的处罚金额;例如,合同方法论可以指出,当性能发生故障时,不超过15%的月度费用将扣除。方法论的另一块描述了客户可以在各种服务性能指标中分配的点数,在指标中定义优先级。这允许客户在一个特定的SLA中,增加性能故障的比重或重要性。客户应该能随着时间的推移,改变点数,根据优先级的转变。
SLO的例子
以下是三个IT功能,以及相应的SLO例子。上面列出的SLA八个部分可以应用到例子中:
数据中心:应用可用性;虚拟实例配置;灾难恢复时间。(比如,必须在两小时内,恢复性能。)
帮助台:第一个电话解决率(比如,所有问题的60%都应该在第一次电话中解决);实时沟通响应时间(比如,80%的电话都应该在一分钟内应答);放弃率(比如,不超过3%的电话应该被致电者放弃)。
应用维护:回归误差率;补丁实施;应用可用性(比如,99.9%的正常运行时间)。
为最优结果设立SLO指标基准
除了了解如何建立和实施SLA外,客户需要确定合适的SLA基准,根据行业内的成功标准。这可能意味着在99.9%或99.999%的应用正常运行时间之间做出决定,或在20%的第一个电话解决率,或60%的第一个电话解决率之间决定。
在创建一个SLA时,建立一个SLA基准是一个关键步骤,因为没有它们,客户可能会向他们的服务供应商要求太多或太少。通常,如果没有事先外包过这一功能,客户没有他们现有的性能数据,或者,他们可能不满意目前外包的结果, 如果他们使用低于标准的SLA性能指标。最满意供应商性能的那些客户,是那些理解市场能够提供何种SLA性能的客户。