ITSS(Information Technology Service Standards,简称ITSS)是一套成体系和综合配套的信息技术服务标准库,全面规范了信息技术服务产品及其组成要素,用于指导实施标准化和可信赖的信息技术服务。

ITSS体系

ITSS的来源

ITSS是在工业和信息化部、国家标准化管理委员会的联合指导下,由国家信息技术服务标准工作组(...

Continue reading >>

对于 SRE 一词,想必大家已经不陌生了,满世界都在讲 SRE,但是 SRE 到底是个什么角色?负责哪些工作呢?今天来给大家解惑一下。

SRE 最早是由 Google 提出的概念,其大概的意思就是:以标准化、自动化、可扩展驱动维护,用软件开发解决运维难题。这个岗位面世的时候,其根本要解决的问题就是打破传统研发人员快速迭代而引发的业务不稳定性,用以保证业务维护侧重的服务质量以及稳定性之间的平衡。

不同司...

Continue reading >>

一、ONCALL概念

1. 什么是ONCALL?

ONCALL是一个术语,通常用于描述某人或某些人在非工作时间,尤其是在紧急情况下,需要保持7x24小时待命已解决服务稳定性相关问题。

在国内ONCALL一般是指技术值班,处理告警比如事件单、问题单和故障单,保障系统7x24小时不间断运行。

2. 为什么需要ONCALL?

是否需要ONCALL这是与公司业务特性决定的,如果你们老板说服务的SLA不重要,那你们也...

Continue reading >>

一、背景

往往在故障复盘的时候故障怎么定级、定责我们没有抓手容易扯皮推诿,这篇文章从什么是故障、故障分类分级、业务重要级别结合业界互联网公司经验来帮你在企业中怎么做故障定级和定责,希望对你所帮助。

互联网产品提供7*24小时服务,而因配置变更、程序Bug等原因导致服务不可用是影响服务持续运行的重要原因,为了提高各业务产品的稳定性,规范各业务线的变更、故障响应,对故障"分级和定责"是...

Continue reading >>