或多或少我们都会经历线上的故障。在我的职业生涯中,就经历过很多的线上故障。老实说,线上故障是我们技术人员成长中必须要经历的事。从故障中我们可以吸取到很多教训,能让我们学到很多书本上学不到的知识。坑踩多了,我们会变得越来越有经验,也就成为老司机了。

不过,我看到很多公司处理线上故障的方式并不科学,而且存在很多问题,所以,想写文章来分享一些我的经验。这些经验主要来自亚马逊和阿里这两家互联网公司,以及我个...

Continue reading >>

运维服务能力成熟度模型构成

本模型中各成熟度等级由特征和关键指标构成,其结构如图2所示。每个成熟度等级规定了运维服务组织在能力管理、人员、过程、技术源方面的要求。

依据标准GB/T 28827.1、GB/T 28827.2、GB/T 28827.3和《信息技术服务质量评价指标体系》,并结合每个成熟度等级的特征和关键指标,对每个成熟度等级规定了具体要求。

1725698803739701.png

运维服务能力成熟度等级

1.基本级

1.1 定义&...

Continue reading >>

ITSS(Information Technology Service Standards,简称ITSS)是一套成体系和综合配套的信息技术服务标准库,全面规范了信息技术服务产品及其组成要素,用于指导实施标准化和可信赖的信息技术服务。

ITSS体系

ITSS的来源

ITSS是在工业和信息化部、国家标准化管理委员会的联合指导下,由国家信息技术服务标准工作组(...

Continue reading >>

对于 SRE 一词,想必大家已经不陌生了,满世界都在讲 SRE,但是 SRE 到底是个什么角色?负责哪些工作呢?今天来给大家解惑一下。

SRE 最早是由 Google 提出的概念,其大概的意思就是:以标准化、自动化、可扩展驱动维护,用软件开发解决运维难题。这个岗位面世的时候,其根本要解决的问题就是打破传统研发人员快速迭代而引发的业务不稳定性,用以保证业务维护侧重的服务质量以及稳定性之间的平衡。

不同司...

Continue reading >>

一、ONCALL概念

1. 什么是ONCALL?

ONCALL是一个术语,通常用于描述某人或某些人在非工作时间,尤其是在紧急情况下,需要保持7x24小时待命已解决服务稳定性相关问题。

在国内ONCALL一般是指技术值班,处理告警比如事件单、问题单和故障单,保障系统7x24小时不间断运行。

2. 为什么需要ONCALL?

是否需要ONCALL这是与公司业务特性决定的,如果你们老板说服务的SLA不重要,那你们也...

Continue reading >>