SRE运维体系

👉️URL: https://sre.google/resources/practices-and-processes/twenty-years-of-sre-lessons-learned/
✍️Authors:
Adrienne Walcer, Kavita Guliani, Mikel Ward, Sunny Hsiao, an...

技术ONCALL机制建设

2023年11月23日 by anzhihe·0评论 · 1,079 人阅读

一、ONCALL概念

1. 什么是ONCALL？

ONCALL是一个术语，通常用于描述某人或某些人在非工作时间，尤其是在紧急情况下，需要保持7x24小时待命已解决服务稳定性相关问题。

在国内ONCALL一般是指技术值班，处理告警比如事件单、问题单和故障单，保障系统7x24小时不间断运行。

2. 为什么需要ONCALL？

是否需要ONCALL这是与公司业务特性决定的，如果你们老板说服务的SLA不重要，那你们也...

故障定级和定责

2023年11月17日 by anzhihe·0评论 · 1,167 人阅读 · 最后更新: 2023/11/22

一、背景

往往在故障复盘的时候故障怎么定级、定责我们没有抓手容易扯皮推诿，这篇文章从什么是故障、故障分类分级、业务重要级别结合业界互联网公司经验来帮你在企业中怎么做故障定级和定责，希望对你所帮助。

互联网产品提供7*24小时服务，而因配置变更、程序Bug等原因导致服务不可用是影响服务持续运行的重要原因，为了提高各业务产品的稳定性，规范各业务线的变更、故障响应，对故障"分级和定责"是...

运维工作核心关注点与运维军规

2023年6月2日 by anzhihe·0评论 · 1,184 人阅读 · 最后更新: 2023/11/22

运维核心关注点

1.稳定、成本、效率

2.流程、标准、规范

3.监控、报警、预案

4.文档、工具、平台

运维五条军规

1、提前通报要记得

2、变更步骤要完备

3、分级发布要遵守

4、高峰窗口要避免

5、服务检查要执行

...

CHEGVA

让我们面对现实让我们忠于理想

分类：SRE运维体系

ITSS体系介绍及与运维系列标准的关系

ITSS体系

什么是 SRE？成为一名优秀的 SRE 需要具备什么能力？

Google SRE 二十年的经验教训

技术ONCALL机制建设

一、ONCALL概念

1. 什么是ONCALL？

2. 为什么需要ONCALL？

故障定级和定责

一、背景

运维工作核心关注点与运维军规