一、ONCALL概念

1. 什么是ONCALL?

ONCALL是一个术语,通常用于描述某人或某些人在非工作时间,尤其是在紧急情况下,需要保持7x24小时待命已解决服务稳定性相关问题。

在国内ONCALL一般是指技术值班,处理告警比如事件单、问题单和故障单,保障系统7x24小时不间断运行。

2. 为什么需要ONCALL?

是否需要ONCALL这是与公司业务特性决定的,如果你们老板说服务的SLA不重要,那你们也...

Continue reading >>

一、背景

往往在故障复盘的时候故障怎么定级、定责我们没有抓手容易扯皮推诿,这篇文章从什么是故障、故障分类分级、业务重要级别结合业界互联网公司经验来帮你在企业中怎么做故障定级和定责,希望对你所帮助。

互联网产品提供7*24小时服务,而因配置变更、程序Bug等原因导致服务不可用是影响服务持续运行的重要原因,为了提高各业务产品的稳定性,规范各业务线的变更、故障响应,对故障"分级和定责"是...

Continue reading >>

作者:yorkoliu,腾讯 IEG 业务运维专家

一、前言

上一篇文章《云原生背景下的运维价值思考与实践(上)》重点介绍了云原生背景下运维转型的思考,围绕着整个 DevOps 交付链,贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段,通过我们的构建服务稳定性保障实践,利用 SRE 的思想与方法,不断去冲刺稳定性的终极目标: “提升 MTBF(平均故障时间间隔)、降低 MTT...

Continue reading >>

作者:刘天斯,腾讯游戏高级工程师

前言

随着公司自研上云战略如火如荼地进行,IEG-增值服务部作为较早一批响应的团队,截止目前自研上云已完成1/3的流量切换,日PV超百亿。切云的服务大量采用了云原生的应用与技术架构,作为公司第一批面临云原生环境的业务运维,深切感受到云原生给运维工作带来的机遇与挑战,运维模式的转型已经迫在眉睫,此篇文章最大的价值在于将我们的转型思路、方法与实践,提供给后面更多面临同样挑...

Continue reading >>