标签：SRE

运维工作核心关注点与运维军规

2023年6月2日 by anzhihe·0评论 · 2,601 人阅读 · 最后更新: 2023/11/22

运维核心关注点

1.稳定、成本、效率

2.流程、标准、规范

3.监控、报警、预案

4.文档、工具、平台

运维五条军规

1、提前通报要记得

2、变更步骤要完备

3、分级发布要遵守

4、高峰窗口要避免

5、服务检查要执行

...

云原生背景运维转型之 SRE 实践

2022年1月19日 by anzhihe·0评论 · 4,117 人阅读 · 最后更新: 2023/11/22

作者：yorkoliu，腾讯 IEG 业务运维专家

一、前言

上一篇文章《云原生背景下的运维价值思考与实践(上)》重点介绍了云原生背景下运维转型的思考，围绕着整个 DevOps 交付链，贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段，通过我们的构建服务稳定性保障实践，利用 SRE 的思想与方法，不断去冲刺稳定性的终极目标： “提升 MTBF（平均故障时间间隔）、降低 MTT...

云原生背景下的运维价值思考与实践

2022年1月19日 by anzhihe·0评论 · 3,360 人阅读 · 最后更新: 2023/11/22

作者：刘天斯，腾讯游戏高级工程师

前言

随着公司自研上云战略如火如荼地进行，IEG-增值服务部作为较早一批响应的团队，截止目前自研上云已完成1/3的流量切换，日PV超百亿。切云的服务大量采用了云原生的应用与技术架构，作为公司第一批面临云原生环境的业务运维，深切感受到云原生给运维工作带来的机遇与挑战，运维模式的转型已经迫在眉睫，此篇文章最大的价值在于将我们的转型思路、方法与实践，提供给后面更多面临同样挑...

围绕故障管理谈SRE体系建设

2022年1月7日 by anzhihe·0评论 · 9,399 人阅读 · 最后更新: 2023/11/22

本文根据石鹏老师在〖deeplus直播第227期〗线上分享演讲内容整理而成。

我们都知道SRE是一个体系化的工程，SRE体系的建设涉及的内容繁多，比如日常需求处理、容量规划、资源部署、监控告警、预案梳理、灾备演练、OnCall值班、应急事件响应、故障处理、运维自动化建设等等；其中「故障」可以算作是这众多事项的一个交汇点。

故障处理是一个特别符合“台上一分钟，台下...

SRE实践

2021年11月17日 by anzhihe·0评论 · 4,105 人阅读 · 最后更新: 2023/11/22

目录(SRE实践) 什么是SRE SRE体系 SRE的目的提升稳定性系统可用性设定稳定性的衡量标准...Continue reading >>