简介: 稳定性目前不再局限于大促时的保障和平时的稳定性轮值,越来越体系化,本文基于作者在业务团队工作过程中的沉淀,以及在盒马2年SRE的实战经验,从稳定性心态、监控体系、故障应急体系、资源体系、大促保障机制、日常保障机制等几个层面,就如何做好SRE的工作进行了分享。 


前言


2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来...Continue reading >>

SLA简介

服务级别协议(英语:service-level agreement,缩写SLA)也称服务等级协议服务水平协议,是服务提供商与客户之间定义的正式承诺。服务提供商与受服务用户之间具体达成了承诺的服务指标——质量、可用性,责任。SLA最常见的组成部分是以合同约定向客户提供的服务。例如,互联网服务供应商(ISP)和电信公司通常在与客户的合同条款内包含简单定义的服务级别协议。在此事例下,SLA通...

Continue reading >>

1. 整体架构

  • 操作系统:CentOS7 / Ubuntu16.04

  • 技术架构:Git + Gitolite + Jenkins + Samba + Docker

  • 架构概述:

    1. 部署轻量级git仓库管理系统gitolite

    2. 使用docker部署jenkins和samba容器服务

    3. jenkins集成samba和gitolite,实现文件管理及文档格式转换

运维文档系统架构图.png


2. 技术清单

2.1 Markdown使用

Continue reading >>

大公司运维经验:

Ø    减少运维对象

Ø 制定标准化、统一化、流程化

Ø 利用平台集成能力统一管理

Ø 从底层出发解决问题

Ø 做好故障演练、恢复流程