k8s集群中 ETCD 一般以 static pod方式部署在 master 0/1/2 节点上,路径一般为 /etc/kubernetes/manifests/etcd.yaml需要针对k8s集群中已经在运行的 ETCD 3 副本进行端口切换变更,从 2379 端口变更到 2378,2380 保持不变。

etcd.yaml示例:

apiVersion: v1
kind: P...
Continue reading >>

最近遇到一个客户k8s测试集群经常崩溃,最终定位是etcd磁盘IO性能不足,最终替换成ssd盘解决,记录一下排查过程。

集群是跑在客户的共享虚机上,磁盘是机械硬盘,问题现象如下:

  1. kube-system下涉及高可用的组件 kube-apiserver、kube-controller-manager、kube-scheduler 频繁重启,某些选主模式的组件、服务反复重启,频繁CrashLoopBack...

Continue reading >>

1、事务概念:
  一组sql语句操作单元,组内所有SQL语句完成一个业务,如果整组成功:意味着全部SQL都实现;如果其中任何一个失败,意味着整个操作都失败。失败,意味着整个过程都是没有意义的。应该是数据库回到操作前的初始状态。这种特性,就叫“事务”。
2、为什么要存在事务?
  1)失败后,可以回到开始位置
    2)没都成功之前,别的用户(进程,会话)是不能看到操作内的数据修改的
3、事务4...
Continue reading >>

之前写过一篇 Xtrabackup备份文件恢复 的文章,生产中Mysql备份基本都是使用percona的xtrabackup进行全量&增量备份,简单的话直接使用mysqldump即可。这个脚本比较好的是在一个脚本内实现了全量和增量备份,思路挺好,来源:https://www.modb.pro/db/42779,稍微改了下,加了邮件报警等功能,感谢原作者分享。

脚本内容:mysql_...

Continue reading >>

1、问题背景:

线上服务日志报数据库连接太多错误,登陆腾讯云控制台查看实例监控及诊断,存在大量update语句行锁等待,1分钟内MySQL连接数从100多突增到400多,CPU占用率从4%飙到100%被打爆,不到10分钟连接数(最大连接数1000)被打满。

最终原因定位为:业务update语句存在行锁等待,短时间内大量重试(频率10Hz)导致实例CPU打满,随后最大连接数打满。持续kill掉等待SQL...

Continue reading >>