最近刚迁完机房,忙着继续迁大数据hadoop集群,这个集群线上跑了五年多了,中途换了两三波人,迁移着实有些费尽,为了成本和后续更好的维护,迁移也是木得办法的事,中间踩了N多坑,遇到了不少问题,好在已经接近尾声啦。
线上老集群用的是 CDH 5.14,停机下线也得悠着点,停了起不起得来都是未知数,目前现状是没人敢重启的。下周下线,这周先把老集群的整体资源和停机方案整了下。
CDH启停顺序:
首先,停止所有的应用程序和作业,确保集群中没有正在运行的任务。
Stop:
1.cm web
a.stop Cluster1 停止Cluster集群服务
b.stop Cloudera Management Service 停止CM服务
2.stop agent and server 在各个节点上停止Agent,再在主节点上停止Server
3.stop cm database
启动顺序正好相反:
2.start server and agent 等待server起来再启动agent
a.start Cluster1
如果web界面出现,host等等图表信息读取错误,那么再手工重启 Cluster1 或者 Cloudera Management Service
NN扩容思路:
2.将active节点NN2手动切换到standby状态(NN1会切换到active状态) → 停止NN2上服务 → 关机 → 扩容相关资源 → 启动机器 → 重启服务 → 确认节点各种服务同步状态是是否正常
参考: