大数据集群服务 CDH 启停顺序

最近刚迁完机房，忙着继续迁大数据hadoop集群，这个集群线上跑了五年多了，中途换了两三波人，迁移着实有些费尽，为了成本和后续更好的维护，迁移也是木得办法的事，中间踩了N多坑，遇到了不少问题，好在已经接近尾声啦。

线上老集群用的是 CDH 5.14，停机下线也得悠着点，停了起不起得来都是未知数，目前现状是没人敢重启的。下周下线，这周先把老集群的整体资源和停机方案整了下。

首先，停止所有的应用程序和作业，确保集群中没有正在运行的任务。

Stop:

1.cm web

a.stop Cluster1 停止Cluster集群服务

b.stop Cloudera Management Service 停止CM服务

2.stop agent and server 在各个节点上停止Agent，再在主节点上停止Server

3.stop cm database

启动顺序正好相反：

Start:

1.start cm database

2.start server and agent 等待server起来再启动agent

3.cm web

a.start Cluster1

b.start Cloudera Management Service

如果web界面出现，host等等图表信息读取错误，那么再手工重启 Cluster1 或者 Cloudera Management Service

NN扩容思路：

1.停止standby节点NN1上服务 → 关机 → 扩容相关资源 → 启动机器 → 重启服务 → 确认standy节点各种服务同步状态是否正常（等待一段时间）

2.将active节点NN2手动切换到standby状态（NN1会切换到active状态) → 停止NN2上服务 → 关机 → 扩容相关资源 → 启动机器 → 重启服务 → 确认节点各种服务同步状态是是否正常

参考：

CHEGVA