检查服务器节点是否正在提供服务
单节点退出服务
非硬件故障:只需重新启动数据库服务进程即可 (确保原有数据库服务进程已退出)。
硬件故障:可直接关闭计算机,待硬件问题修复以后,重新启动机器,再启动数据库服务进程即可。
双节点退出服务
具体操作方式同单节点退出服务,详细信息请参见单个节点退出服务章节。
多节点退出服务
当集群节点同时死亡数量大于等于3台时,说明整个硬件集群已经不再可靠,在平常的硬件维护中,是要绝对避免的。当死亡集群节点在整个集群中的比例越高,数据存储不完整的风险也就越大,数据库存储的多副本安全性只是一个相对的概念,大面积的硬件同时退出集群服务,是无法做到数据的绝对安全的。为降低硬件问题导致数据丢失的风险,则用户需要考虑投入更多数据库节点,或者搭建数据备份中心。
当出现大面积集群节点同时退出集群服务时,造成的数据丢失将无法挽回。故考虑硬件的可靠使用寿命,在达到硬件的可靠使用周期以前,用户应当及时调整硬件环境,分批次的替换老化的硬件产品,从而维护整个集群硬件环境的高可用性。
主MASTER节点退出服务
目前,数据库集群均配置两个MASTER管理节点,单个主MASTER集群节点的退出不会造成集群的不可用。在运维过程中,需要至少保证一台主MASTER节点的存活,主MASTER机故障时,需要及时修复,或者配置新的主MASTER机。
修复主MASTER集群节点: 此种情况,仅需修复集群故障,不需修改集群配置,问题修复后,重新启动故障集群节点的数据库服务进程即可。
重新配置新的主MASTER集群节点: 目前,数据库还不支持选取主 MASTER 节点以外的已使用节点服务器作为新的主 MASTER 替换节点,当原有的主 MASTER 节点完全不可用时,需要提供一台新的服务器接替原有的主 MASTER 节点任务。
说明:
新的主MASTER节点可以使用跟原主MASTER节点一样的集群配置,包括IP地址。新的主MASTER节点使用不同的IP地址时,需要停止数据库集群服务,修改cluster.ini配置文件 (每个集群节点) 后,再启动服务。
节点服务器操作系统损坏
操作系统损坏时,当前集群服务节点将失效,此时,此台集群节点的环境需要重新搭建,重新安装Linux操作系统。
注意项:
- 制作RAID 0分组,并按照ext4格式化分组。
- 安装FTP、SSH、SNMP服务。
- 操作系统自动挂载RAID分组。
节点服务器FTP、SNMP协议未安装
FTP、SNMP、SSH 协议在安装红帽操作系统时,已默认安装,如使用过程中出现异常,请先确认是否启动此三项服务,若协议依赖的软件包损坏,请及时修复,修复后启动相应服务。