检查服务器是否有损坏的硬件设备
网卡损坏
服务器外网网卡损坏不会影响整个数据库集群服务,但是会导致外网访问相应节点服务器的网络通道不通;服务器内网网卡损坏时,当前集群服务节点将退出服务集群 (单个内网网卡情况下);多个服务器内网网卡时,只要还有一个网卡可用,当前节点的数据库集群也将正常运行。
修复受损的网卡时,需要关闭相应的节点服务器,执行以下步骤:
- 直接关掉网卡受损节点服务器或使用KILL命令杀掉当前节点的服务进程。
- 关闭当前服务器节点的电源。
- 待修复受损网卡后,重新启动此台节点服务器。
- 加入当前集群节点的服务进程。
重新启动服务器数据库服务进程前,请确认以下信息:
- 当前服务器节点的防火墙处于关闭状态。
- 确认当前服务器节点的时钟同步是有效的、且同时钟同步服务器的时间误差是正常的。
磁盘损坏
目前,数据库为了充分利用磁盘的读写性能 (单盘 I/O 性能不佳,将会严重拖慢系统性能),磁盘的阵列分组可采用 RAID 0 进行。RAID 0 磁盘分组的缺点是:一旦有其中一块磁盘故障,将导致整个 RAID 组的失效。
因数据库的存储本身存在冗余备份,故在磁盘故障时,执行以下步骤:
- KILL掉此台集群节点上的数据库服务进程(xugu_linux_x64)或直接关闭电源。
- 将损坏的磁盘拔出,并安装新的磁盘。
- 进入硬件RAID组配置工具,删掉原有故障的RAID分组,并重新制作RAID组。
- 重启故障节点服务器,设置新的磁盘阵列为操作系统自动挂载。
- 重新启动当前节点服务器数据库服务进程(-service 方式)。
重新启动服务器数据库服务进程前,请确认以下信息:
- 当前服务器节点的防火墙处于关闭状态,或节点通讯端口设置为受信。
- 确认当前服务器节点的时钟同步是有效的、且同时钟同步服务器的时间误差是正常的。