问题:
集群开启 HA(仲裁方式为 IPMI),当 HA 主机与其他 HA 主机之间所有心跳网络都不通了,造成网络分区时,IPMI 会通过 fence 设备将这台主机重启,期间有的主机触发了重启,有的触发了关机。
原因:
- 首先主机里面查看 corosync 日志(/var/log/corosync.log),确认 HA 当时发出的是否为 reboot指令(预期结果为 reboot),如:
Nov 24 14:50:44 [23156] cnware-211 stonith-ng:notice: log_operation: Operation 'reboot'[20074] (call 7 from crmd.23160) for host 'cnware-208' with device 'ipmi_cnware-208' returned: 0(OK)
- 再登录 IPMI 排查下,截图中当前原因为 ipmi 的电源控制不健全,存在概率性收到重启命令后,先关机成功,但开机失败的现象。