问题环境:
两台IBM 3850X6机器
每台机器各安装windows2008R2X64企业中文版 正版KEY激活
主机IP:13.1 心跳IP:55.1
备机IP:13.2 心跳IP:55.2
cluster ip:13.3
集群:系统自带的故障转移集群
问题过程及概述:(有些啰嗦,但是恳请看完)
该集群正常部署 主备域 主DNS,数据库,及应用正常。
后期业务变更,被新来的业务人员部署测试库占用并删除了cluster ip;
再巡检过程中发现该问题后,采取补救措施,添加回cluster ip
添加完毕后集群报错正常,主备集群一切正常;当时业务在主上工作,遂采取一个暴力测试手段,把备机系统重启。
备机重启完毕,然后加入集群正常,但是过了不到几分钟。出现问题。集群把备机踢出集群。
问题发生后,排查过所有问题,运行过集群验证,验证报告表示共享存储出现问题,网络出现问题;
经过各种测试,IP PING通。主机名PING通。共享磁盘两台节点都能认到。等等。配置都未做任何改变。网络无任何问题。
然后采取更暴力的测试手段,把主机重启,主机重启过程中,备机奇迹般夺取了仲裁盘,并且业务正常在备机运行。
此问题在当时认为典型的IP心跳问题。但是测试所有IP互通无问题。
主机正常启动系统,但是被踢出集群。再测试,备重启,主夺权,主正常,备启动后被踢出集群。
最后,维护时间结束,主正常工作,备一直故障状态,此问题搁浅。
在后续运行过程中,通过监控工具发现,备机居然自动变更IP。13.2自动变更为其他IP。
此问题通过百度谷歌未找到相应解决方案。请求论坛内前辈给予指点。
由于无法上传文件,想要更详细信息,集群验证报告的请留下邮箱,我把所有信息打包发送。