none
怀疑为windows2008r2故障转移集群BUG,专业请进 RRS feed

  • 问题

  • 问题环境:

    两台IBM 3850X6机器

    每台机器各安装windows2008R2X64企业中文版 正版KEY激活

    主机IP:13.1 心跳IP:55.1

    备机IP:13.2 心跳IP:55.2

    cluster ip:13.3

    集群:系统自带的故障转移集群

    问题过程及概述:(有些啰嗦,但是恳请看完)

    该集群正常部署 主备域 主DNS,数据库,及应用正常。

    后期业务变更,被新来的业务人员部署测试库占用并删除了cluster ip;

    再巡检过程中发现该问题后,采取补救措施,添加回cluster ip

    添加完毕后集群报错正常,主备集群一切正常;当时业务在主上工作,遂采取一个暴力测试手段,把备机系统重启。

    备机重启完毕,然后加入集群正常,但是过了不到几分钟。出现问题。集群把备机踢出集群。

    问题发生后,排查过所有问题,运行过集群验证,验证报告表示共享存储出现问题,网络出现问题;

    经过各种测试,IP PING通。主机名PING通。共享磁盘两台节点都能认到。等等。配置都未做任何改变。网络无任何问题。

    然后采取更暴力的测试手段,把主机重启,主机重启过程中,备机奇迹般夺取了仲裁盘,并且业务正常在备机运行。

    此问题在当时认为典型的IP心跳问题。但是测试所有IP互通无问题。

    主机正常启动系统,但是被踢出集群。再测试,备重启,主夺权,主正常,备启动后被踢出集群。

    最后,维护时间结束,主正常工作,备一直故障状态,此问题搁浅。

    在后续运行过程中,通过监控工具发现,备机居然自动变更IP。13.2自动变更为其他IP。

    此问题通过百度谷歌未找到相应解决方案。请求论坛内前辈给予指点。

    由于无法上传文件,想要更详细信息,集群验证报告的请留下邮箱,我把所有信息打包发送。




    2017年1月9日 6:51