none
Неожиданная перезагрузка остальных узлов кластера R2 при перезагрузке одного. RRS feed

  • Общие обсуждения

  • Спрошу и здесь

    Есть кластер hyper-v R2 из 3х нод, включен CSV. Каждый раз, когда я перегружаю одну из нод (предварительно убрав оттуда VMs, передав дисковые ресурсы и остановив кластер сервис) происходит полный экстерминатус - перезагрузка одной или обоих оставшихся нод, со смертью всего живого. В логах в это время появляются две записи, например на blade3 (в момент перезагрузки blade2 и крэша blade1, сами ноды могут быть разные): 

    Cluster node 'blade1' was removed from the active failover cluster membership. The Cluster service on this node may have stopped. This could also be due to the node having lost communication with other active nodes in the failover cluster.

     

    The Cluster service is shutting down because quorum was lost. This could be due to the loss of network connectivity between some or all nodes in the cluster, or a failover of the witness disk. 

    И все. Все остальные сообщения о невозможности старта VM. При этом на оставшейся ноде до загрузки остальных двух я не могу зайти в ClusterStorage (скорее всего потому-что кластер остановлен)

    Кластер проходит валидацию, кворум установлен в большинство, все обновления драйверов, биос, прошивок установлены. Загрузка с SAN, два shared диска, никаких специальных настроек на MSA2012 не делалось (да их и нет).

    Железо: 

    3xBl460g6 24Gb RAM / 2xXeon 5650

    HP Interconnect infrastructure: Flex10 Ethernet module, FC20 FC module.

    HP 16 port SAN switch (qlogic)

    MSA2012fc g2 1xRAID1 system, 2xRAID5 CSVs, HP certified 450Gb SAS disk drives.

    Буду очень благодарен, если кто что посоветует.

    4 января 2011 г. 4:22

Все ответы

  • А зачем делаете "и остановив кластер сервис"? Без этого действия как все проходит?


    Заходите в "гости" на http://kupchynetsky.wordpress.com/
    4 января 2011 г. 10:22
    Отвечающий
  • без этого точно также, разницы никакой. если просто отправить в перезагрузку вместе с VM, они как и положено сохраняются и перезапускаются на другом хосте, только это им не помогает - через 5-10 секунд после перезагрузки одной ноды, вторая выпадает в синий экран или самопроизвольно перезагружается, разваливается кластер, все мертвы.

    мне тут сказали что это может быть связано с интерконнетом, но когда я вывел один сервер и начал его перегружать проблема исчезла. т.е. я бы говорил о проблеме именно shared дисков в таком случае.

    эх, в esx было как-то все проще на порядок...

     

    4 января 2011 г. 10:58
  • а синий экран с каким кодом?

    сети на флекс-10 как нарезаны? как сети кластера и сеть виртуальных машин сделаны?


    Заходите в "гости" на http://kupchynetsky.wordpress.com/
    4 января 2011 г. 11:08
    Отвечающий
  • Код обычно F4, иногда 7A, причем он фиксируется в IML.  

    Сеть одна: EXTERNAL в режиме тунелирования VLAN, со сотороны коммутатора транк, LACP. На сервере сконфигурированы два адаптера, один работает как управляющий - live migration,RDP, взаимодействие кластера, второй  - Virtual Switch, сами vlans задаются в настройках конкретной машины. Машины мигрируются нормально.

    4 января 2011 г. 12:11
  • комутаторы ethernet какие и как настроены?

    В тех поддержку НР по поводу стоп ошибок не обращались?

    Почитайте статью НР - http://h71028.www7.hp.com/enterprise/downloads/4AA1-9257ENW.pdf

    Нарежьте Flex10 на сабинтерфейсы и выделите отдельные интерфейсы для сетей public, private(heartbeat), live migration, VM и проверьте поведение кластера после перенастройки сети.   


    Заходите в "гости" на http://kupchynetsky.wordpress.com/
    5 января 2011 г. 9:57
    Отвечающий
  • Здравствуйте, kvit Медали пользователяМедали пользователяМедали пользователяМедали пользователяМедали пользователя
     
    Ваша проблема сохраняется?

    Данный форум является бесплатным сервисом Microsoft с целью оказания посильной помощи пользователям и повышения уровня знаний о продуктах Microsoft. Информация, представленная на форуме, распространяется "как есть" без официальной ответственности компании Microsoft.
    10 января 2011 г. 7:31
    Модератор
  • Уважаемый пользователь!

    В вашей теме отсутствует активность в течение последних 5 дней. При отсутствии каких-либо действий в течение 2 последующих дней, тема будет переведена в разряд обсуждений. Вы можете возобновить дискуссию, просто оставив сообщение в данной теме.


    Данный форум является бесплатным сервисом Microsoft с целью оказания посильной помощи пользователям и повышения уровня знаний о продуктах Microsoft. Информация, представленная на форуме, распространяется "как есть" без официальной ответственности компании Microsoft.
    17 января 2011 г. 11:17
    Модератор