none
Восстановление кластерных ресурсов после кратковременного отключения сетевого интерфейса RRS feed

  • Вопрос

  • Добрый день

    На моих кластерах из-за специфики объектов достаточно часто происходит кратковременное отключение сети на всех нодах (на клиентском подключении, порядка минуты, второй, чисто кластерный линк остается рабочим)

    начиная с 2000 сервера и до сих пор это вызывает отвал всех ресурсов и не поднятие их  автоматом без ручного вмешательства

    недавно происследовал этот вопрос на 2012-ом - ситуация примерно такая же, кроме одного нововведения. Появилась возможность повторного перезапуска отказавшего ресурса, но не раньше, чем через 15 минут. Хотелось бы меньше.

    Вопросы:

    - почему до сих пор отсутствует автоматическое восстановление кластера сразу после восстановления сети?

    - есть ли какие-нибудь еще способы борьбы за живучесть в моей ситуации?

    6 августа 2015 г. 6:57

Все ответы

  • Меня так же интересует эта проблема, т.к при имитации аварии на 1-ой из 2-х нод кластера (отключение всех 2-х сетевых адаптеров) при восстановлении подключения до истечения 120 сек (замечено при эксперементах), сбойная нода нормально подключается к кластерной группе.

    Если же подключение отсутствовало более 120 сек., то подключение к кластерной группе автоматом не происходит. Приходится делать рестарт службы Cluser service.

    Вот не большой мануалу

     1- Restart the server that hold the cluster right now.
    2- Open Failover Cluster Manager.
    3- Navigate to Cluster Core Resource.
    4- Right click on the cluster network name and take it offline.
    5- Right click on the cluster name and navigate to more actions, choose repair
    6- Right click on the cluster network name and check DNS: OK

    Что это, By-design Win2k12 R2 или все таки не нормальное поведение кластерной роли!?



    • Изменено zhuk09 6 августа 2015 г. 13:04
    6 августа 2015 г. 12:56
  • недавно происследовал этот вопрос на 2012-ом - ситуация примерно такая же, кроме одного нововведения. Появилась возможность повторного перезапуска отказавшего ресурса, но не раньше, чем через 15 минут. Хотелось бы меньше.

    Какими настройками Вам удалось это достичь??? Или так работает по дефолту?!

    6 августа 2015 г. 13:06
  • вы теряете все ноды единовременно? какая кворумная модель используется?

    The opinion expressed by me is not an official position of Microsoft

    6 августа 2015 г. 13:15
    Модератор
  • вы теряете все ноды единовременно? какая кворумная модель используется?

    The opinion expressed by me is not an official position of Microsoft

    Если это адресовалось мне, то

    1. Нет, я теряю ту ноду, которая была с отключенными сетевыми интерфейсами боле 120 сек. Fail over отрабатывает нормально. Потом надо ручками восстанавливать участие нды в кластерной группе. Описывал выше как это делаю

    2. то Disk Witness in Quorum. Большинство узлов со свидетелем (диск или файловый ресурс) -Node and Disk Majority


    • Изменено zhuk09 6 августа 2015 г. 13:40
    6 августа 2015 г. 13:25
  • недавно происследовал этот вопрос на 2012-ом - ситуация примерно такая же, кроме одного нововведения. Появилась возможность повторного перезапуска отказавшего ресурса, но не раньше, чем через 15 минут. Хотелось бы меньше.

    Какими настройками Вам удалось это достичь??? Или так работает по дефолту?!

    ставлю тут 15 мин


    6 августа 2015 г. 19:48
  • вы теряете все ноды единовременно? какая кворумная модель используется?

    The opinion expressed by me is not an official position of Microsoft

    да, внешняя сеть пропадает на всех нодах, после чего ресурс айпи адрес уходит в отказ после рестартов и файловера 

    модель диск витнес & ноде мажорите



    • Изменено unnever 6 августа 2015 г. 19:51
    6 августа 2015 г. 19:50
  • недавно происследовал этот вопрос на 2012-ом - ситуация примерно такая же, кроме одного нововведения. Появилась возможность повторного перезапуска отказавшего ресурса, но не раньше, чем через 15 минут. Хотелось бы меньше.

    Какими настройками Вам удалось это достичь??? Или так работает по дефолту?!

    ставлю тут 15 мин


    А Вас не смущает то, что по первым настройкам, период рестарта ресурса на текущей ноде и так составляет 15 минут. 

    Т.е по факту получается что, в первые 15 минут был выполнен 1 рестарт ресурса на текущей ноде, далее если рестарт не удачный - переключение всех ресурсов в этой роли.

    Далее не понятно, если выставим период 15 минут как Вы говорите, то следующие попытки рестарта должны начаться с 16 по 30 минуту. Т.е это не 15 минут как Вы говорите.

    Так я понял это или нет?!

    7 августа 2015 г. 9:27
  • А Вас не смущает то, что по первым настройкам, период рестарта ресурса на текущей ноде и так составляет 15 минут.

    Это не период рестарта ресурса, а интервал, в течении которого суммируются отказы, и при превышении указанного порога (1) происходит переключение на другую ноду

    По настройкам на скриншоте - после одного отказа кластер попробует сразу же перезапустить ресурс, в случае неудачи сразу перебросит его на другую ноду, и в случае неудачи запуска ресурса там - оставит ресурс в состоянии ОТКАЗ.

    И уже согласно выделенной настройке - попробует его повторно поднять на ноде-владельце через час.
    7 августа 2015 г. 9:55
  • А Вас не смущает то, что по первым настройкам, период рестарта ресурса на текущей ноде и так составляет 15 минут.

    Это не период рестарта ресурса, а интервал, в течении которого суммируются отказы, и при превышении указанного порога (1) происходит переключение на другую ноду

    По настройкам на скриншоте - после одного отказа кластер попробует сразу же перезапустить ресурс, в случае неудачи сразу перебросит его на другую ноду, и в случае неудачи запуска ресурса там - оставит ресурс в состоянии ОТКАЗ.

    И уже согласно выделенной настройке - попробует его повторно поднять на ноде-владельце через час.

    Данную настройку надо проводить на всех ресурсах кластера (Cluster Core Resource)

    1. Name

    2. IP-address

    или только как указано у Вас на IP-address???


    • Изменено zhuk09 7 августа 2015 г. 10:53
    7 августа 2015 г. 10:52
  • для борьбы с пропаданием сети достаточно ip адреса
    7 августа 2015 г. 11:37
  • для борьбы с пропаданием сети достаточно ip адреса

    Ну тогда я не знаю что я делаю не так, но восстановление кластерного ресурса после 120 сек. (именно 120 сек. отсутствия связи) не происходит.

    Если отсутствие связи с узлом кластера было менее 120 сек., то восстановление происходит нормально , без перезапуска Cluster service.

    Если же отсутствие связи с узлом кластера было больше 120 сек., то в этом момент к узлу кластера подтягиваются все диски, которые были переданы на рабочую ноду. В Управление кластером (когда заходишь в нее после 120 сек., до этого времени в управлении кластером ни чего нет) видно что данная нода видит себя как активную, а активную ноду как не активную. Роль кластера MS SQL server при этом в состоянии Failed.

    Помогает только перезагрузка ноды кластера на которой отключались сетевые интерфейсы или перезапуск службы Cluster service, и при чем не с первого раза.

    7 августа 2015 г. 11:52

  • - почему до сих пор отсутствует автоматическое восстановление кластера сразу после восстановления сети?

    - есть ли какие-нибудь еще способы борьбы за живучесть в моей ситуации?

    Т.е как я понимаю у Вас так же не происходит автоматическое восстановление кластера после восстановления сети на сбойной ноде?!
    7 августа 2015 г. 13:17
  • Т.е как я понимаю у Вас так же не происходит автоматическое восстановление кластера после восстановления сети на сбойной ноде?!

    нет, у меня проблема только с кластерным ресурсом ip-address, который настройками раньше чем через 15 минут автоматом не поднять

    сейчас попробовал смоделировать вашу ситуацию - отключил оба сетевых соединения на пассивной ноде (кластер онли и кластер&клиент) и оба включил через 4 минуты.

    нода мгновенно поднялась и встала обратно в резерв (у обоих статус UP)
    7 августа 2015 г. 14:32

  • нет, у меня проблема только с кластерным ресурсом ip-address, который настройками раньше чем через 15 минут автоматом не поднять


    А если попробовать поменять параметр Period for restarts на 5 минут, а параметр If all the restarts attempts на 7 минут. Поднятие автоматом произойдет через 7 минут?!
    7 августа 2015 г. 15:01


  • сейчас попробовал смоделировать вашу ситуацию - отключил оба сетевых соединения на пассивной ноде (кластер онли и кластер&клиент) и оба включил через 4 минуты.

    нода мгновенно поднялась и встала обратно в резерв (у обоих статус UP)

    Хз, что у меня не так. Вроде бы все по дефолту настроено.

    Единственно что, у меня гостевая кластерезация, т.е ноды кластера ВМ в инфраструктуре Vsphere 5.1. Может для ноды кластера как-то не явно происходит восстановление сетевого интерфейса?!

    И мою ситуацию смоделировали не правильно, я отключаю сетевые интерфейсы на активной ноде! А Вы отключили на пассивной.

    • Изменено zhuk09 7 августа 2015 г. 17:36
    7 августа 2015 г. 15:06
  • И мою ситуацию смоделировали не правильно, я отключаю сетевые интерфейсы на активной ноде! А Вы отключили на пассивной.

    Попробовал отключать все интерфейсы на активной ноде на 5 минут

    Все ресурсы сразу же перебрасываются на вторую ноду

    Максимум через минуту после обратного включения сети первая нода снова становится рабочей

    Кластер у меня развернут на esxi 5.0u3

    10 августа 2015 г. 14:44

  • Максимум через минуту после обратного включения сети первая нода снова становится рабочей

    Кластер у меня развернут на esxi 5.0u3

    Добрый день!

    На сколько по времени отключали ноду?

    Вообщем провели эксперименты, в конфигурации FileShare Witness происходит все так, как Вы говорите. Т.е после Fale over, сбойная нода нормально подключается к кластерной группе.

    Если конфигурация Disk Witness, то  все зависит от того, какой из узлов кластера является владельцем данного кластерного ресурса.

    Есть конечно у меня подозрения на то, что этот диск свидетель я повесил на тот же контроллер что и диски, которые являются ресурсом кластера  MS SQL.

    На данный момент создал диск свидетель размером 1024 Мб, и повесил его на отдельный контроллер LSI Logic SAS. До этого был Paravirtual!

    А какой тип контроллера выбран у Вас для Disk Witness ??? 

    11 августа 2015 г. 8:01
  • у вас диск свидетель на обеих нодах доступен, или локально висит?


    The opinion expressed by me is not an official position of Microsoft


    11 августа 2015 г. 8:19
    Модератор
  • у вас диск свидетель на обеих нодах доступен, или локально висит?


    The opinion expressed by me is not an official position of Microsoft


    Диск свидетель добавлен как диск кластера WSFC. И уже после этого сконфигурирован как witness disk.

    Если Вы спрашиваете о том, доступен ли диск поочередно на каждой ноде - ДА. На одной ноде - Offline, на другой ноде - online. 

    Если одновременно - НЕТ.

    11 августа 2015 г. 8:38
  • А какой тип контроллера выбран у Вас для Disk Witness ??? 

    - 5 минут

    - под кворум 2-ой диск на скриншоте




    • Изменено unnever 11 августа 2015 г. 11:46
    11 августа 2015 г. 10:58