none
Failover, interconnect и тест деградации внешнего сетевого подключения RRS feed

  • Вопрос

  • Стандартный failover кластер из двух узлов на windows server 2008 R2. Интерконнект присутствует.

    ВМ запускается на втором узле, после чего я отрубаю сетевой порт этого нода на коммутаторе и наблюдаю странную картину...

    http://www.fotogang.ru/?v=bug1.jpg 

    Внешняя Cluster Network уходит в состояние Partitioned, а сетевые соединения на обоих узлах становятся Unreachable. ВМ естественно при таких обстоятельствах никуда не переходит и продолжает крутится на втором узле. Сам первый узел продолжает быть доступным и работает.

    Валидация кластера не выявила каких либо ошибок.

    Если убрать интерконнект - все без проблем... Что-то даже не пойму куда копать...

Ответы

  • Закончилось решение моего вопроса. Вот ответ специалиста тех. поддержки MS:

    Is the private network still online?

    If yes – then this is by design – no failover occur because the nodes communicate then via the private network.

    The failover only occur if the public and private network is down!

     

    Т.е. никаких мечтаний по поводу перетекания виртуальных машин в случае выхода из строя каких-то компонент узла при его доступности через интерконнект в этой технологии не осуществленно.

    Вообщем-то оно и логично, ведь у группы сервисов виртуальных машин нет никакой зависимости ни от ip адреса ни от имени, иначе если бы они были, то при пропадании внешнего соединения ресурс бы помечался как failed и осуществлялся перезапуск, т.е. холодный рестарт. Зависимость при желании можно сделать вручную.

    В любом случае, первоначальная проблема с состоянием Partitioned кластерной сети,была решена хотфиксом http://support.microsoft.com/kb/978001


    17 июня 2010 г. 9:16

Все ответы

  • Статья о двухузловом кластере Windows Server 2000.

    Про изолирование трафика, принципы кластерых сетей.

    Модератор
  • Денис, я рад, что вы пытаетесь всячески помочь, но я знаком с принципами кластерных сетей и создал за свою жизнь не один кластер на win2003.

    Кластер виртуальных машин на 2008 r2 - мой первый опыт и вполне возможен какой-то затуп с моей стороны...

    Cluster Network Ext - Allow cluster network communication on this network (Allow client to connect through this network) subnets 192.168.0.0/24

    Cluster Network Interconnect - Allow cluster network communication on this network, subnets 172.168.0.0/24

  • Есть возможность добавить еще один интерфейс?

    Правильно понимаю, у Вас одна сеть публичная, вторая хёрт-бит между узлами?

    Как у Вас реализовано подключение хранилища?
    Модератор
  • К сожалению, возможности добавить еще один интерфейс нет. Попробую сделать это на своем тестовом стенде, ибо на нем та же шляпа.

    В плане подключений - все верно понято.

    Хранилище через fibre channel.

  • Господа, повторяю эту фразу второй раз (после этого Денис должен сказать про замыленный взгляд :)), у меня на 2-ух разных по конфигурации кластерах одно и то же.

    Это не может быть багом...

  • На этот раз, к слову, Вы умолчали, что на втором кластере такая же ситуация -) Но за "комплимент" все равно спасибо.

     

    Это не баг, на мой взгляд. Отрубая порт одного узла интефейса heartbeat (это верно?), Вы лишаете кластер взаимопроверки узлов на работоспособность, кластерный трафик по публичной сети ходить не может.

    Модератор
  • Нет, не верно.

    Интерконнект в работе и по нему ходят heartbeat'ы

    При отключении внешнего сетевого интерфейса одного нода, он (сетевой интерфейс) должен уходить в состояние failed, а сеть другого нода - в состоянии up и уж тем более cluster network не должен быть в состоянии partitioned.

  • Ростислав. С какой целью Вы отключаете интерфейс?

    Модератор
  • <отрубаю сетевой порт этого нода на коммутаторе 

    что за комутатор и какой коммандой "отрубание" производится?

    если из узла выдернуть патч-корд - результат тот же? тест с отключением питания одного из узлов не делали? при полном отключении узла ресурсы на оставшийся узел переходят?


    Заходите в "гости" на http://kupchinetsky.spaces.live.com
    Отвечающий
  • Не суть важно какой коммутатор, отключаю на нем порт, чтобы не бегать в серверную и не дергать патчкорд. Если его достать, то ситуация, естественно, такая же.

    При полном выключении одного из узла обработка ситуации корректная: все ресурсы переходят, Cluster network рабочий.

    http://www.fotogang.ru/?v=shutdownno.bmp

    p.s. Денис, прочитайте, пожалуйста, внимательно тему проблемы :) Просто тест на отказоустойчивость.

  • <Если его достать, то ситуация, естественно, такая же.

    Это проверялось или это предположение?


    Заходите в "гости" на http://kupchinetsky.spaces.live.com
    Отвечающий
  • Детский сад, простите, какой-то...

    http://www.fotogang.ru/?v=ubeditpmp.jpg

  • Это точно. мне хватило бы и текста...

    по существу - описание состояния сети кластера тут - http://support.microsoft.com/kb/242600/ru

    похоже, что на такое поведение влияет media sense

    Partitioned

    One or more network interfaces are in the Unreachable state, but at least two interfaces can still communicate with each other or with an external host.

    NOTE: This only applies to server clusters that have two or more nodes.

    NOTE: Disabling media sense on each node in the cluster affects its behavior, and this behavior is noted in the examples listed below.

    а тут http://allfaq.org/forums/t/173702.aspx похожая жалоба. но ответа нет.

    а тут http://www.experts-exchange.com/OS/Microsoft_Operating_Systems/Server/Windows_Server_2008/Q_24893525.html - тоже похоже и кое что автору помогло.

     


    Заходите в "гости" на http://kupchinetsky.spaces.live.com
    Отвечающий
  • Здравствуйте, Ростислав, Ваша проблема сохраняется?
    Поможем друг другу стать лучше! Отметим правильные ответы и полезные сообщения! Посетите наш блог http://blogs.technet.com/ru_forum_support/default.aspx
    Модератор
  •  

    p.s. Денис, прочитайте, пожалуйста, внимательно тему проблемы :) Просто тест на отказоустойчивость.

     


    Читаю и не вижу ответа, с какой целью Вы это проверяете.

    Если Вы добиваетесь отказоустойчивости сетевых интерфейсов в конечном итоге - тиминг интерфейсов и два VLAN для публичного и кластерного интерфейсов; в таком случае при выхода из строя одной и сетевых тиминг переведет трафик на второй интерфейс.

    Но это опять же не избавляет Вас от того момента, что кластерный IP будет у Вас только в одной только публичной сети.

    Модератор
  • Проблему поднял в техподдержке microsoft, вопрос перевели в европейский центр - ответа пока нет.... надо будет звякнуть.

    Денис, ход ваших мыслей правильный, team сетевых похоже пока что единственный вариант как обойти этот баг, НО сетевухи на узлах закончились (2 встроенных, одна внешняя, другая - интерконнект :) + лишние порты... а если у меня 4 узла будет? это ж сколько портов нужно будет...

    Вообщем в любом случае такое поведение не нормальное, вы со мной согласны?

    Как будет сдвиг в моем вопросе в тех. поддержке - отпишусь.

  • Стандартный failover кластер из двух узлов на windows server 2008 R2. Интерконнект присутствует.

    ВМ запускается на втором узле, после чего я отрубаю сетевой порт этого нода на коммутаторе и наблюдаю странную картину...

    http://www.fotogang.ru/?v=bug1.jpg 

    Внешняя Cluster Network уходит в состояние Partitioned, а сетевые соединения на обоих узлах становятся Unreachable. ВМ естественно при таких обстоятельствах никуда не переходит и продолжает крутится на втором узле. Сам первый узел продолжает быть доступным и работает.

    Валидация кластера не выявила каких либо ошибок.

    Если убрать интерконнект - все без проблем... Что-то даже не пойму куда копать...

    Проверьте пожалуйста доступна ли ВМ, после "отрубания" сетевого кабеля от узла, на котором расположена ВМ. Запросы могут перенаправляться по сети "Cluster Network Interconnect"

    Видел ситуацию, когда от одного узла "отвалилась" сеть SAN и ВМ на этом узле продолжали работать, а в состоянии подключения к SAN отображалось что-то вроде перанаправленного бла бла.. 

  • Вообщем microsoft подтвердила существующую проблему и выпустила в феврале под это дело хофикс.

    К сожалению, мне он помог только частично - сетка стала отрабатывать корректно, однако ресурсы по-прежнему остаются на проблемном ноде, хотя с их стороны было бы довольно мило перейти на корректно работающий узел.

    Вот у кого похожая проблема: http://support.microsoft.com/kb/978001 

  • Ростислав, судя по тому, что у Вас фактически нет хотфиксов, рекомендую обратиться к статье Hyper-V R2 Update List.

    Модератор
  • Ростислав, как я понял мы говорим про windows server 2008 R2, а в описании хотфикса написано 

     

    APPLIES TO
    • Windows Server 2008 Datacenter without Hyper-V
    • Windows Server 2008 Enterprise without Hyper-V
    • Windows Server 2008 Datacenter
    • Windows Server 2008 Enterprise
    • Windows Server 2008 Service Pack 2

    К тому же при моделировании отказа там отключают оба интерфейса 

    You disconnect the private and public network interfaces on the computer.

    Сори, не дочитал

    issue also occurs in Windows Server 2008 R2. This issue is scheduled to be fixed in Windows Server 2008 R2 Service Pack 1 (SP1).

  • Денис, это интересно с чего был сделан вывод, что у меня "фактически нет хотфиксов" ? Все необходимые и доступные обновления устанавливаются мною в первую очередь, а потом уже что-то делается.

    Этот хотфикс находится в тестовом режиме , через обновление не доступен и высылается только по запросу.

    Насчет моделирования ситуации - да, это не совсем она, но это мне ответил специалист тех. поддержки и частично это решение помогло.

    Вообщем господа, ни надо здесь что-то гадать, это баг и я здесь позже напишу решение (если оно конечно будет).

  • Ростислав, в вышеприведенной мной ссылке хотфиксы тоже доступны только по запросу.

    Ждем ответа от MS.
    Модератор
  • Закончилось решение моего вопроса. Вот ответ специалиста тех. поддержки MS:

    Is the private network still online?

    If yes – then this is by design – no failover occur because the nodes communicate then via the private network.

    The failover only occur if the public and private network is down!

     

    Т.е. никаких мечтаний по поводу перетекания виртуальных машин в случае выхода из строя каких-то компонент узла при его доступности через интерконнект в этой технологии не осуществленно.

    Вообщем-то оно и логично, ведь у группы сервисов виртуальных машин нет никакой зависимости ни от ip адреса ни от имени, иначе если бы они были, то при пропадании внешнего соединения ресурс бы помечался как failed и осуществлялся перезапуск, т.е. холодный рестарт. Зависимость при желании можно сделать вручную.

    В любом случае, первоначальная проблема с состоянием Partitioned кластерной сети,была решена хотфиксом http://support.microsoft.com/kb/978001


    17 июня 2010 г. 9:16