none
Объясните странное поведение CSV и кластерных виртуалок. RRS feed

  • Общие обсуждения

  • 2012R2 кластер из двух нод с общей полкой на SAS, собрали - запустили... ноды - BL460C g8 блэйд HP в общем.

    Файлы конфигурации виртуальных машин находятся на csv томе как и виртуальные диски. Первая странность была замечена сразу.... при выключении одной из нод переезд виртуалок заканчивался с ошибкой, после перезагрузки ноды в диспетчере кластера виртуалки в аварийном состоянии, в диспетчере Hyper-V их попросту нет... как и самих файлов конфигурации на CSV, приходилось создавать заново виртуалку, указывать путь до диска.... 

    после установки всех апдейтов, драйверов и прошивок вроде проблему победили...

    зато сейчас столкнулся с другой странностью... уж так случилось что на полке кончился ток... было это кратковременно, но вирт машинки поуходили в даун. Физически на CSV всё вроде есть и конфигурация и виртуальные харды, но в оснастке Hyper-V ни на одной из нод виртуалок нет, остались только некластеризованные (которые на том же CSV)... случилось это всё в рабочее время и дабы занять работой рядовых пользователей инженеры решили быстро заново создать виртуальные машины и подцепить к ним виртуальные харды (до этого ждали пол часа точно)... и тут снова забавная штука, пропавшие вирутальные машины волшебным образом сами как грибы полезли в оснастке, правда запуститься уже не все смогли как так несколько уже были пересозданны. Как понять это поведение?

    Могу предположить что возможно что то с правами т.к. КД тоже виртуальный, но вроде в 2012R2 микрософтом официально поддерживается такая конфигурация...

    Далее могу предположить что где то слетает ntfs, но опять же вроде нынешний csv поддерживает сейчас что угодно, хоть шары на нем создавай пользовательские.

    А может я вообще чего то не знаю/понимаю, разъясните пожалуйста.

    17 марта 2014 г. 10:30

Все ответы

  • Добрый день!

    Начинать лучше с низов..

    1) Тест кластера пройден? 

    2) Тестирование самого кластера (вручную) проводили? Эмуляция failover , миграция, перенаправление владельцев и т.д.?

    3) Рекомендуемые обновления для wsfc установлены? хосты up-to-date?

    http://support.microsoft.com/kb/2920151

    4) логи кластера + дату и время "поведения" предоставьте

    Get-ClusterLog -UseLocalTime -Destination C:\clusterlogs


    Roman Levchenko, MCITP, MCTS http://www.rlevchenko.com

    17 марта 2014 г. 11:00
  • к сожалению тестить могу только по вечерам... 

    тест кластер проходит, с одним предупреждением про резервирование...

    а вот при ручном тестировании замечен глюк.

    кластер из двух нод, 1 и 2.... так вот когда хозяин луна на котором лежат виртуалки 1й - всё ок, миграция работает на ура в любом варианте, и выключаются и т.д..... а вот когда хозяин диск 2 начинаются глюки... динамическая миграция виснет на рандомном проценте, в журналепосле длительного ожидания - сбой миграции, пробуешь выключать виртуалку... висит тож долго, потом просто ресетится машина... в общем были проблемы при настройке кластера, он не хотел видеть луны пока я в реестре не поменял тип шины лунов с рэйд на сас..... вчера заметил что у одного из лунов на сбойной ноде, когда она является его владельцем стоит тип шины "рэйд".... думал что нашел косяк, перерыл реестр, нашел аналогичный ключ спредыдущими и поменял так же на сас, перезагрузил, всё везде теперь норм определяется, но сбоит всё равно :(

    в общем, ставилось это дело всё до нового года, теперь у хьюлита вышел официальный провизионинг для 2012R2, переустановлю сбойную ноду по фэншую HP а потом поглядим. 

    18 марта 2014 г. 13:14
  • 1) предупреждение в отчета подобное вот этому  ?

    2) логи бы всё равно глянуть хотелось.  проф.интерес :)

    3) проверяли доступность луны с каждой ноды? Если в проводнике зайти с каждой ноды на c:\clusterstorage\volumeX всё ок?

    4) VMQ/Offload отключали на адаптерах кластерных?

    5) так и не понял. ноды полностью обновлены?

    6) удачи с феншуем )


    Roman Levchenko, MCITP, MCTS http://www.rlevchenko.com

    18 марта 2014 г. 14:51
  • 1. да, полка та же, но данный фэйлур вылечился последними драйверами/прошивками либо изменением типа шины в реестре на сас

    2. логи конечно могу выложить, но там по 150 мб на ноду... надо?

    3. всё норм.

    4. это хде что?

    5. ноды да с последними апдейтами

    6. завтра буду пробовать.


    • Изменено NSDonner 18 марта 2014 г. 15:02
    18 марта 2014 г. 14:58
  • 1. да, полка та же, но данный фэйлур вылечился последними драйверами/прошивками

    2. логи конечно могу выложить, но там по 150 мб на ноду... надо?

    3. всё норм.

    4. это хде что?

    5. ноды да с последними апдейтами

    6. завтра буду пробовать.

    1. отлично
    2. от Вас мне нужно примерную дату и время , когда ситуация проблемная повторилась. Если есть возможность отсимулировать проблему, то лучше проделать и только потом логи собрать.  *edited*: логи достаточно с одной ноды предоставить(желательно владельца Cluster Group). посмотреть владельца можно так:

    Get-ClusterGroup -Cluster ClusterName -Name "Cluster Group"

    4. Перед изменением переведите ноды в режим обслуживания и только потом применяйте командлеты

    #Отключение VMQ на серверах Server1,server2 .
    
    Invoke-Command server1,server2 -ScriptBlock {Get-NetAdapter *|Disable-NetAdapterVMQ}
    
    #Отключение Offload+Jumbo серверах Server1,server2 
    
    Invoke-Command server1,server2 {Set-NetAdapterAdvancedProperty "nicname1","NICname2" -DisplayName "IPSec Offload","IPv4 Checksum Offload","Jumbo Packet","TCP Checksum Offload (IPv4)","UDP Checksum Offload (IPv4)","Large Send Offload Version 2 (IPv4)" -DisplayValue "disabled"}                                                                                                                                                                              

    5. Рекомендуемые по ссылке http://support.microsoft.com/kb/2920151 стоят?

    6.успехов)


    Roman Levchenko, MCITP, MCTS http://www.rlevchenko.com


    18 марта 2014 г. 15:14
  • В общем одну из нод переустановил.... не помогло к сожалению.... еще раз оглашу симптомы уже точно установленные... не стабильно работает динамическая миграция в ситуации когда хозяином диска на которых находятся виртуалки является нода №2 (которую переустанавливал) возможно конечно и первую попробовать переустановить с провизинга HP но слабо верится...

    т.е. ставим хозяином ноду №1 - всё ок, динамическая миграция работает как пуля.

    ставим №2 - может сработать на одной из виртуалок если звезды сойдутся, но скорее всего будет отказ и возвращение прежнего состояния.

    При всём при этом быстрая миграция работает при любом хозяине...

    симптомы указывают имхо что что-то с сетевушками раз быстрая проходит норм... т.е. проблемы наверняка при передачи состояния оперативки при динамической миграции....  уже мысли обращаться в саппорт HP, вроде у заказчика есть подписка...

    завтра сэмулирую глюк и выложу, может есть опыт.

    есть возможность как то поменять дефолтный режим переноса вирт машин с динамического на быстрый, пока не решим проблему?

    • Изменено NSDonner 20 марта 2014 г. 17:04
    20 марта 2014 г. 17:02
  • Добрый день!

    Как успехи? 

    Сервера обновляли последним HP Service Pack (02.2014) ?

    --

    есть возможность как то поменять дефолтный режим переноса вирт машин с динамического на быстрый, пока не решим проблему?

    Дефолтный режим переноса в случае чего?  Для maintenance-режима есть параметры для ресурсов DefaultMoveType и MoveTypeThresHold, но рекомендовать их изменять не вижу смысла в данном случае. Для переноса большого количества ВМ используйте Powershell (http://technet.microsoft.com/en-us/library/ee461041.aspx)



    Roman Levchenko, MCITP, MCTS http://www.rlevchenko.com

    24 марта 2014 г. 13:43
  • В общем сказать с полной уверенностью что всё в порядке не могу.... после переустановки ноды с новым провижингом в котором к стати драйвера из нового сервиспака HP, первый вечер поведение системы было нестабильным, но потом видать опять тень марса сошлась на кольцах сатурна и вдруг всё стало работать, тему пока думаю можно прикрыть, но чую еще отпишусь.
    25 марта 2014 г. 4:27
  • 1. тиминг используется? сколько сетей в кластере и доступных для LM?

    2. в случае с миграцией compression (by default) исп-ся в любом случае только 1 канал TCP/IP между хостами, т.е. даже если есть несколько сетей для Live Migration всё равно будет задействована только одна. Если она недоступна, то вторая по списку (Live Migration Settings в FCM). Попробуйте изменить Live Migration на SMB ради теста (должна быть поддержка RDMA на адаптерах), протестируйте. Поставьте просто TCP/IP и протестируйте. Поведение одинаковое?

    Set-VMHost -VirtualMachineMigrationPerformanceOption SMB

    Roman Levchenko, MCITP, MCTS http://www.rlevchenko.com

    25 марта 2014 г. 5:27
  • нет, тиминг не используется, доступная сеть только одна, так что не в этом проблема,

    если симптомы повторяться - попробую.

    25 марта 2014 г. 6:42
  • нет, тиминг не используется, доступная сеть только одна, так что не в этом проблема,

    если симптомы повторяться - попробую.

    Стабильно всё? :)

    Roman Levchenko, MCITP, MCTS http://www.rlevchenko.com

    26 марта 2014 г. 6:15