none
Пропадает сеть на виртульных машинах. Часть2 RRS feed

  • Общие обсуждения

  • Часть1

    Добрый день!

    Есть кластер из 2 серверов на WinServer2012

    Внутри кластера 4 виртуальные машины, жесткие диски которых находятся на дисковой полке. Уже не в первый раз виртуальные машины останавливаются с примечанием "Не удается подключиться к сетевому хранилищу".

    Из первой части данной темы (ссылка выше) я отключил виртуальную очередь на сетевых картах физических серверов.

    Обновил ПО на актуальное на сетевых картах.

    Что еще можно сделать?

    Ошибкив диспетчере отказоустойчивости кластеров:

    С данного узла кластера больше нельзя получить доступ к общему тому кластера "Volume1" ("Cluster Disk 2") из-за ошибки "ERROR_TIMEOUT(1460)". Проверьте взаимодействие данного узла с запоминающим устройством и сетью.

    Общий том кластера "Volume1" ("Cluster Disk 2") больше не доступен на этом узле из-за "STATUS_CONNECTION_DISCONNECTED(c000020c)". Все операции ввода-вывода будут временно поставлены в очередь, пока путь к тому не будет установлен заново.

    17 января 2017 г. 14:29

Все ответы

  • смотрите в сторону полки, велика вероятность что проблема на стороне хранилки.

    Обратитесь в сервис хранилки, обновите прошивки, драйвера к онной и тд.


    The opinion expressed by me is not an official position of Microsoft

    17 января 2017 г. 14:35
    Модератор
  • а что в логах полки по этому вопросу?
    17 января 2017 г. 14:35
  • 1. Проверьте обновления и наличие https://support.microsoft.com/en-us/kb/2878635 . Возможно Ваш случай. + https://support.microsoft.com/en-us/kb/3090343

    2. Опишите взаимодействие SAN и узлов (протоколы, сет.адресация, mpio (если есть) и т.д.)

    3. Приведите модели, используемые в данной схеме (узлы, сторедж, свитч,если исп-ся для san)

    4. Проверьте значение TimeOutValue в hive : HKEY_LOCAL_MACHINE\System\CurrentControlSet\Services\Disk\ . В целях тестирования можно чуть повысить. 

    5. Проведите тестирование SAN под нагрузкой (iometer, к примеру). 

    6. Проверьте, что все компоненты имеют последние версии fw/drivers (NICs, HBAs, OS, Storage Controllers, Disks, Servers)

    7. Соберите логи кластера и укажите примерную дату возникновения ошибки

    Get-ClusterLog -Destination <path> -TimeSpan <optional> -UseLocalTime

    8. Проверьте статус cluster core resources в cluadmin.msc (кластерное имя, витнесс и т.д.)

    9. Миграция отрабатывает? (LM/QM + перемещение CSV) В проводнике кластерный диск открывается без проблем? (проверяется при разных владельцах CSV)

    10. Test-Cluster в студию.


    Roman Levchenko
    MVP, MCSE, MCSA, MCITP, MCTS
    VMware vExpert, VCP6-DCV
    :: rlevchenko.com ::

    • Изменено R.LevchenkoMVP 17 января 2017 г. 17:08 тадамс
    17 января 2017 г. 16:44
  • а что в логах полки по этому вопросу?

    Все чисто
    18 января 2017 г. 6:49
  • смотрите в сторону полки, велика вероятность что проблема на стороне хранилки.

    Обратитесь в сервис хранилки, обновите прошивки, драйвера к онной и тд.


    The opinion expressed by me is not an official position of Microsoft


    Дисковая полка IBM Storwize 3700, software 7.1.0.6 (build 80.4.1310310000)

    В логах все чисто, плюс на данной дисковой полке 3 тома для 3 разных кластеров, построенных по одному типу, но проблема только в одном кластере

    18 января 2017 г. 6:50

  • Roman Levchenko
    MVP, MCSE, MCSA, MCITP, MCTS
    VMware vExpert, VCP6-DCV
    :: rlevchenko.com ::

    1. Изючаю

    2. Приложил

    3. 2 сервера ibm systemX 3650M4, дисковая полка IBM Storwize 3700, software 7.1.0.6 (build 80.4.1310310000), cisco 4948

    4. На физических серверах кластера данный параметр - 3с. Или на виртуалке нужен данный параметр?

    5. После тестов отпишусь

    6. С HP связался по поводу драйверов

    7. У меня в диспетре отказоустойивости серверов нет событий за последние 24 часа, хотя я их вчера там видел и смотрел. Можете с примером места расположения логов команду написать?

    8. В cluadmin.msc все прекрасно, ноды работают имена корректны, кворум на месте

    9. Миграция вообще без проблем, вчера перезагрузил один из серверов кластера, все корректно переехало и кворум тоже

    10. Тест как лучше сделать, в не рабочее время?Кластер надо переводить в режим обслуживания?

    Спасибо!

    18 января 2017 г. 11:33
  • 3. с 3700 неоднократно работал. проблем никаких не было. 

    4. на хосте

    6. у HP есть service pack для proliant-систем. Довольно удобно обновлять. Качайте. Саппорт не ждите. Хотя откуда HP, если в п.3 вы про IBM пишите. Но там аналогично (IBM UpdateXpress и автоматом обновит всё, что нужно)

    7. Get-ClusterLog -Destination C:\clusterlogs.txt -UseLocalTime

    10. Это production у вас? Желательно в нерабочее, т.к. storage он Вам сейчас не даст проверить. Можно через Test-Cluster -Ignore Storage , но если нагрузка критичная есть, то всё вынести за рамки раб.часов + Если делали проверкe до создания кластера, то лучше его приложите (ищите тут C:\Windows\Cluster\Reports).


    Roman Levchenko
    MVP, MCSE, MCSA, MCITP, MCTS
    VMware vExpert, VCP6-DCV
    :: rlevchenko.com ::

    • Изменено R.LevchenkoMVP 18 января 2017 г. 11:51 формат
    18 января 2017 г. 11:45
  • 4. На хосте 78 секунд

    6. Ошибся, с IBM. Они же теперь Lenonvo, на сайте доступно только для чипсета драйвера 2016 года

    7. Можно ли в диспетчере отказоустойчивости серверов посмотреть где хранятся логи?

    10. Прикладываю тест перед вводом в эксплуатацию кластера, вечером еще раз сделать попробую

    http://rgho.st/68wGC7BQC


    • Изменено Pogreb 18 января 2017 г. 12:45
    18 января 2017 г. 12:20
  • Get-ClusterLog более подробные логи формируют, - поэтому обычно их используют. 

    IBM/Lenovo уже давно вместе. UpdateXpress используйте. 

    Результаты теста , в целом успешные. Ругнулся у вас на то, что iSCSI NICs все в рамках 1 подсети, хотя конфигурация IBM поддерживаемая. При возможности можете в рамках Ваших VLANов разные подсети до узлов доставлять для SAN. Тогда, по идее, весь отчет будет полностью "зеленым".


    Roman Levchenko
    MVP, MCSE, MCSA, MCITP, MCTS
    VMware vExpert, VCP6-DCV
    :: rlevchenko.com ::

    19 января 2017 г. 11:20
  • UpdateXpress показал только обновление на чипсет, а на сеть не показал ничего. Хотя на сайте есть версия драйвера новее

    В выходные обновлю драйвера и сделаю тест кластера.

    По первому тесту я думаю это не критично.

    19 января 2017 г. 14:17
  • Странно, загрузи вот эти драйвера

    при установке сказал, что не сможет обновить драйвера, т.к. сконфигурированы VLANы

    А мне что то не хочется кластер разбирать для обновления драйверов на сеть.

    Может я не те драйвера нашел?

    По тесту кластераМне не понравилось предупреждение. То есть мне надо все роли именно остановить. Не очень понял.

    Сможете подсказать по данному предупреждению?

    24 января 2017 г. 6:09
  • мастер проверки конфигурации хлопает всеми дверями, включает и выключает компоненты кластера для того что бы проверить что при этом валится.

    Если у Вас собрана конфигурация которая может завалиться - скорее всего завалится. В связи с чем рекомендуют роли (ВМки и пр. выключать перед тестом)


    The opinion expressed by me is not an official position of Microsoft

    24 января 2017 г. 8:57
    Модератор
  • Вам не нужно делать тест. У вас первоначально всё ок с ним. 

    Утилиту использовали или вручную драйвера качали? Вполне возможно, что не те (хотя если соотношение модель:ОС учтено, то должны подходить)


    Roman Levchenko
    MVP, MCSE, MCSA, MCITP, MCTS
    VMware vExpert, VCP6-DCV
    :: rlevchenko.com ::

    25 января 2017 г. 15:10
  • Драйвер брал отсюда

    UpdateXpress показал только обновление на чипсет, а на сеть не показал ничего

    Не совсем понял хорошо или плохо у меня настроен параметр "Проверьте значение TimeOutValue в hive : HKEY_LOCAL_MACHINE\System\CurrentControlSet\Services\Disk\ . В целях тестирования можно чуть повысить."

    на ВМ 78с, на физических серверах 3с - это много или мало?

    26 января 2017 г. 7:56
  • В очередной раз все отвалилось, причем в одно и то же время
    Вчера в 10.00 на первом сервере ВМ потеряли связь с хранилищем
    Сегодня в 10.11 на втором сервере ВМ потеряли связь с хранилищем

    В диспетчере отказоустойчивого кластера следующие ошибки

    08.02.2017 9:57:44 Общий том кластера "Volume1" ("Cluster Disk 2") больше не доступен на этом узле из-за "STATUS_PURGE_FAILED(c0000435)". Все операции ввода-вывода будут временно поставлены в очередь, пока путь к тому не будет установлен заново. (Код события 5120) Сервер 1

    08.02.2017 10:00:20 С данного узла кластера больше нельзя получить доступ к общему тому кластера "Volume1" ("Cluster Disk 2") из-за ошибки "ERROR_TIMEOUT(1460)". Проверьте взаимодействие данного узла с запоминающим устройством и сетью. (Код события 5142) Сервер 1

    08.02.2017 10:00:21 С данного узла кластера больше нельзя получить доступ к общему тому кластера "Volume1" ("Cluster Disk 2") из-за ошибки "ERROR_TIMEOUT(1460)". Проверьте взаимодействие данного узла с запоминающим устройством и сетью. (Код события 5142) Сервер 1

    09.02.2017 9:58:15 Общий том кластера "Volume1" ("Cluster Disk 2") больше не доступен на этом узле из-за "STATUS_PURGE_FAILED(c0000435)". Все операции ввода-вывода будут временно поставлены в очередь, пока путь к тому не будет установлен заново. (Код события 5120) Сервер 1

    09.02.2017 9:58:18 Общий том кластера "Volume1" ("Cluster Disk 2") больше не доступен на этом узле из-за "STATUS_PURGE_FAILED(c0000435)". Все операции ввода-вывода будут временно поставлены в очередь, пока путь к тому не будет установлен заново. (Код события 5120) Сервер 2

    09.02.2017 10:03:33 С данного узла кластера больше нельзя получить доступ к общему тому кластера "Volume1" ("Cluster Disk 2") из-за ошибки "ERROR_TIMEOUT(1460)". Проверьте взаимодействие данного узла с запоминающим устройством и сетью. (Код события 5142) Сервер 2

    09.02.2017 10:03:34 С данного узла кластера больше нельзя получить доступ к общему тому кластера "Volume1" ("Cluster Disk 2") из-за ошибки "ERROR_TIMEOUT(1460)". Проверьте взаимодействие данного узла с запоминающим устройством и сетью. (Код события 5142) Сервер 2

    09.02.2017 10:03:38 Сбой ресурса кластера "Cluster Disk 2" с типом "Physical Disk" в кластерной роли "5efb5152-4392-4e48-bd83-20acc6f4e8df".

    В зависимости от политик на случай сбоя ресурса и роли служба кластеров может попытаться подключить ресурс на этом узле или же переместить группу на другой узел кластера, а затем перезапустить ее. Проверьте состояние ресурса и группы с помощью диспетчера отказоустойчивости кластеров или командлета Get-ClusterResource оболочки Windows PowerShell. (Код события 1069) Сервер 2

    09.02.2017 10:03:38 Общий том кластера "Volume1" ("Cluster Disk 2") больше не доступен на этом узле из-за "STATUS_MEDIA_WRITE_PROTECTED(c00000a2)". Все операции ввода-вывода будут временно поставлены в очередь, пока путь к тому не будет установлен заново. (Код события 5120) Сервер 1

    09.02.2017 10:03:46 С данного узла кластера больше нельзя получить доступ к общему тому кластера "Volume1" ("Cluster Disk 2") из-за ошибки "ERROR_TIMEOUT(1460)". Проверьте взаимодействие данного узла с запоминающим устройством и сетью. (Код события 5142) Сервер 2

    Что было сделано:
    На сеть драйвера не обновлены. т.к. драйвера не устанавливаются, насильно ставить не стал дабы вообще не доломать
    На чипсет драйвера обнаружены, но не установлены, жду выходных
    Со временем в ветке реестра мне не особо ясно в какую сторону изменять в большую или меньшую
    Из лога записи за последние 2 дня
    Подскажите, в какую сторону двигаться или планировать миграцию на 2012R2?
    Спасибо!


    • Изменено Pogreb 9 февраля 2017 г. 7:40
    9 февраля 2017 г. 7:37
  • Про драйвера - не знаю в чем проблема их обновить. Видимо не то используете. 

    Дополнительно попробуйте vmq отключить на адаптерах хоста.

    Get-NetAdapterVmq | Disable-NetAdapterVmq



    Roman Levchenko
    MVP, MCSE, MCSA, MCITP, MCTS
    VMware vExpert, VCP6-DCV
    :: rlevchenko.com ::

    9 февраля 2017 г. 8:57
  • VMQ отключен после первого сбоя
    9 февраля 2017 г. 10:16