none
Проблема с NTFS на диске-свидетеле при резком отключении узла кластера RRS feed

  • Вопрос

  • Дано:

    тестовый отказоустойчивый кластер из 2 узлов с одной ВМ (Windows 7);

    в роли узлов используются два мощных современных десктопа (несерверное железо) совершенно одинаковой конфигурации c WinSrv2008R2Ent SP1 со всеми обновлениями;

    на каждом узле используется по одной сетевой карте (встроенная 1 Гбит/с);

    СХД Promise VessRAID 1840i (iSCSI), на нём создан один дисковый массив (на базе одного HDD, то есть не RAID), на нём создано два логических диска (для диска-свидетеля 512 Мб, для диска-CSV 80 Гб);

    хороший серверный гигабитный свитч от Allied Telesys.

    Суть:

    при резком отключении питания (выдёргивание кабеля) или выдёргивания сетевого кабеля из сетевой карты на том узле, где крутится на данный момент ВМ, кластер срабатывает как нужно, ВМ шустренько восстанавливается (загружается) на другом узле. Работает с минуту (или даже полминуты), а потом связь с ней пропадает и даже диспетчер отказоустойчивого кластера не может подключиться к кластеру.

    При попытках копать выяснилось следующее:

    когда второй узел принимает на себя диск-свидетель (в моём понимании) в журнале "Система" идут предупреждения от источника ntfs с кодом события 57 - "Системе не удалось очистить данные журнала транзакций. Возможно повреждение данных." и ошибки о того же источника с кодом 55 - "Структура файловой системы повреждена и непригодна к использованию. Запустите программу CHKDSK на томе Q:" (букву Q я присвоил диску-свидетелю). Ошибки сыпятся около 30-60 секунд и после этого ВМ резко отлетает (точнее буквально пропадает), к кластеру не подключится, тома диск-свидетель и диск-CSV становятся "вне сети".

    Причём если в инициаторе iSCSI разорвать подключение к СХД, подключится заново и сделать проверку диска-свидетеля (тот самый Q:), то сообщается об отсутствии ошибок, к тому же после этого служба кластера сама нормально запускается и ВМ запускается тоже, ошибки про ntfs больше не сыпятся. То есть отключение/подключение томов в инициаторе iSCSI как-то помогает.

    При использовании динамической миграции или быстром переносе (короче, при корретных операциях) никаких проблем нет.

    Проверка кластера (из оснастки диспетчера отказоустойчивых кластеров) сообщила только о сети, в том плане что используется одна сетевая карта на всё про всё. Так как у меня тестовая система (чисто для предварительной отработки возможностей перед реальным внедрением), то меня это не смутило, нагрузки-то нет практически.

    Как я понимаю, при резком выключении узла, на котором крутится ВМ как-то бьётся ntfs на диске-свидетеле, причём с диском-CVS всё нормально, про него сообщений нет. Но ведь по идее кластер на то и нужен, чтобы без проблем переносить неожиданные отключения узлов.

    5 июня 2012 г. 12:16

Все ответы

  • Что Вы подразумеваете под  "создано два логических диска"? Это два разных iSCSI target или iSCSI target с двумя разделами? Если второе, то это неподдерживаемое решение.

    Если у Вас два iSCSI target - отключите кэш на дисках.

    5 июня 2012 г. 12:42
    Модератор
  • Прямо сейчас затруднительно ответить на ваш вопрос.

    С точки зрения Windows выглядит это так:

    5 июня 2012 г. 12:57
  • Что в диспетчере устройств с кэшированием на этих дисках?
    5 июня 2012 г. 13:02
    Модератор
  • Изначально в свойствах "диска" (если это так можно назвать), соответствующего диску-свидетелю, на вкладке "Политика" стояла галочка "Разрешить кэширование записей для этого устройства", однако потом (ещё до написания сюда) я вспомнил о ней и снял в надежде, что это поможет (проверял на обоих узлах - кэширование для диска-свидетеля было действительно отключено). Однако нет, не помогло (на всякий пожарный оба узла перезагрузил). На диске-CSV кэширование включено, но он проблем не вызывал.

    Всё равно вышеописанные проблемы с диском, отвечающим за диск-свидетель продолжаются.

    5 июня 2012 г. 13:29
  • Интересное явление!

    После того как ВМ отваливается (буквально пропадает, так как вместе с диском-свидетелем в режим "вне сети" переходит и диск-CSV), прошло секунд 10-20, на экране второго узла (единственного оставшегося рабочего узла после резкого выключения первого узла) появилось сообщение с предложением отформатировать диск Q (мой диск-свидетель) и в проводнике значок диска был без полоски ёмкости (как будто и правда требовалось его отформатировать), ещё через секунд 10-20 выяснилось, что диск-свидетель всё же подхватился (через проводник стало возможным на него заходить, полосочка ёмкости появилась), ну и ВМ запустилась! И всё это само, без моего участия, я просто смотрел на экран этого второго узла кластера. Причём раньше такого не было, уж если отлетал диск-свидетель, то обратно сам по себе через пару минут не возвращался.

    5 июня 2012 г. 13:39
  • В общем проблема остаётся.
    5 июня 2012 г. 17:43
  • Может кто-нибудь всё же сможет подсказать, куда копать?
    7 июня 2012 г. 10:27
  • Кроме как со сбросом кэша, идей нет.

    7 июня 2012 г. 10:56
    Модератор
  • Может ли быть дело в том, что я использую несервную встроенную сетевую карту (1 Гбит/с, по одной на каждом из 2 узлов кластера), через которую и обычный доступ, и Heartbit, и iSCSI пускаю? Может ли специализированный iSCSI HBA (специальная сетевая карта для iSCSI) исправить ситуацию? На СХД вроде ругаться не приходится, прошивка там последняя, WHQL для WinSrv2008R2 у него вроде как есть.

    Как вариант можно конечно уничтожить кластер, удалить разделы на СХД, заново всё с нуля создать. Можно даже и Windows Server переустановить. Только вот смысл...

    7 июня 2012 г. 11:36