none
Зависание VM с последующим отказом ноды кластера RRS feed

  • Вопрос

  • Доброго
    Имеется кластер из 2 нод (HPE 360 Gen9) на Hyper-V Server 2016, которые через оптику подключены к HPE MSA 2042.

    После успешного выполнения резервного копирования средствами VeeamBR 9.5 виртуальной машины с Exchange Server 2013 подвисла нода на которой располагалась данная VM. Соответственно все остальные VM тоже встали.

    Теперь немного истории:

    Резервное копирование запущено в 00:00 и успешно отработало в 4:51:08.

    В 4:50:42 в EventLog Hyper-V-VMMS (EventID 19070) 'mx' background disk merge has been started.. 

    - <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
    - <System>
      <Provider Name="Microsoft-Windows-Hyper-V-VMMS" Guid="{6066F867-7CA1-4418-85FD-36E3F9C0600C}" /> 
      <EventID>19070</EventID> 
      <Version>0</Version> 
      <Level>4</Level> 
      <Task>0</Task> 
      <Opcode>0</Opcode> 
      <Keywords>0x8000000000000000</Keywords> 
      <TimeCreated SystemTime="2017-10-30T01:50:42.018106400Z" /> 
      <EventRecordID>11384</EventRecordID> 
      <Correlation /> 
      <Execution ProcessID="3236" ThreadID="18180" /> 
      <Channel>Microsoft-Windows-Hyper-V-VMMS-Admin</Channel> 
      <Computer>NODE2-CY.idms-finance.local</Computer> 
      <Security UserID="S-1-5-18" /> 
      </System>
    - <UserData>
    - <VmlEventLog xmlns="http://www.microsoft.com/Windows/Virtualization/Events">
      <VmName>mx</VmName> 
      <VmId>DAE5B36C-2964-480F-AEA8-97D46396FC8A</VmId> 
      </VmlEventLog>
      </UserData>
      </Event>

    В 4:51:51 стартовала следующая задача репликации.

    В 4:52:06 в EventLog Hyper-V-VMMS (EventID 19090) 'mx' background disk merge has been interrupted. (Virtual machine ID DAE5B36C-2964-480F-AEA8-97D46396FC8A). 

    - <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
    - <System>
      <Provider Name="Microsoft-Windows-Hyper-V-VMMS" Guid="{6066F867-7CA1-4418-85FD-36E3F9C0600C}" /> 
      <EventID>19090</EventID> 
      <Version>0</Version> 
      <Level>4</Level> 
      <Task>0</Task> 
      <Opcode>0</Opcode> 
      <Keywords>0x8000000000000000</Keywords> 
      <TimeCreated SystemTime="2017-10-30T01:52:06.748744700Z" /> 
      <EventRecordID>11385</EventRecordID> 
      <Correlation /> 
      <Execution ProcessID="3236" ThreadID="18180" /> 
      <Channel>Microsoft-Windows-Hyper-V-VMMS-Admin</Channel> 
      <Computer>NODE2-CY.idms-finance.local</Computer> 
      <Security UserID="S-1-5-18" /> 
      </System>
    - <UserData>
    - <VmlEventLog xmlns="http://www.microsoft.com/Windows/Virtualization/Events">
      <VmName>mx</VmName> 
      <VmId>DAE5B36C-2964-480F-AEA8-97D46396FC8A</VmId> 
      </VmlEventLog>
      </UserData>
      </Event>

    В 5:12:07 в EventLog Hyper-V-VMMS (EventID 18014) Checkpoint operation for 'mx' was cancelled. (Virtual machine ID DAE5B36C-2964-480F-AEA8-97D46396FC8A).

    - <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
    - <System>
      <Provider Name="Microsoft-Windows-Hyper-V-VMMS" Guid="{6066F867-7CA1-4418-85FD-36E3F9C0600C}" /> 
      <EventID>18014</EventID> 
      <Version>0</Version> 
      <Level>2</Level> 
      <Task>0</Task> 
      <Opcode>0</Opcode> 
      <Keywords>0x8000000000000000</Keywords> 
      <TimeCreated SystemTime="2017-10-30T02:12:07.678323300Z" /> 
      <EventRecordID>11386</EventRecordID> 
      <Correlation /> 
      <Execution ProcessID="3236" ThreadID="18180" /> 
      <Channel>Microsoft-Windows-Hyper-V-VMMS-Admin</Channel> 
      <Computer>NODE2-CY.idms-finance.local</Computer> 
      <Security UserID="S-1-5-18" /> 
      </System>
    - <UserData>
    - <VmlEventLog xmlns="http://www.microsoft.com/Windows/Virtualization/Events">
      <VmName>mx</VmName> 
      <VmId>DAE5B36C-2964-480F-AEA8-97D46396FC8A</VmId> 
      </VmlEventLog>
      </UserData>
      </Event>

    В 5:12:07 в EventLog Hyper-V-VMMS (EventID 18012) Checkpoint operation for 'mx' failed. (Virtual machine ID DAE5B36C-2964-480F-AEA8-97D46396FC8A).

    - <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
    - <System>
      <Provider Name="Microsoft-Windows-Hyper-V-VMMS" Guid="{6066F867-7CA1-4418-85FD-36E3F9C0600C}" /> 
      <EventID>18012</EventID> 
      <Version>0</Version> 
      <Level>2</Level> 
      <Task>0</Task> 
      <Opcode>0</Opcode> 
      <Keywords>0x8000000000000000</Keywords> 
      <TimeCreated SystemTime="2017-10-30T02:12:07.678380500Z" /> 
      <EventRecordID>11387</EventRecordID> 
      <Correlation /> 
      <Execution ProcessID="3236" ThreadID="18180" /> 
      <Channel>Microsoft-Windows-Hyper-V-VMMS-Admin</Channel> 
      <Computer>NODE2-CY.idms-finance.local</Computer> 
      <Security UserID="S-1-5-18" /> 
      </System>
    - <UserData>
    - <VmlEventLog xmlns="http://www.microsoft.com/Windows/Virtualization/Events">
      <VmName>mx</VmName> 
      <VmId>DAE5B36C-2964-480F-AEA8-97D46396FC8A</VmId> 
      </VmlEventLog>
      </UserData>
      </Event>

    В 5:12:47 в EventLog Hyper-V-VMMS (EventID 19070) 'mx' background disk merge has been started. (Virtual machine ID DAE5B36C-2964-480F-AEA8-97D46396FC8A). 

    - <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
    - <System>
      <Provider Name="Microsoft-Windows-Hyper-V-VMMS" Guid="{6066F867-7CA1-4418-85FD-36E3F9C0600C}" /> 
      <EventID>19070</EventID> 
      <Version>0</Version> 
      <Level>4</Level> 
      <Task>0</Task> 
      <Opcode>0</Opcode> 
      <Keywords>0x8000000000000000</Keywords> 
      <TimeCreated SystemTime="2017-10-30T02:12:07.812906800Z" /> 
      <EventRecordID>11388</EventRecordID> 
      <Correlation /> 
      <Execution ProcessID="3236" ThreadID="18180" /> 
      <Channel>Microsoft-Windows-Hyper-V-VMMS-Admin</Channel> 
      <Computer>NODE2-CY.idms-finance.local</Computer> 
      <Security UserID="S-1-5-18" /> 
      </System>
    - <UserData>
    - <VmlEventLog xmlns="http://www.microsoft.com/Windows/Virtualization/Events">
      <VmName>mx</VmName> 
      <VmId>DAE5B36C-2964-480F-AEA8-97D46396FC8A</VmId> 
      </VmlEventLog>
      </UserData>
      </Event>
    В 5:20 начали приходить сообщения Zabbix о недоступности VM (не отвечают порты, службы)

    В 5:54:21 приходит уведомление Veeam о ошибке выполнения репликации (Failed to create VM recovery checkpoint (mode: Veeam application-aware processing) Details: Job failed ('Checkpoint operation for 'mx' failed. (Virtual machine ID DAE5B36C-2964-480F-AEA8-97D46396FC8A) 'mx' could not initiate a checkpoint operation: %%2147754767 (0x8004230F). (Virtual machine ID DAE5B36C-2964-480F-AEA8-97D46396FC8A)'). Error code: '32768'. Failed to create VM recovery snapshot, VM ID 'dae5b36c-2964-480f-aea8-97d46396fc8a'.) 

    Я подключился к VM в 7 утра. Виртуалка не отвечает на любой запрос. Пытаюсь перегрузить через FCM - толку тоже нет никакого. При подключении к ноде powershell (Enter-PSSession) команда Get-VM выдавала что все VM отображались со состоянием Critical, а про которую идет речь: State - "Running" Status - "Мerge disks".

    В ClusterEvents появились ошибки:

    7:03 FailoverClustering EventID 1069 Cluster resource 'Virtual Machine mx' of type 'Virtual Machine' in clustered role 'mx' failed. 

    - <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
    - <System>
      <Provider Name="Microsoft-Windows-FailoverClustering" Guid="{BAF908EA-3421-4CA9-9B84-6689B8C6F85F}" /> 
      <EventID>1069</EventID> 
      <Version>1</Version> 
      <Level>2</Level> 
      <Task>3</Task> 
      <Opcode>0</Opcode> 
      <Keywords>0x8000000000000000</Keywords> 
      <TimeCreated SystemTime="2017-10-30T04:03:13.519784200Z" /> 
      <EventRecordID>181186</EventRecordID> 
      <Correlation /> 
      <Execution ProcessID="3316" ThreadID="19584" /> 
      <Channel>System</Channel> 
      <Computer>NODE2-CY.idms-finance.local</Computer> 
      <Security UserID="S-1-5-18" /> 
      </System>
    - <EventData>
      <Data Name="ResourceName">Virtual Machine mx</Data> 
      <Data Name="ResourceGroup">mx</Data> 
      <Data Name="ResTypeDll">Virtual Machine</Data> 
      </EventData>
      </Event>
    7:10 FailoverClustering EventId 1230 A component on the server did not respond in a timely fashion. This caused the cluster resource 'Virtual Machine mx' (resource type 'Virtual Machine', DLL 'vmclusres.dll') to exceed its time-out threshold. As part of cluster health detection, recovery actions will be taken. The cluster will try to automatically recover by terminating and restarting the Resource Hosting Subsystem (RHS) process that is running this resource. Verify that the underlying infrastructure (such as storage, networking, or services) that are associated with the resource are functioning correctly. 
    - <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
    - <System>
      <Provider Name="Microsoft-Windows-FailoverClustering" Guid="{BAF908EA-3421-4CA9-9B84-6689B8C6F85F}" /> 
      <EventID>1230</EventID> 
      <Version>0</Version> 
      <Level>2</Level> 
      <Task>3</Task> 
      <Opcode>0</Opcode> 
      <Keywords>0x8000000000000000</Keywords> 
      <TimeCreated SystemTime="2017-10-30T04:10:13.542633500Z" /> 
      <EventRecordID>181194</EventRecordID> 
      <Correlation /> 
      <Execution ProcessID="3316" ThreadID="22964" /> 
      <Channel>System</Channel> 
      <Computer>NODE2-CY.idms-finance.local</Computer> 
      <Security UserID="S-1-5-18" /> 
      </System>
    - <EventData>
      <Data Name="ResourceName">Virtual Machine mx</Data> 
      <Data Name="ResourceType">Virtual Machine</Data> 
      <Data Name="ResTypeDll">vmclusres.dll</Data> 
      </EventData>
      </Event>


    7:10 FailoverClustering EventID 1146 The cluster Resource Hosting Subsystem (RHS) process was terminated and will be restarted. This is typically associated with cluster health detection and recovery of a resource. Refer to the System event log to determine which resource and resource DLL is causing the issue. 

    - <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
    - <System>
      <Provider Name="Microsoft-Windows-FailoverClustering" Guid="{BAF908EA-3421-4CA9-9B84-6689B8C6F85F}" /> 
      <EventID>1146</EventID> 
      <Version>0</Version> 
      <Level>1</Level> 
      <Task>3</Task> 
      <Opcode>0</Opcode> 
      <Keywords>0x8000000000000000</Keywords> 
      <TimeCreated SystemTime="2017-10-30T04:10:18.123176100Z" /> 
      <EventRecordID>181195</EventRecordID> 
      <Correlation /> 
      <Execution ProcessID="3316" ThreadID="14340" /> 
      <Channel>System</Channel> 
      <Computer>NODE2-CY.idms-finance.local</Computer> 
      <Security UserID="S-1-5-18" /> 
      </System>
    - <EventData>
      <Data Name="NodeName">NODE2-CY</Data> 
      </EventData>
      </Event>

    Командами перегрузить ноду тоже не удалось - пришлось перегрузить через iLO. После физического выключения все VM находящиеся на этой ноде успешно стартовали на второй ноде.

    И вот теперь вопрос - что это было? Почему слияние диска (-ов)  было таким долгим? Почему после обращения к проблемной виртуалке встала сама нода? Почему нода не отдала виртуалки второй ноде?

    И общий вопрос: как избежать повторения таких ситуаций?

    30 октября 2017 г. 17:13