none
Cluster Hyper-V 2012 Datacenter hung RRS feed

  • Domanda

  • Buongiorno a tutti,

    chiedo il Vs supporto per un problema verificatosi su un Cluster Hyper-V 2012.

    Il Cluster è composto da n. 07 nodi, con configurazione del Quorum Node Majority con n. 02 LUN da 1.2 TB l' una; per la parte SAN ci sono le schede Emulex LPe 12002 e storage NetApp.

    Ultimamente capita un evento molto strano; se uno dei nodi si freeza e/o resta in hung, trattiene l' ownership delle due LUN, anche se sono in carico a lui; il Server fisico risponde cmq al ping ma le VM in carico restano in "LOADING", come tutte le altre. Se accedo su un altro server e provo a sfogliare le folder c:\ClusterStorage\Volume1-2-, il cursore resta in clessidra senza dare nessun output.

    Nel momento che spengo "brutalmente" il Server in hang, le VM magicamente si riavviano sugli altri 6 nodi attivi. Nei Log di Windows, a parte gli errori del Cluster, non ho trovato nessun errore riconducibile a problemi HW o delle schede in FC.

    Le VM per ora sono in totale 50 e il carico di lavoro è bilanciato su tutti e 7 i nodi che cmq sono Fujitsu Primergy ben carrozzati.

    Grazie per i suggerimenti.


    martedì 2 agosto 2016 10:59

Risposte

  • Buonasera,

    sembrerebbe che con l' aggiornamento del fw Emulex il problema non si presenti.

    Ci aggiorniamo con altro post in caso di ulteriori hung.

    Grazie

    • Contrassegnato come risposta SysAdmin_IT mercoledì 7 settembre 2016 14:26
    mercoledì 7 settembre 2016 14:26

Tutte le risposte

  • Ciao,

    genera il log del cluster quando il problema si verifica  con il comando PS Get-ClusterLog.

    REF: https://technet.microsoft.com/en-us/library/ee461045.aspx

    Da li probabilmente riesci avedere meglio cosa succede.


    This post is provided AS IS with no warranties or guarantees, and confers no rights.
    ~~~
    Questo post non fornisce garanzie e non conferisce diritti

    martedì 2 agosto 2016 11:56
  • Ciao,

    gli unici errori che ho trovato sono questi:

    ERR   [RHS] s_RhsRpcCreateResType: ERROR_NOT_READY(21)' because of 'Startup routine for ResType MSMQ returned 21.'

    WARN  [RCM] Failed to load restype 'MSMQ': error 21.

    riportati nel seguente articolo, che possono essere ignorati:

    https://blogs.msdn.microsoft.com/clustering/2013/04/05/msmq-errors-in-the-cluster-log/


    martedì 2 agosto 2016 12:20
  • quelli sono consistenti in tutti i cluster.log che ho visto, direi non sono correlati al tuo problema.

    Hai giá provato a eseguire un cluster validation completo? (Devi mettere offline le VM per testare anche lo storage)


    This post is provided AS IS with no warranties or guarantees, and confers no rights.
    ~~~
    Questo post non fornisce garanzie e non conferisce diritti

    martedì 2 agosto 2016 12:30
  • Lo rilancio aggiornato....
    martedì 2 agosto 2016 12:37
  • Nel validation ho solo alcuni errori su Validate Hyper-V Integration Services Version, per via di alcune VM che non hanno il tool aggiornato.

    Il resto è ok.

    martedì 2 agosto 2016 12:59
  • uhmm mi aspettavo qualcosa sullo storage di quel nodo.

    Se non ci sono errori riportati da nessuna parte e il nodo é in hang la prima cosa che mi viene in mente é un full dump della memoria, se non c'é nulla di ovvio lo puoi passare al supporto MS a pagamento.


    This post is provided AS IS with no warranties or guarantees, and confers no rights.
    ~~~
    Questo post non fornisce garanzie e non conferisce diritti

    martedì 2 agosto 2016 13:12
  • Non ho neanche il MEMORY.dmp, seppur impostato.

    Potrebbe essere un problema di driver/firmware della scheda FC Emulex? come versioni installate non sono aggiornate, si potrebbe sempre provare...

    martedì 2 agosto 2016 13:22
  • direi di si, peró il validation report dovrebbe dirti se i vari nodi caricano driver diversi. Aggiornarli non fa (quasi)mai male

    This post is provided AS IS with no warranties or guarantees, and confers no rights.
    ~~~
    Questo post non fornisce garanzie e non conferisce diritti

    martedì 2 agosto 2016 13:36
  • Anche perchè gli unici errori li ho visti nei log del multipath Data DSM ONTAP, nativo del vendor NetApp; gli indizzi portano a quello...
    martedì 2 agosto 2016 13:40
  • Ciao Francesco, puoi puntualizzare questa parte del discorso "se uno dei nodi si freeza...". In particolare sarebbe utile capire se il problema è circoscritto ad un unico nodo oppure se è random su tutti i nodi o su alcuni nodi specifici.

    Altro chiarimento/verifica è sul livello firmware/driver delle schede di rete. Sono tutte allineate?

    Saluti
    Nino

    martedì 2 agosto 2016 16:25
    Moderatore
  • Buonasera,

    il livello di aggiornamento patch, driver e firmware è allineato su tutti i nodi a settembre 2015; in particolare, quello che ho notato in effetti è un disallineamento di firmware rispetto alla matrice NetApp; mi spiego meglio.

    Le schede Emulex LPe 12002 hanno l' accoppiata Driver/Firmware non in matrice rispetto allo storage, in particolare, la versione del firmware è due rilasci indietro. Pero' riguardo alla versione aggiornata del firmware, nel file di Release Notes, non ho trovato la correzione di un bug che risolve questo specifico problema.

    Intanto, però, vorrei provare ad aggiornare il fw e attendere gli esiti; poi magari vediamo.

    Il problema del freeze capita, random e raramente, anche su altri nodi fisici con lo stesso comportamento; finchè non riavvio brutalmente il Server, le LUN non sono disponibili in csv.

    martedì 2 agosto 2016 17:19
  • Buonasera,

    sembrerebbe che con l' aggiornamento del fw Emulex il problema non si presenti.

    Ci aggiorniamo con altro post in caso di ulteriori hung.

    Grazie

    • Contrassegnato come risposta SysAdmin_IT mercoledì 7 settembre 2016 14:26
    mercoledì 7 settembre 2016 14:26
  • Ciao Francesco, grazie per aver aggiornato il thread. Hai confermato il sospetto di un firmware non aggiornato.

    Saluti
    Nino

    mercoledì 7 settembre 2016 14:45
    Moderatore