none
Cluster, échec de la migration dynamique RRS feed

  • Question

  • Bonjour,

    Depuis 1 mois je rencontre un dysfonctionnement de mon cluster composé de 2 hôtes et 10 vm.

    Les 2 hôtes sont de la marque dell, la baie de disque aussi. 

    Au début, lors d'une migration dynamique la VM s'enregistrer et s'arrêter pour ensuite essayer de démarrer sur le 2nd hôte, lors du démarrage il y avait 2 ou 3 tentatives, puis elle basculée sur son hôte d'origine et là, elle démarrée. 

    J'ai passé les mises à jour Windows sur mes hôtes et le problème a évolué. 

    Maintenant lors d'une migration dynamique, arrivée à 84% de la migration la VM se coupe pendant 1 minute puis se relance sur le bon hôte, durant cette "migration" le PING de mon poste vers la VM est OK avant les 84% puis NOK par la suite.

    2nd cas de figure, la migration n'aboutit pas et la VM reste sur son hôte, j'ai remarqué que si la VM en question se trouve sur le H-01 depuis le H-02 je ne peux pas ouvrir les paramètres : Échec de la gestion de l'ordinateur virtuel Ordinateur virtuel X-06

    Quand je vais dans les détails du message : https://social.technet.microsoft.com/Forums/getfile/1481176

    et voici les événements dans les journaux : 

    Échec de la migration dynamique de « Ordinateur virtuel X-06 ». Échec de l’opération de migration d’ordinateur virtuel pour « X-06 » à l’emplacement source de la migration « H-02 ». 
    (ID d’ordinateur virtuel 986C2152-5521-4C12-A115-F934A076CB2D) La migration d’ordinateur virtuel pour « X-06 » n’a pas été terminée, car l’opération a été annulée. (ID d’ordinateur virtuel 986C2152-5521-4C12-A115-F934A076CB2D)

    Le déplacement en suspens pour le rôle « X-06 » n’a pas abouti. ID 1155
    Échec de la migration dynamique de « Ordinateur virtuel X-06 ». ID 21502

    Les hôtes sont identiques en termes de composant/maj donc je ne pense pas que ce soit le processeur la cause, le journal système mentionne : la Carte de performance WMI Le service Carte de performance WMI est entré dans l’état : arrêté / en cours d’exécution. (ID 7036) 

    Dans les services OK sur l'un NOK sur l'autre ? https://social.technet.microsoft.com/Forums/getfile/1481179

    Si quelqu'un à une idée ?

    Cordialement,

    lundi 9 septembre 2019 13:52

Toutes les réponses

  • Bonjour,

    Comment procédez vous pour faire les basculements des VM ? Via SCVMM ou le Gestionnaire de Cluster ?
    Il faudrait sur ce dernier vérifier les événements du cluster. C'est peut être le service de cluster qui dysfonctionne et qu'il faudrait redémarrer. Il faudrait également vérifier que les enveloppes des VM sont bien en ligne côté cluster. Sur SCVMM, il faut vérifier que les VM sont bien en haute disponibilité.
    Vérifier aussi si le réseau n'est pas en cause.
    Difficile à dire comme ça ce qui peut se passer.


    lundi 9 septembre 2019 14:04
  • Bonjour,

    Via le gestionnaire de Cluster, pour les événements de cluster, il n'y a que 3 lignes (Le déplacement en suspens pour le rôle « X-06 » n’a pas abouti. ID 1155).

    Je remarque ce problème touche 2 VM qui sont assez lourde (16 Go/8Vpu) tandis que mon AD qui est plus léger lui pas de soucis pour la migration/administration depuis les 2 hôtes.

    Les 2 VM en question héberge des services SQL.


    • Modifié Cyril31 lundi 9 septembre 2019 14:14
    lundi 9 septembre 2019 14:13
  • Bonjour,

    J'ai déjà constaté effectivement que sur des VM qui hébergent des services SQL, la live migration est plus longue que pour d'autres serveurs. Cela doit être dû aux accès sur les bases qui continuent de se faire. Avez vous un réseau dédié pour la live migration ? Vous pouvez faire un ping en continu sur ces VM pour voir si il n'y a pas des pertes, ce qui pourrait expliquer que la migration échoue.

    mardi 10 septembre 2019 08:38
  • Merci pour votre réponse, 

    Oui il y a bien un réseau dédié et non il n'y a pas de perte sur les VM, les pertes se présentent quand la VM arrive à 84% de la migration dynamique.

    Normalement, lors d'une migration de VM, il y a un petit freez au moment ou la RAM se transfert de l'HV-A à l'HV-B.

    Mais la, il s'agit d'une coupure, on dirait une extinction ou une mise en veille afin que ce soit moins lourd comme pour une migration rapide.


    • Modifié Cyril31 mercredi 11 septembre 2019 10:31
    mercredi 11 septembre 2019 10:28
  • Bonjour,

    J'aurai commencé par faire un test de validation du cluster en faisant next next next.

    Cela vous sortira un fichier HTML qui permet de faire ressortir quelque problèmes parfois.

    Sinon, il faudrait essayer d'éteindre les vm puis les rallumer et retenter l'opération. Attention, il faut bien les éteindre et non pas faire redémarrer.

    Cela permet aux VM de récupérer les mises à jour des microcodes processeur si jamais vous avez passé ces mises à jour récement. C'est un problème que j'ai pu rencontré dans mon cas.


    Merci de marquer comme reponses les interventions qui vous ont ete utile.

    dimanche 15 septembre 2019 15:35
  • Bonjour,

    Désolé pour le temps de réponse... 

    Je viens de m’apercevoir que j'avais des erreurs sur mes cartes CSV et LIVE lorsque le crash se produit.

    Les erreurs sont 1127 et 1130

    1130 : 

    Le réseau de cluster « CSV » est hors-service. Aucun des nœuds disponibles ne peut communiquer à l’aide de ce réseau. Exécutez l’Assistant Validation d’une configuration pour vérifier votre configuration réseau. Si le problème persiste, recherchez les erreurs matérielles ou logicielles liées à la carte réseau. Recherchez également les défaillances sur tous les autres composants réseau auxquels le nœud est connecté, par exemple les concentrateurs, les commutateurs ou les ponts.


    1127 :

    Échec de l’interface réseau de cluster « H-01 - TEAM_CSV » pour le nœud de cluster « H-01 » sur le réseau « CSV ». Exécutez l’Assistant Validation d’une configuration pour vérifier votre configuration réseau. Si le problème persiste, recherchez les erreurs matérielles ou logicielles liées à la carte réseau. Recherchez également les défaillances sur tous les autres composants réseau auxquels le nœud est connecté, par exemple les concentrateurs, les commutateurs ou les ponts.

    Ce problème de live_mig ne concerne que deux VM, de mes VM, le reste de mes VM migrent sans soucis.

    X-01 : 16 Go / 8 VCpu,

    X-02 : 16 Go / 8Vcpu,

    Quand je fais un systeminfo sur le X-01, le besoin mémoire est de 17Go, est-ce que cela peut jouer ? 

    Les 2 serveurs ont des services SQL, le crash se produit toujours à 48% de la migration. 

    Les VM en question sont à jour, est-ce je devrais rajouter des ports dans mes team CSV/LIVE ? 

    Cordialement,

      
    lundi 30 septembre 2019 14:42
  • Bonjour,

    Si le problème se pose uniquement pour ces 2 VM, vous pouvez essayer de supprimer les rôles depuis la console du Gestionnaire de Cluster. Cela ne supprime pas les VM, mais les sort du cluster. Il suffit ensuite d'ajouter les rôles concernant ces 2 VM, toujours depuis le Gestionnaire de Cluster. Vous pouvez également exécuter l'assistant de validation du Cluster.

    mardi 1 octobre 2019 08:14