none
Hyper-V Cluster - LiveMigration schlägt fehl wegen Speicherzugriff? RRS feed

  • Frage

  • Hallo.

    Dies wird einer längerer Post, aber bitte, wenn es hier Leute gibt, die mir irgendwelche Tipps geben können, ich wäre sehr dankbar!

    Also:

    Ich habe einen 4 Node HV Cluster (noch im Testbetrieb) auf dem aktuell 6 VMs zu Testzwecken laufen.

    Wenn ich jetzt eine VM die ich vorher von einem Standalone HV auf den Cluster migriert habe innerhalb des Clusters migrieren will erhalte ich im Migrations Assistent bei der Hostbewertung für jeden Node 0 Sterne und die Meldung:

    "der host hat für mindestens ein virtuelles laufwerk, das der virtuellen Maschine XXXXXX zugewiesen ist, keinen zugriff auf ausreichenden speicherplatz der angeforderten klassifizierung"

    Was genau könnte das Problem sein?

    Hinweise und Anmerkungen:

    - VMs die ich aus einer vorher im VMM erstellten VM Vorlage neu erstellt habe (also nicht ursprünglich von einem anderen HV Server kamen) kann ich hin und her migrieren wie ich will, es geht nur nicht bei VMs die nicht aus der Vorlage generiert wurden.

    - Bei sämtlichen beteiligten Maschinen (Hostcluster, Standalone HV Hosts und alle VMs) handelt es sich um Windows Server 2012 R2, ausser einer VM, die ist ein win 2003, hatr aber das selbe Problem.

    - Wenn ich im LiveMig Assistent oben den Haken "Diese VM Hochverfügabr machen" setze, erhalte ich meine gewohnte 4 1/2 Sterne bewertung und kann den Assisten fortsetzen, die wird dann auch gestartet, bricht aber ab mit folgendem Fehler ab:

    Fehler (12700)
    Der Hostvorgang auf dem Server "wvislumwelt03.lua.saarland.de" kann von VMM aufgrund des folgenden Fehlers nicht abgeschlossen werden: Fehler beim Migrationsvorgang für den virtuellen Computer "testvm2" an der Migrationsquelle "WVISLUMWELT03". (ID des virtuellen Computers: 8E31217E-6882-468A-AD56-1084B34FBB50)
    
    Der Vorgang ist für den virtuellen Computer "testvm2" nicht zulässig, da der Hyper-V-Zustand noch aus der Konfiguration des virtuellen Computers initialisiert werden muss. Wiederholen Sie den Vorgang in einigen Minuten. (ID des virtuellen Computers: 8E31217E-6882-468A-AD56-1084B34FBB50)
    Unknown error (0x800c)
    
    Empfohlene Aktion
    Beheben Sie das Problem auf dem Host, und wiederholen Sie dann den Vorgang.
    


    "Wiederholen sie den Vorgang in einigen Minuten" hilft aber nicht, es kommt immer wieder dieser Fehler

    - Die Maschinen liegen auf 2 CSV Volumes, die auch beide im Failoverclustermanager als online angezeigt werden und von allen Hosts auch erreichbar sind unter c:\ClusterStorage\Volume1 und 2

    - die Berechtigungen auf den VM Ordnern zeigen keine Unterschiede ziwschen VMs die migriert werden können und denen bei den die Migration fehlschlägt, bzw gar nicht erst gestartet werden kann.

    - alle VMs haben ein virtuelles Laufwerk als OS VHDX zugewiesen und keine weiteren Datenträger, auch keine virtuellen CD Laufwerke.

    So, das erstmal soweit zu den Umständen, wenn ihr noch mehr wissen wollt lasst es mich wissen, aber richtig tricky wird es erst jetzt. Das Problem trat erst auf nachdem ich einen Patch installiert habe, davor lief der CLuster wie butter mit einer Ausnahme:

    Mir fiel auf das bei jeder Migration im Eventlog ein Fehler auflief:

    Quelle: Hyper-V-VmSwitch
    Event-ID: 113
    Failed to allocate VMQ for NIC 8E31217E-6882-468A-AD56-1084B34FBB50--D3247518-4D96-4181-99C2-F994227B6802 (Friendly Name: Netzwerkkarte) on switch 44FD03A3-CCB3-47EB-9641-C99561915B25 (Friendly Name: converged_net_vSwitch_10Gb). Reason - The OID failed. Status
     = Einem Dienst oder einer Funktion wurde ein ungültiger Parameter übergeben.

    Die Migration ansich lief Problemlos, der Fehler im Eventlog viel mir nur zufällig auf.

    Aber natürlich versucht man das Problem zu lösen und ein kurze google Suche fordert dies zu tage:
    https://support.microsoft.com/de-de/kb/3001783

    Exakt mein Fehler, es wird ein Hotfix angeboten.

    Also diesen Hotfix installiert und danach ging alles den Bach runter.

    Chonologisch:
    - Böser Fheler meinerseit: in Vertrauen auf den Fix hab ich ihn auf allen nodes gleichzeitig installiert (aber nicht alle neugestartet)
    - nach Installation will der Patch den Server neustarten. Da es sich noch nur um Testsystem handelt habe ich die VMs nicht wegmigriert sondern einfach pausieren lassen als ich den Server in den Wartungsmodus verstzt habe.
    - 3 Server nacheinander neugestartet, beim 4. war der Patch nur installiert aber der server nicht neugestartet.
    - festellen müssen dass meine 3 neugestarteten Server über den Hyper-V Manager nicht mehr verwaltet werden können (!) nur noch über VMM
    - festgestellt das meine pausierten VMs nicht mehr ohne weiteres gestartet werden konnten, ich musste sie alle einmal aktualisieren, dann ging es wieder.
    - festgestellt dass ich meine VMs nciht mehr migrieren kann! Ab diesem Zeitpunkt trat der am Anfang beschriebene Fehler auf.
    - darauf hin server 4 nicht neugestartet und denn patch wieder deinstalliert, ebenso auf allen anderen Maschinen  Patch wieder deinstalliert.
    - alle Maschinene nacheinandere einmal neugestartet
    - Alle Maschinen wieder mittels Hyper V Manager erreichbar und verwaltbar!

    Aber seit dem funktioniert die Live Migration nur noch bei Maschinen die ich aus meiner VMM VM Vorlage erstellt habe, nciht mehr bei den vorher schon vorhandenen Maschinen, obwolh alle auf den selben CSVs liegen und die Berechtigungen scheinbar identisch sind.

    Noch ein Hinweis, zusätzlich zum aktuellen Fehler den ich jetzt habe beim Versuch einer LiveMigration gab es erst noch zwei weiter Fehler:

    Fehler beim Herstellen einer Verbindung mit dem Host “HYPERV3”: Die Anmeldeinformationen, die dem Paket übergeben wurden, wurden nicht erkannt. (0x8009030D).
    
    
    Fehler beim Herstellen einer Verbindung mit dem Host “HYPERV3”: Im Sicherheitspaket sind keine Anmeldeinformationen verfügbar. (0x8009030E).

    Diese habe ich mittels dieses Beitrags:

    https://www.hyper-v-server.de/hypervisor/hyper-v-livemigration-der-unterschied-zwischen-credssp-und-kerberos/

    gelöst bekommen. Kurz gesagt: in den erweiterten Migrationseinstellungen der Hosts die Authetifizierung von CredSSP auf Kerberos geändert und im AD für jeden Host cifs und hyperV Migration unter Delegierung aktiviert.

    Aber wie gesagt, diese Fehler traten auch erst nach diesem ominösen Patch auf.

    So, das war es fürs erste.
    Wer es soweit geschafft hat und eine Vermutung oder Lösung hat, bitte nur her damit, ich wäre enorm dankbar. Es ist zwar noch nur ein Testsystem, aber ich habe da schon viel Arbeit hineingesteckt und als letzt Ausweg würde ich es ungern neu aufsetzen.

    Grüße, Sascha



    • Bearbeitet Sascha Loth Freitag, 15. Januar 2016 09:05
    Freitag, 15. Januar 2016 08:54

Antworten

  • sooo

    also, danke euch für alle antworten. Ich habe das Problem lösen können.

    Dazu muss ich sagen, evtl hatte das Ausgangsproblem dass ich hatte

    "der host hat für mindestens ein virtuelles laufwerk, das der virtuellen Maschine XXXXXX zugewiesen ist, keinen zugriff auf ausreichenden speicherplatz der angeforderten klassifizierung"

    evtl doch nichts mit dem Patch zu tun (Die nicht erreichbarkeit über hyper-v manager aber auf jeden fall).

    Nachdem ich ein wenig tiefer gegraben habe habe ich gesehen das meine Maschinen die sich nciht migrieren liesen in ihrer xml eine Windows Installations ISO gemountet hatten. Diese wurde mir aber in den Eigenschaften der VMs nicht angezeigt. Dort war gar kein LAufwerk angelegt, so wie es auch sein soll.

    Die gemountete ISO lag auf einem Pfad den es auf den Cluster Hosts nicht gibt, den dieses VMs kamen ja alle von einem anderen, standalone Host. Dort wurden sie tatsächlich mit besagter ISO aus besagtem Pfad installiert. Und auf diesem Standalone ist liegt die iso auch weiter fröhlich vor sich hin...

    was dann zum Erfolg führte war folgendes:

    - Im Failovercluster manager eine neue Rolle->virtueller Computer hinzufügen und eine VM wählen die sich nicht migrieren lässt.
    - im VMM in denEigenschaften der Maschine ein CD LAufwerk hinzufügen, keine ISO mounten.
    - Im VMM die VM aktualisieren
    - Im VMM die VM im ausgeschalteten Zusatnd einmal migrieren

    Dann sollte alles wieder passen, man kann die Maschine hochfahren und dann hat die Live Migration wieder funktioniert.

    Gleichzeitig sind die VMs jetzt auch als hochverfügbar geflaggt.

    Aber freut euch nciht zu früh, ihr werdet sicher bald wieder von mir hören :D

    • Als Antwort markiert Sascha Loth Freitag, 15. Januar 2016 13:46
    Freitag, 15. Januar 2016 13:45

Alle Antworten

  • Mir fiel auf das bei jeder Migration im Eventlog ein Fehler auflief:

    Quelle: Hyper-V-VmSwitch
    Event-ID: 113
    Failed to allocate VMQ for NIC 8E31217E-6882-468A-AD56-1084B34FBB50--D3247518-4D96-4181-99C2-F994227B6802 (Friendly Name: Netzwerkkarte) on switch 44FD03A3-CCB3-47EB-9641-C99561915B25 (Friendly Name: converged_net_vSwitch_10Gb). Reason - The OID failed. Status
     = Einem Dienst oder einer Funktion wurde ein ungültiger Parameter übergeben.


    Hallo,

    hast Du die Queue Einstellungen angepasst?

    Gruß,
    Marcel

    http://www.windowspro.de/marcel-kueppers

    Freitag, 15. Januar 2016 10:02
  • gelöst bekommen. Kurz gesagt: in den erweiterten Migrationseinstellungen der Hosts die Authetifizierung von CredSSP auf Kerberos geändert und im AD für jeden Host cifs und hyperV Migration unter Delegierung aktiviert.



    Die KCD brauchst Du doch nicht im Cluster.



    http://www.windowspro.de/marcel-kueppers

    Freitag, 15. Januar 2016 10:06
  • Abschließende Frage: willst Du diesen Cluster wirklich irgendwann in Produktivbetrieb nehmen? Ich würde Ihn neukonfigurieren. Sauber. Mit allen aktuellen NIC Treibern.

    http://www.windowspro.de/marcel-kueppers

    Freitag, 15. Januar 2016 10:39
  • Mir fiel auf das bei jeder Migration im Eventlog ein Fehler auflief:

    Quelle: Hyper-V-VmSwitch
    Event-ID: 113
    Failed to allocate VMQ for NIC 8E31217E-6882-468A-AD56-1084B34FBB50--D3247518-4D96-4181-99C2-F994227B6802 (Friendly Name: Netzwerkkarte) on switch 44FD03A3-CCB3-47EB-9641-C99561915B25 (Friendly Name: converged_net_vSwitch_10Gb). Reason - The OID failed. Status
     = Einem Dienst oder einer Funktion wurde ein ungültiger Parameter übergeben.


    Hallo,

    hast Du die Queue Einstellungen angepasst?

    Gruß,
    Marcel

    http://www.windowspro.de/marcel-kueppers

    ja die Queues sind konfiguriert

    Name                           InterfaceDescription              Enabled BaseVmqProcessor MaxProcessors NumberOfReceiveQ
                                                                                                            ueues
    ----                           --------------------              ------- ---------------- ------------- ----------------
    Team1Gb                        Microsoft Network Adapter Mult... True    0:0                            14
    NIC2                           Intel(R) Ethernet 10G 4P X540/... True    0:18             16            63
    NIC1                           Intel(R) Ethernet 10G 4P X54...#2 True    0:2              16            63
    Team10Gb                       Microsoft Network Adapter Mu...#2 True    0:0                            126
    NIC4                           Intel(R) Gigabit 4P X540/I35...#2 True    0:42             8             7
    NIC3                           Intel(R) Gigabit 4P X540/I350 ... True    0:34             8             7
    

    Freitag, 15. Januar 2016 10:49
  • gelöst bekommen. Kurz gesagt: in den erweiterten Migrationseinstellungen der Hosts die Authetifizierung von CredSSP auf Kerberos geändert und im AD für jeden Host cifs und hyperV Migration unter Delegierung aktiviert.



    Die KCD brauchst Du doch nicht im Cluster.



    http://www.windowspro.de/marcel-kueppers

    nein, vorher hab ich sie auch nicht gebracuht. Der Fehler mit der fehlenden Authentifizierung trat erst nach diesem Patch auf. mit kerberos + delegation ist der Fehler weg.
    Freitag, 15. Januar 2016 10:50
  • Abschließende Frage: willst Du diesen Cluster wirklich irgendwann in Produktivbetrieb nehmen? Ich würde Ihn neukonfigurieren. Sauber. Mit allen aktuellen NIC Treibern.

    http://www.windowspro.de/marcel-kueppers

    eigentlich hatte ich das schon vor. Die NIC Treiber sind alle aktuell. Es handelt sich um Dell maschinen und sämtlich Treiber und FW sind das aktuellste was Dell über das Repository anbietet.

    Freitag, 15. Januar 2016 10:51
  • Du kannst diesen Cluster zum basteln sicher noch was weiterführen. Vllt würde ich die ein oder andere Einstellung auf Default zurücksetzen, speziell auch die VMQs. Aber produktiv würde ich das Konstrukt so (Mit ungeklärten Patchen) nicht hinstellen. Aber das ist nur meine Meinung.

    Gruß,
    Marcel

    http://www.windowspro.de/marcel-kueppers

    Freitag, 15. Januar 2016 11:00
  • Moin Sascha, 

    wenn ich es richtig in Erinnerung habe gab es vor einiger Zeit mal ein Security Update welches die Einstellungen für LM über CredSSp verschärft hat. Hatte das Thema auch schonmal bei irgend nem Kunden. Gab da 2 Möglichkeiten 

    1. Security Richtlinien und Firewall bastelln bis es geht  oder

    2. So wie du es vollkommen richtig gemacht hast, Kerberos und Contrained Delegation

    Kerberos ist auch für Produktivcluster die Best Practice Authentifizierung die Microsoft empfiehlt. 

    Hyper-V Livemigration – Der Unterschied zwischen CredSSP und Kerberos

    Virtualized Servers – Picking the right VM live migration settings


    Kind regards, Flo

    Freitag, 15. Januar 2016 11:59
  • Kerberos ist auch für Produktivcluster die Best Practice Authentifizierung die Microsoft empfiehlt.

    Welche Wahl habe ich denn ;)

    http://www.windowspro.de/marcel-kueppers

    Freitag, 15. Januar 2016 12:19
  • 2. So wie du es vollkommen richtig gemacht hast, Kerberos und Contrained Delegation

    KCD wird bei shared Nothing LM benötigt, aufgrund er Kerberos Richtlinie über remote HOPS, aber innerhalb eines Cluster (mit Integration ins AD) wird Kerberos gesprochen und die Authentifizierung passiert über die Cluster Accounts.

    http://www.windowspro.de/marcel-kueppers

    Freitag, 15. Januar 2016 12:21
  • sooo

    also, danke euch für alle antworten. Ich habe das Problem lösen können.

    Dazu muss ich sagen, evtl hatte das Ausgangsproblem dass ich hatte

    "der host hat für mindestens ein virtuelles laufwerk, das der virtuellen Maschine XXXXXX zugewiesen ist, keinen zugriff auf ausreichenden speicherplatz der angeforderten klassifizierung"

    evtl doch nichts mit dem Patch zu tun (Die nicht erreichbarkeit über hyper-v manager aber auf jeden fall).

    Nachdem ich ein wenig tiefer gegraben habe habe ich gesehen das meine Maschinen die sich nciht migrieren liesen in ihrer xml eine Windows Installations ISO gemountet hatten. Diese wurde mir aber in den Eigenschaften der VMs nicht angezeigt. Dort war gar kein LAufwerk angelegt, so wie es auch sein soll.

    Die gemountete ISO lag auf einem Pfad den es auf den Cluster Hosts nicht gibt, den dieses VMs kamen ja alle von einem anderen, standalone Host. Dort wurden sie tatsächlich mit besagter ISO aus besagtem Pfad installiert. Und auf diesem Standalone ist liegt die iso auch weiter fröhlich vor sich hin...

    was dann zum Erfolg führte war folgendes:

    - Im Failovercluster manager eine neue Rolle->virtueller Computer hinzufügen und eine VM wählen die sich nicht migrieren lässt.
    - im VMM in denEigenschaften der Maschine ein CD LAufwerk hinzufügen, keine ISO mounten.
    - Im VMM die VM aktualisieren
    - Im VMM die VM im ausgeschalteten Zusatnd einmal migrieren

    Dann sollte alles wieder passen, man kann die Maschine hochfahren und dann hat die Live Migration wieder funktioniert.

    Gleichzeitig sind die VMs jetzt auch als hochverfügbar geflaggt.

    Aber freut euch nciht zu früh, ihr werdet sicher bald wieder von mir hören :D

    • Als Antwort markiert Sascha Loth Freitag, 15. Januar 2016 13:46
    Freitag, 15. Januar 2016 13:45