none
Event ID 1073 The Cluster service was halted to prevent an inconsistency within the failover cluster. The error code was '668'. RRS feed

  • Вопрос

  • Добрый день!

    Есть 5-узловой кластер SQL Server 2012 на ОС Windows server 2012 Datacenter собранный из IBM Bladecenter HS23 type 7875. На узлах кластера настроен SAN-boot по FC с СХД IBM Storwize v3700, также в кластер по FC проброшены диски с СХД IBM Storwize v7000. 
    Периодически на разных узлах этого кластера возникает ошибка вида Event ID 1073 The Cluster service was halted to prevent an inconsistency within the failover cluster. The error code was '668'. После чего появляются ошибки Event ID 7031 The Cluster Service service terminated unexpectedly.  It has done this 1 time(s).  The following corrective action will be taken in 60000 milliseconds: Restart the service и Event ID 7024 The Cluster Service service terminated with the following service-specific error: An assertion failure has occurred. После чего данный узел зависает в состоянии Joining и тоже самое происходит со всеми узлами кластера, которые будут перезагружены и вообще любая операция с ресурсами кластера становится невозможна. В это время в логе system видны следующие события. Кластер возвращается к нормальному состоянию только в случае перезагрузки всех его узлов. Ниже привожу кусок cluster log на момент появляения ошибки:

    00000b4c.00000c7c::2014/04/21-03:32:25.939 INFO  [VSS] Backing up part of the system state [VSS] OnPrepareBackup: starting new session dfb4fbf0-db28-40d2-af3a-82e66a271267
    00000b4c.00000c7c::2014/04/21-03:32:25.939 INFO  [VSS] OnPrepareBackup returning - true
    00000b4c.00001194::2014/04/21-03:32:26.704 INFO  [GUM] Node 7: Processing RequestLock 4:4744
    00000b4c.00001198::2014/04/21-03:32:26.704 INFO  [GUM] Node 7: Processing GrantLock to 4 (sent by 3 gumid: 11271)
    00000b4c.00000e2c::2014/04/21-03:32:26.704 ERR   mscs::GumAgent::ExecuteQueuedUpdate: TransactionInProgress(5918)' because of 'Cannot restart an in-progress transaction'
    00000b4c.00001194::2014/04/21-03:32:26.719 ERR   Failed type check .?AUBoxedNodeSet@mscs@@
    00000b4c.00001194::2014/04/21-03:32:26.719 ERR   [CORE] mscs::ClusterCore::DeliverMessage: TypeMismatch(1629)' because of 'failed type check'
    00000b4c.00000e2c::2014/04/21-03:32:26.750 INFO  [VSS] HandleBackupGum - Initiating the backup
    00000b4c.00000e2c::2014/04/21-03:32:26.750 INFO  [VSS] HandleOnFreezeGum - Stopping the Death Timer
    00000b4c.00000e2c::2014/04/21-03:32:26.750 INFO  [VSS] HandleBackupGum - Completed the backup Request
    00000b4c.00000e2c::2014/04/21-03:32:26.750 ERR   [GUM] Node 7: sequenceNumber + 1 == payload->GumId (5129, 11272)
    00000b4c.00000e2c::2014/04/21-03:32:26.750 ERR   mscs::GumAgent::ExecuteQueuedUpdate: AssertionFailed(668)' because of 'failed assertion'(sequenceNumber + 1 == payload->GumId is false)
    00000b4c.00000e2c::2014/04/21-03:32:26.750 ERR   GumHandler failed (status = 668)
    00000b4c.00000e2c::2014/04/21-03:32:26.750 ERR   GumHandler failed (status = 668), executing OnStop
    00000b4c.00000e2c::2014/04/21-03:32:26.750 INFO  [DM]: Shutting down, so unloading the cluster database.
    00000b4c.00000e2c::2014/04/21-03:32:26.750 INFO  [DM] Shutting down, so unloading the cluster database (waitForLock: false).
    00000b4c.00000e2c::2014/04/21-03:32:26.813 ERR   FatalError is Calling Exit Process.
    00000b4c.00000b50::2014/04/21-03:32:26.813 INFO  [CS] About to exit process...
    000015d0.000015d4::2014/04/21-03:32:26.828 WARN  [RHS] Cluster service has terminated.
    00001618.0000161c::2014/04/21-03:32:26.828 WARN  [RHS] Cluster service has terminated.
    00001588.0000158c::2014/04/21-03:32:26.828 WARN  [RHS] Cluster service has terminated.
    000015f4.000015f8::2014/04/21-03:32:26.828 WARN  [RHS] Cluster service has terminated.

     

    22 апреля 2014 г. 10:49

Ответы

  • После VSS происходит перезапуск службы кластера и дальше 

    00001410.00001238::2014/04/21-06:19:30.650 ERR   [QUORUM] Node 7: Fail to form/join a cluster in 6:15.000
    00001410.00001238::2014/04/21-06:19:30.650 INFO  [CORE] Node quorum state is 'Not yet formed or joined a cluster'. Form/join status with other nodes is as follows:

    и все ноды в статусе joining, что Вы и наблюдали. процесс перезапуск службы и подобная ошибка зациклены.

    +

    http://blogs.technet.com/b/dpm/archive/2013/05/16/dpm-and-system-state-backup-explained.aspx

    If the server you are protection is a member of a cluster, it is possible that a cluster drive will be selected in this process. If that drive ownership has been switched to another node, then next time system state for the node is done, the drive is no longer available and the backup will fail. In this situation, you will need to modify the PSDataSourceConfig.XML to point it to a local drive

    Я бы system state/bmr хостов кластера вообще не делал бы,если честно. 

    Были апдейты, связанные с DPM, вот такие:

    http://support.microsoft.com/kb/2908415

    http://support.microsoft.com/kb/2813630

    Но все они уже включены в  KB 2878635


    Roman Levchenko, MCSA, MCITP, MCTS http://www.rlevchenko.com

    30 апреля 2014 г. 6:38

Все ответы

  • Стоят http://support.microsoft.com/kb/2784261/EN-US ?

    Get-Hotfix KB2916993,KB2929869,KB2913695,KB2878635,KB2894464,KB2838043,KB2803748,KB2770917

    Roman Levchenko, MCSA, MCITP, MCTS http://www.rlevchenko.com


    22 апреля 2014 г. 11:14
  • Стояли все, кроме http://support.microsoft.com/kb/2916993/ru - поставили, проверяем. Пока прошу тред не закрывать.
    23 апреля 2014 г. 8:00
  • Стояли все, кроме http://support.microsoft.com/kb/2916993/ru - поставили, проверяем. Пока прошу тред не закрывать.
    Логи полные можете кинуть? Судя, по данному куску после VSS всё дело происходит, но ,если апдейты стоят (были проблемы c DPM + CSV) , то всё должно работать. Не совпадают ли все события с расписание DPM?

    Roman Levchenko, MCSA, MCITP, MCTS http://www.rlevchenko.com

    25 апреля 2014 г. 9:52
  • Да, могу - вот ссылка на кластерный лог - https://www.dropbox.com/s/cudtwnpwl4xuxeh/sblade19_cluster.log
    Да BMR и SS узлов кластера делается как раз приблизительно в это время, но ошибкок по бекапу именно свалившегося узла сервер DPM не выдает - просто завершаются с ошибкой бекапы оставшихся узлов.   Я тоже думаю что проблема именно в этом, но апдейты-то стоят и это не помогает.
    Есть ли какой-то способ решения проблемы?


    • Изменено Turinus 28 апреля 2014 г. 15:50
    28 апреля 2014 г. 15:47
  • После VSS происходит перезапуск службы кластера и дальше 

    00001410.00001238::2014/04/21-06:19:30.650 ERR   [QUORUM] Node 7: Fail to form/join a cluster in 6:15.000
    00001410.00001238::2014/04/21-06:19:30.650 INFO  [CORE] Node quorum state is 'Not yet formed or joined a cluster'. Form/join status with other nodes is as follows:

    и все ноды в статусе joining, что Вы и наблюдали. процесс перезапуск службы и подобная ошибка зациклены.

    +

    http://blogs.technet.com/b/dpm/archive/2013/05/16/dpm-and-system-state-backup-explained.aspx

    If the server you are protection is a member of a cluster, it is possible that a cluster drive will be selected in this process. If that drive ownership has been switched to another node, then next time system state for the node is done, the drive is no longer available and the backup will fail. In this situation, you will need to modify the PSDataSourceConfig.XML to point it to a local drive

    Я бы system state/bmr хостов кластера вообще не делал бы,если честно. 

    Были апдейты, связанные с DPM, вот такие:

    http://support.microsoft.com/kb/2908415

    http://support.microsoft.com/kb/2813630

    Но все они уже включены в  KB 2878635


    Roman Levchenko, MCSA, MCITP, MCTS http://www.rlevchenko.com

    30 апреля 2014 г. 6:38