Лучший отвечающий
Event ID 1073 The Cluster service was halted to prevent an inconsistency within the failover cluster. The error code was '668'.

Вопрос
-
Добрый день!
Есть 5-узловой кластер SQL Server 2012 на ОС Windows server 2012 Datacenter собранный из IBM Bladecenter HS23 type 7875. На узлах кластера настроен SAN-boot по FC с СХД IBM Storwize v3700, также в кластер по FC проброшены диски с СХД IBM Storwize v7000.
00000b4c.00000c7c::2014/04/21-03:32:25.939 INFO [VSS] Backing up part of the system state [VSS] OnPrepareBackup: starting new session dfb4fbf0-db28-40d2-af3a-82e66a271267
Периодически на разных узлах этого кластера возникает ошибка вида Event ID 1073 The Cluster service was halted to prevent an inconsistency within the failover cluster. The error code was '668'. После чего появляются ошибки Event ID 7031 The Cluster Service service terminated unexpectedly. It has done this 1 time(s). The following corrective action will be taken in 60000 milliseconds: Restart the service и Event ID 7024 The Cluster Service service terminated with the following service-specific error: An assertion failure has occurred. После чего данный узел зависает в состоянии Joining и тоже самое происходит со всеми узлами кластера, которые будут перезагружены и вообще любая операция с ресурсами кластера становится невозможна. В это время в логе system видны следующие события. Кластер возвращается к нормальному состоянию только в случае перезагрузки всех его узлов. Ниже привожу кусок cluster log на момент появляения ошибки:
00000b4c.00000c7c::2014/04/21-03:32:25.939 INFO [VSS] OnPrepareBackup returning - true
00000b4c.00001194::2014/04/21-03:32:26.704 INFO [GUM] Node 7: Processing RequestLock 4:4744
00000b4c.00001198::2014/04/21-03:32:26.704 INFO [GUM] Node 7: Processing GrantLock to 4 (sent by 3 gumid: 11271)
00000b4c.00000e2c::2014/04/21-03:32:26.704 ERR mscs::GumAgent::ExecuteQueuedUpdate: TransactionInProgress(5918)' because of 'Cannot restart an in-progress transaction'
00000b4c.00001194::2014/04/21-03:32:26.719 ERR Failed type check .?AUBoxedNodeSet@mscs@@
00000b4c.00001194::2014/04/21-03:32:26.719 ERR [CORE] mscs::ClusterCore::DeliverMessage: TypeMismatch(1629)' because of 'failed type check'
00000b4c.00000e2c::2014/04/21-03:32:26.750 INFO [VSS] HandleBackupGum - Initiating the backup
00000b4c.00000e2c::2014/04/21-03:32:26.750 INFO [VSS] HandleOnFreezeGum - Stopping the Death Timer
00000b4c.00000e2c::2014/04/21-03:32:26.750 INFO [VSS] HandleBackupGum - Completed the backup Request
00000b4c.00000e2c::2014/04/21-03:32:26.750 ERR [GUM] Node 7: sequenceNumber + 1 == payload->GumId (5129, 11272)
00000b4c.00000e2c::2014/04/21-03:32:26.750 ERR mscs::GumAgent::ExecuteQueuedUpdate: AssertionFailed(668)' because of 'failed assertion'(sequenceNumber + 1 == payload->GumId is false)
00000b4c.00000e2c::2014/04/21-03:32:26.750 ERR GumHandler failed (status = 668)
00000b4c.00000e2c::2014/04/21-03:32:26.750 ERR GumHandler failed (status = 668), executing OnStop
00000b4c.00000e2c::2014/04/21-03:32:26.750 INFO [DM]: Shutting down, so unloading the cluster database.
00000b4c.00000e2c::2014/04/21-03:32:26.750 INFO [DM] Shutting down, so unloading the cluster database (waitForLock: false).
00000b4c.00000e2c::2014/04/21-03:32:26.813 ERR FatalError is Calling Exit Process.
00000b4c.00000b50::2014/04/21-03:32:26.813 INFO [CS] About to exit process...
000015d0.000015d4::2014/04/21-03:32:26.828 WARN [RHS] Cluster service has terminated.
00001618.0000161c::2014/04/21-03:32:26.828 WARN [RHS] Cluster service has terminated.
00001588.0000158c::2014/04/21-03:32:26.828 WARN [RHS] Cluster service has terminated.
000015f4.000015f8::2014/04/21-03:32:26.828 WARN [RHS] Cluster service has terminated.
22 апреля 2014 г. 10:49
Ответы
-
После VSS происходит перезапуск службы кластера и дальше
00001410.00001238::2014/04/21-06:19:30.650 ERR [QUORUM] Node 7: Fail to form/join a cluster in 6:15.000
00001410.00001238::2014/04/21-06:19:30.650 INFO [CORE] Node quorum state is 'Not yet formed or joined a cluster'. Form/join status with other nodes is as follows:и все ноды в статусе joining, что Вы и наблюдали. процесс перезапуск службы и подобная ошибка зациклены.
+
http://blogs.technet.com/b/dpm/archive/2013/05/16/dpm-and-system-state-backup-explained.aspx
If the server you are protection is a member of a cluster, it is possible that a cluster drive will be selected in this process. If that drive ownership has been switched to another node, then next time system state for the node is done, the drive is no longer available and the backup will fail. In this situation, you will need to modify the PSDataSourceConfig.XML to point it to a local drive
Я бы system state/bmr хостов кластера вообще не делал бы,если честно.
Были апдейты, связанные с DPM, вот такие:
http://support.microsoft.com/kb/2908415
http://support.microsoft.com/kb/2813630
Но все они уже включены в KB 2878635
Roman Levchenko, MCSA, MCITP, MCTS http://www.rlevchenko.com
- Предложено в качестве ответа Petko KrushevMicrosoft contingent staff, Moderator 30 апреля 2014 г. 11:44
- Помечено в качестве ответа Petko KrushevMicrosoft contingent staff, Moderator 5 мая 2014 г. 5:45
30 апреля 2014 г. 6:38
Все ответы
-
Стоят http://support.microsoft.com/kb/2784261/EN-US ?
Get-Hotfix KB2916993,KB2929869,KB2913695,KB2878635,KB2894464,KB2838043,KB2803748,KB2770917
Roman Levchenko, MCSA, MCITP, MCTS http://www.rlevchenko.com
- Изменено R.LevchenkoMVP 22 апреля 2014 г. 11:17 PSH
- Помечено в качестве ответа Petko KrushevMicrosoft contingent staff, Moderator 28 апреля 2014 г. 7:19
- Снята пометка об ответе Dmitriy VereshchakMicrosoft contingent staff, Moderator 29 апреля 2014 г. 13:53
22 апреля 2014 г. 11:14 -
Стояли все, кроме http://support.microsoft.com/kb/2916993/ru - поставили, проверяем. Пока прошу тред не закрывать.23 апреля 2014 г. 8:00
-
Стояли все, кроме http://support.microsoft.com/kb/2916993/ru - поставили, проверяем. Пока прошу тред не закрывать.
Логи полные можете кинуть? Судя, по данному куску после VSS всё дело происходит, но ,если апдейты стоят (были проблемы c DPM + CSV) , то всё должно работать. Не совпадают ли все события с расписание DPM?Roman Levchenko, MCSA, MCITP, MCTS http://www.rlevchenko.com
25 апреля 2014 г. 9:52 -
Да, могу - вот ссылка на кластерный лог - https://www.dropbox.com/s/cudtwnpwl4xuxeh/sblade19_cluster.log
Да BMR и SS узлов кластера делается как раз приблизительно в это время, но ошибкок по бекапу именно свалившегося узла сервер DPM не выдает - просто завершаются с ошибкой бекапы оставшихся узлов. Я тоже думаю что проблема именно в этом, но апдейты-то стоят и это не помогает.
Есть ли какой-то способ решения проблемы?
- Изменено Turinus 28 апреля 2014 г. 15:50
28 апреля 2014 г. 15:47 -
После VSS происходит перезапуск службы кластера и дальше
00001410.00001238::2014/04/21-06:19:30.650 ERR [QUORUM] Node 7: Fail to form/join a cluster in 6:15.000
00001410.00001238::2014/04/21-06:19:30.650 INFO [CORE] Node quorum state is 'Not yet formed or joined a cluster'. Form/join status with other nodes is as follows:и все ноды в статусе joining, что Вы и наблюдали. процесс перезапуск службы и подобная ошибка зациклены.
+
http://blogs.technet.com/b/dpm/archive/2013/05/16/dpm-and-system-state-backup-explained.aspx
If the server you are protection is a member of a cluster, it is possible that a cluster drive will be selected in this process. If that drive ownership has been switched to another node, then next time system state for the node is done, the drive is no longer available and the backup will fail. In this situation, you will need to modify the PSDataSourceConfig.XML to point it to a local drive
Я бы system state/bmr хостов кластера вообще не делал бы,если честно.
Были апдейты, связанные с DPM, вот такие:
http://support.microsoft.com/kb/2908415
http://support.microsoft.com/kb/2813630
Но все они уже включены в KB 2878635
Roman Levchenko, MCSA, MCITP, MCTS http://www.rlevchenko.com
- Предложено в качестве ответа Petko KrushevMicrosoft contingent staff, Moderator 30 апреля 2014 г. 11:44
- Помечено в качестве ответа Petko KrushevMicrosoft contingent staff, Moderator 5 мая 2014 г. 5:45
30 апреля 2014 г. 6:38