トップ回答者
Windows Server 2016でHyper-Vレプリカが停止する

質問
-
お世話になります。
Windows Server 2016でHyper-Vレプリカ環境を構築したのですが、
「レプリカの変更を適用中...」のまま先に進まず、
レプリケーションが止まるという症状に悩んでいます。より詳細な情報は以下の通りです。
- 発生頻度は定期的ではなく2~3日毎。
- 3台の仮想マシンをレプリケーションしているが、うち1台について症状が頻発する。
もう1台は稀に症状が発生し、最後の1台は今のところ全く症状が起こらないなど、発生傾向に偏りがある。 - 3台の仮想マシンは何れもWindows Server 2012 R2/第2世代仮想マシンで、
Hyper-V統合サービスやWindows Updateは少なくとも2017年8月の更新プログラムレベル以上が適用されている。 - 各仮想マシンはレプリカホスト側のタスクスケジューラ+PowerShellスクリプトにより、
1日1回チェックポイントを作成し、7世代を超えた分は自動的に削除しているが、
この症状はチェックポイント数が2世代程度でも発生する為、
チェックポイントの削除に伴うVHDXの結合処理が原因ではない。(結合処理を行わなくても発生する) - 一度症状が発生すると、Hyper-V VMMSサービスの再起動を試みても「サービスの停止中」から進まなくなり、
ホストを再起動するしかなくなる。 - ホストの再起動を行うと処理は再開⇒完了し、停止している間に溜まったHRLの適用も順次行われ正常になる。
- 複数の仮想マシンのうち1台のレプリケーションでこの問題が発生しても、
他の仮想マシンのレプリケーションは問題なく継続される。 - レプリカホスト側のHyper-V VMMSイベントログ等には特にエラーや警告は記録されない。
プライマリホスト側では当然レプリケーションが送信できない旨のエラーが記録される。 - プライマリホストはWindows Server 2012 R2、レプリカホストがWindows Server 2016。
- 問題の仮想マシンについて計画フェールオーバーを実施して、
プライマリを2016、レプリカを2012 R2にすると問題は発生しなくなる。
問題のレプリカホストに対しては、別のWindows Server 2016のホストからも
2台の仮想マシンのレプリケーションを行っていますが、
こちらは現時点では全く症状が発生していません。海外のフォーラムを確認したところ、同様の症状が2例発生している模様です。
(うち1件は諦めてホストをダウングレードした模様、最後の1例は私自身の投稿です)上記フォーラムや他のサイトに、ホストのWindows Defenderが無効だと
症状が発生する旨がありましたが、
こちらの環境ではWindows Defenderは有効であり、
他のウィルス対策製品などはホストへは導入していません。ホストへ導入したアプリはRAID構成ツール等のハードウェアメンテナンス用のものと、
UPSの電源管理ソフトのみです。(何れもHPE製)どなたか同様の症状が発生している方は居ませんでしょうか?
または、これまでの情報で気になる点があればご指摘頂けると幸いです。
回答
-
だいぶ時間が経ってしまいましたが…
これまでの運用経験から、どうやら「レプリカ側」で「チェックポイント」を作成するタイミングで
レプリケーションが停止する模様です。運用を変更し、「プライマリ側」で「チェックポイント」を作成するようにしたところ
レプリケーションは停止せず2年以上安定して動いています。一方、「レプリカ側」で「チェックポイント」を作成すると、
相変わらず問題は発生するようです。従って、本件は「レプリカ側でチェックポイントを作成しない」という運用で
ひとまず解決したことを報告します。- 回答としてマーク 840 Bamboo 2020年6月8日 5:13
すべての返信
-
お世話になります。
当方でも同様な現象が発生し、解決できずにおります。
どなたか、同様の症状で解決したという情報、あるいは疑わしい箇所などの
情報がありましたら提供いただけると幸いです。
当方の状況は以下のとおりです。
◎事象の状況
・発生の頻度は、不定期。
・WindowsServer2016でのみ発生する
2台の物理サーバー(何れもDELL製)で、双方をレプリカ元/先として構成する。
この組み合わせが2セット計4台あり、そのうち3台のWindowsServer2016で発生
・初発は、2017/10。
毎月のサーバーメンテナンスでリセットを行うものの、数日で現象が発生する。
・1台の物理サーバーでは仮想マシンを数十台動作させ全てレプリカ設定している。
・現象の発生は、これまでの所、一つの物理サーバーで最大2台の仮想マシン
・現象の発生する仮想マシンは不特定
仮想マシンの世代、OSにもよらない。Linuxでも発生する
◎WindowsServerの構成
・現象の発生する物理サーバーとしない物理サーバーの違い
SSD+HDDの階層化ストレージとしてD:ドライブとして定義し、さらに重複除去
を行っている
◎試してみたこと
・アプリケーションの削除
ウイルス対策ソフトをアンインストール
Windows Defenderの削除(無効化)
・ログの記録
システムログやHyper-V関連のログには何も記録されないHyper-Vマネージャが停止できず、シャットダウンをしても同サービスが停止しないためいつまでたっても
電源が切れません。そのため外部からコールドリセットを実施している状態です。
-
本件、いろいろと試行錯誤していたのですが、現象が発生しなくなる組み合わせがありましたので、何らかのお役に立てればと考え、記しておきます。
当方の環境化におけるストレージに対し、重複除去を無効化することで本現象が発生しなくなりました。
その際にはただ無効化するだけでは「レプリカの変更を適用中...」の現象はなくならず、さらに重複除去されたデータを元に戻すことにより、ぱったりと本現象が発生しなくなりました。
このことから、重複除去されたデータへのアクセスとHyper-Vレプリカの組み合わせで発生するのではないかと推測します。
重複除去機能は仮想マシンのサイズが1/3程度になり、階層化ストレージと組み合わせることで、IOPSが稼げる有効な機能だと思っているので、使えなくなることは残念ですが、安定運用を第一とし、本機能を使用しない運用でしばらく様子をみることにします。
-
だいぶ時間が経ってしまいましたが…
これまでの運用経験から、どうやら「レプリカ側」で「チェックポイント」を作成するタイミングで
レプリケーションが停止する模様です。運用を変更し、「プライマリ側」で「チェックポイント」を作成するようにしたところ
レプリケーションは停止せず2年以上安定して動いています。一方、「レプリカ側」で「チェックポイント」を作成すると、
相変わらず問題は発生するようです。従って、本件は「レプリカ側でチェックポイントを作成しない」という運用で
ひとまず解決したことを報告します。- 回答としてマーク 840 Bamboo 2020年6月8日 5:13