none
Windows Server 2016でHyper-Vレプリカが停止する RRS feed

  • 質問

  • お世話になります。

    Windows Server 2016でHyper-Vレプリカ環境を構築したのですが、
    「レプリカの変更を適用中...」のまま先に進まず、
    レプリケーションが止まるという症状に悩んでいます。

    より詳細な情報は以下の通りです。

    • 発生頻度は定期的ではなく2~3日毎。
    • 3台の仮想マシンをレプリケーションしているが、うち1台について症状が頻発する。
      もう1台は稀に症状が発生し、最後の1台は今のところ全く症状が起こらないなど、発生傾向に偏りがある。
    • 3台の仮想マシンは何れもWindows Server 2012 R2/第2世代仮想マシンで、
      Hyper-V統合サービスやWindows Updateは少なくとも2017年8月の更新プログラムレベル以上が適用されている。
    • 各仮想マシンはレプリカホスト側のタスクスケジューラ+PowerShellスクリプトにより、
      1日1回チェックポイントを作成し、7世代を超えた分は自動的に削除しているが、
      この症状はチェックポイント数が2世代程度でも発生する為、
      チェックポイントの削除に伴うVHDXの結合処理が原因ではない。(結合処理を行わなくても発生する)
    • 一度症状が発生すると、Hyper-V VMMSサービスの再起動を試みても「サービスの停止中」から進まなくなり、
      ホストを再起動するしかなくなる。
    • ホストの再起動を行うと処理は再開⇒完了し、停止している間に溜まったHRLの適用も順次行われ正常になる。
    • 複数の仮想マシンのうち1台のレプリケーションでこの問題が発生しても、
      他の仮想マシンのレプリケーションは問題なく継続される。
    • レプリカホスト側のHyper-V VMMSイベントログ等には特にエラーや警告は記録されない。
      プライマリホスト側では当然レプリケーションが送信できない旨のエラーが記録される。
    • プライマリホストはWindows Server 2012 R2、レプリカホストがWindows Server 2016。
    • 問題の仮想マシンについて計画フェールオーバーを実施して、
      プライマリを2016、レプリカを2012 R2にすると問題は発生しなくなる。

    問題のレプリカホストに対しては、別のWindows Server 2016のホストからも
    2台の仮想マシンのレプリケーションを行っていますが、
    こちらは現時点では全く症状が発生していません。

    海外のフォーラムを確認したところ、同様の症状が2例発生している模様です。
    (うち1件は諦めてホストをダウングレードした模様、最後の1例は私自身の投稿です)

    上記フォーラムや他のサイトに、ホストのWindows Defenderが無効だと
    症状が発生する旨がありましたが、
    こちらの環境ではWindows Defenderは有効であり、
    他のウィルス対策製品などはホストへは導入していません。

    ホストへ導入したアプリはRAID構成ツール等のハードウェアメンテナンス用のものと、
    UPSの電源管理ソフトのみです。(何れもHPE製)

    どなたか同様の症状が発生している方は居ませんでしょうか?
    または、これまでの情報で気になる点があればご指摘頂けると幸いです。

    2017年9月19日 5:09

回答

  • だいぶ時間が経ってしまいましたが…

    これまでの運用経験から、どうやら「レプリカ側」で「チェックポイント」を作成するタイミングで
    レプリケーションが停止する模様です。

    運用を変更し、「プライマリ側」で「チェックポイント」を作成するようにしたところ
    レプリケーションは停止せず2年以上安定して動いています。

    一方、「レプリカ側」で「チェックポイント」を作成すると、
    相変わらず問題は発生するようです。

    従って、本件は「レプリカ側でチェックポイントを作成しない」という運用で
    ひとまず解決したことを報告します。

    • 回答としてマーク 840 Bamboo 2020年6月8日 5:13
    2020年6月8日 5:13

すべての返信

  • お世話になります。

    当方でも同様な現象が発生し、解決できずにおります。

    どなたか、同様の症状で解決したという情報、あるいは疑わしい箇所などの
    情報がありましたら提供いただけると幸いです。

    当方の状況は以下のとおりです。

    ◎事象の状況
    ・発生の頻度は、不定期。
    ・WindowsServer2016でのみ発生する
     2台の物理サーバー(何れもDELL製)で、双方をレプリカ元/先として構成する。
     この組み合わせが2セット計4台あり、そのうち3台のWindowsServer2016で発生
    ・初発は、2017/10。
     毎月のサーバーメンテナンスでリセットを行うものの、数日で現象が発生する。
    ・1台の物理サーバーでは仮想マシンを数十台動作させ全てレプリカ設定している。
    ・現象の発生は、これまでの所、一つの物理サーバーで最大2台の仮想マシン
    ・現象の発生する仮想マシンは不特定
     仮想マシンの世代、OSにもよらない。Linuxでも発生する

    ◎WindowsServerの構成
    ・現象の発生する物理サーバーとしない物理サーバーの違い
     SSD+HDDの階層化ストレージとしてD:ドライブとして定義し、さらに重複除去
     を行っている

    ◎試してみたこと
    ・アプリケーションの削除
     ウイルス対策ソフトをアンインストール
     Windows Defenderの削除(無効化)
    ・ログの記録
     システムログやHyper-V関連のログには何も記録されない

    Hyper-Vマネージャが停止できず、シャットダウンをしても同サービスが停止しないためいつまでたっても

    電源が切れません。そのため外部からコールドリセットを実施している状態です。

    2018年5月24日 3:07
  • 本件、いろいろと試行錯誤していたのですが、現象が発生しなくなる組み合わせがありましたので、何らかのお役に立てればと考え、記しておきます。

    当方の環境化におけるストレージに対し、重複除去を無効化することで本現象が発生しなくなりました。

    その際にはただ無効化するだけでは「レプリカの変更を適用中...」の現象はなくならず、さらに重複除去されたデータを元に戻すことにより、ぱったりと本現象が発生しなくなりました。

    このことから、重複除去されたデータへのアクセスとHyper-Vレプリカの組み合わせで発生するのではないかと推測します。

    重複除去機能は仮想マシンのサイズが1/3程度になり、階層化ストレージと組み合わせることで、IOPSが稼げる有効な機能だと思っているので、使えなくなることは残念ですが、安定運用を第一とし、本機能を使用しない運用でしばらく様子をみることにします。

    2019年1月28日 6:11
  • だいぶ時間が経ってしまいましたが…

    これまでの運用経験から、どうやら「レプリカ側」で「チェックポイント」を作成するタイミングで
    レプリケーションが停止する模様です。

    運用を変更し、「プライマリ側」で「チェックポイント」を作成するようにしたところ
    レプリケーションは停止せず2年以上安定して動いています。

    一方、「レプリカ側」で「チェックポイント」を作成すると、
    相変わらず問題は発生するようです。

    従って、本件は「レプリカ側でチェックポイントを作成しない」という運用で
    ひとまず解決したことを報告します。

    • 回答としてマーク 840 Bamboo 2020年6月8日 5:13
    2020年6月8日 5:13