locked
クラスタリングでのエラーについて RRS feed

  • 質問

  • はじめまして。

    早速なのですが、Windows Server 2003 SP2 Enterprise Editionを2台でアプリケーションサーバを
    クラスタリングを組んで運用しています。また、セキュリティアップデートは毎月行っております。

    運用開始時より平日25時より、日時バックアップのためのバッチ処理を行っているのですが、
    最近になって週1度程度のペースで(大体が水曜日なのですが、まれに木曜や金曜の場合がある)
    クラスタのエラーが発生しAPSRV02に切り替わる事象が発生するようになりました。

    すでに数年運用しており、また他の日には問題なく処理されているためバッチ処理(スクリプト)の
    内容自体には問題ないと思っています。


    ただ、失敗する日には該当時刻付近で時刻同期処理が行われているようでした。


    1.時刻の同期処理がスクリプトの実行を阻害するほど重いとも思えないのですが、似た事例の報告はあるでしょうか?
    2.単純に時刻の同期処理と重なるのが問題であるのなら時刻同期のタイミングをずらしたいのですが、
      時刻同期のタイミングはコントロールする手段はあるのでしょうか?

    以上、よろしくお願いします。


    ----該当イベントログ----
    4月8日 1:18 ClusSvc 情報 フェールオーバー マネージャ  1205 N/A APSRV01 リソース グループ "IIS" を完全にオンラインまたはオフラインにすることはできませんでした。 
    4月8日 1:18 ClusSvc 情報 フェールオーバー マネージャ  1153 N/A APSRV01 クラスタ リソース グループ 'IIS' をノード APSRV01 からノード APSRV02 にフェールオーバーしようとしています。 
    4月8日 1:18 ClusSvc 情報 フェールオーバー マネージャ  1203 N/A APSRV01 クラスタ サービスがリソース グループ "IIS" をオフラインにしようとしています。 
    4月8日 1:18 ClusSvc エラー 汎用スクリプト リソース  1233 N/A APSRV01 クラスタ汎用スクリプト リソース clusweb: Terminate 操作の要求は処理されません。これは、前回 Close エントリ  ポイントを時間内に実行しようとして失敗したためです。スクリプト コードのこのエントリ ポイントを確認して、 無限ループやハングがないことを確認し、必要な場合はリソースの待ちのタイムアウトの値を大きくする ことを検討してください。コマンド シェルでは "cluster res "clusweb" /prop PersistentState=0"を実行して このリソースを無効にし、"net stop clussvc" を実行してクラスタ サービスを停止してください。スクリプト  コードの問題を確実に解決してください。その後、"net start clussvc" を実行してクラスタ サービスを 開始してください。必要に応じて、リソースを再びオンラインにする前に、待ちのタイムアウトが大きくされた ことを確認してください。 
    4月8日 1:18 ClusSvc エラー フェールオーバー マネージャ  1069 N/A APSRV01 リソース グループ 'IIS' のクラスタ リソース 'clusweb' は失敗しました。 
    4月8日 1:18 ClusSvc 情報 フェールオーバー マネージャ  1205 N/A APSRV01 リソース グループ "IIS" を完全にオンラインまたはオフラインにすることはできませんでした。 
    4月8日 1:18 ClusSvc エラー リソース モニタ  1065 N/A APSRV01 クラスタ リソース clusweb をオンラインにするのに失敗しました。 
    4月8日 1:18 ClusSvc エラー 汎用スクリプト リソース  1233 N/A APSRV01 クラスタ汎用スクリプト リソース clusweb: Online 操作の要求は処理されません。これは、前回 Close エントリ  ポイントを時間内に実行しようとして失敗したためです。スクリプト コードのこのエントリ ポイントを確認して、 無限ループやハングがないことを確認し、必要な場合はリソースの待ちのタイムアウトの値を大きくする ことを検討してください。コマンド シェルでは "cluster res "clusweb" /prop PersistentState=0"を実行して このリソースを無効にし、"net stop clussvc" を実行してクラスタ サービスを停止してください。スクリプト  コードの問題を確実に解決してください。その後、"net start clussvc" を実行してクラスタ サービスを 開始してください。必要に応じて、リソースを再びオンラインにする前に、待ちのタイムアウトが大きくされた ことを確認してください。 
    4月8日 1:18 ClusSvc エラー 汎用スクリプト リソース  1233 N/A APSRV01 クラスタ汎用スクリプト リソース clusweb: Terminate 操作の要求は処理されません。これは、前回 Close エントリ  ポイントを時間内に実行しようとして失敗したためです。スクリプト コードのこのエントリ ポイントを確認して、 無限ループやハングがないことを確認し、必要な場合はリソースの待ちのタイムアウトの値を大きくする ことを検討してください。コマンド シェルでは "cluster res "clusweb" /prop PersistentState=0"を実行して このリソースを無効にし、"net stop clussvc" を実行してクラスタ サービスを停止してください。スクリプト  コードの問題を確実に解決してください。その後、"net start clussvc" を実行してクラスタ サービスを 開始してください。必要に応じて、リソースを再びオンラインにする前に、待ちのタイムアウトが大きくされた ことを確認してください。 
    4月8日 1:18 ClusSvc エラー フェールオーバー マネージャ  1069 N/A APSRV01 リソース グループ 'IIS' のクラスタ リソース 'clusweb' は失敗しました。 
    4月8日 1:18 ClusSvc 情報 フェールオーバー マネージャ  1205 N/A APSRV01 リソース グループ "IIS" を完全にオンラインまたはオフラインにすることはできませんでした。 
    4月8日 1:18 ClusSvc エラー リソース モニタ  1065 N/A APSRV01 クラスタ リソース clusweb をオンラインにするのに失敗しました。 
    4月8日 1:18 ClusSvc エラー 汎用スクリプト リソース  1233 N/A APSRV01 クラスタ汎用スクリプト リソース clusweb: Online 操作の要求は処理されません。これは、前回 Close エントリ  ポイントを時間内に実行しようとして失敗したためです。スクリプト コードのこのエントリ ポイントを確認して、 無限ループやハングがないことを確認し、必要な場合はリソースの待ちのタイムアウトの値を大きくする ことを検討してください。コマンド シェルでは "cluster res "clusweb" /prop PersistentState=0"を実行して このリソースを無効にし、"net stop clussvc" を実行してクラスタ サービスを停止してください。スクリプト  コードの問題を確実に解決してください。その後、"net start clussvc" を実行してクラスタ サービスを 開始してください。必要に応じて、リソースを再びオンラインにする前に、待ちのタイムアウトが大きくされた ことを確認してください。 
    4月8日 1:18 ClusSvc エラー 汎用スクリプト リソース  1233 N/A APSRV01 クラスタ汎用スクリプト リソース clusweb: Terminate 操作の要求は処理されません。これは、前回 Close エントリ  ポイントを時間内に実行しようとして失敗したためです。スクリプト コードのこのエントリ ポイントを確認して、 無限ループやハングがないことを確認し、必要な場合はリソースの待ちのタイムアウトの値を大きくする ことを検討してください。コマンド シェルでは "cluster res "clusweb" /prop PersistentState=0"を実行して このリソースを無効にし、"net stop clussvc" を実行してクラスタ サービスを停止してください。スクリプト  コードの問題を確実に解決してください。その後、"net start clussvc" を実行してクラスタ サービスを 開始してください。必要に応じて、リソースを再びオンラインにする前に、待ちのタイムアウトが大きくされた ことを確認してください。 
    4月8日 1:18 ClusSvc エラー フェールオーバー マネージャ  1069 N/A APSRV01 リソース グループ 'IIS' のクラスタ リソース 'clusweb' は失敗しました。 
    4月8日 1:18 ClusSvc 情報 フェールオーバー マネージャ  1205 N/A APSRV01 リソース グループ "IIS" を完全にオンラインまたはオフラインにすることはできませんでした。 
    4月8日 1:18 ClusSvc エラー リソース モニタ  1065 N/A APSRV01 クラスタ リソース clusweb をオンラインにするのに失敗しました。 
    4月8日 1:18 ClusSvc エラー 汎用スクリプト リソース  1233 N/A APSRV01 クラスタ汎用スクリプト リソース clusweb: Online 操作の要求は処理されません。これは、前回 Close エントリ  ポイントを時間内に実行しようとして失敗したためです。スクリプト コードのこのエントリ ポイントを確認して、 無限ループやハングがないことを確認し、必要な場合はリソースの待ちのタイムアウトの値を大きくする ことを検討してください。コマンド シェルでは "cluster res "clusweb" /prop PersistentState=0"を実行して このリソースを無効にし、"net stop clussvc" を実行してクラスタ サービスを停止してください。スクリプト  コードの問題を確実に解決してください。その後、"net start clussvc" を実行してクラスタ サービスを 開始してください。必要に応じて、リソースを再びオンラインにする前に、待ちのタイムアウトが大きくされた ことを確認してください。 
    4月8日 1:18 ClusSvc エラー 汎用スクリプト リソース  1233 N/A APSRV01 クラスタ汎用スクリプト リソース clusweb: Terminate 操作の要求は処理されません。これは、前回 Close エントリ  ポイントを時間内に実行しようとして失敗したためです。スクリプト コードのこのエントリ ポイントを確認して、 無限ループやハングがないことを確認し、必要な場合はリソースの待ちのタイムアウトの値を大きくする ことを検討してください。コマンド シェルでは "cluster res "clusweb" /prop PersistentState=0"を実行して このリソースを無効にし、"net stop clussvc" を実行してクラスタ サービスを停止してください。スクリプト  コードの問題を確実に解決してください。その後、"net start clussvc" を実行してクラスタ サービスを 開始してください。必要に応じて、リソースを再びオンラインにする前に、待ちのタイムアウトが大きくされた ことを確認してください。 
    4月8日 1:18 ClusSvc エラー フェールオーバー マネージャ  1069 N/A APSRV01 リソース グループ 'IIS' のクラスタ リソース 'clusweb' は失敗しました。 
    4月8日 1:18 ClusSvc エラー リソース モニタ  1065 N/A APSRV01 クラスタ リソース clusweb をオンラインにするのに失敗しました。 
    4月8日 1:18 ClusSvc エラー 汎用スクリプト リソース  1232 N/A APSRV01 クラスタ汎用スクリプト リソース clusweb がタイムアウトしました。 Close スクリプトのエントリ ポイントが時間内に 実行を完了しませんでした。このエントリ ポイントでの無限ループまたはハング、あるいは待ちの タイムアウトがこのリソースに対して短すぎることが原因である可能性があります。Close スクリプトのエントリ  ポイントを確認して、スクリプト コードに無限ループやハングがないことを確認し、必要な場合は待ちの タイムアウトの値を大きくすることを検討してください。コマンド シェルでは "cluster res "clusweb" /prop  PersistentState=0"を実行してこのリソースを無効にし、"net stop clussvc" を実行してクラスタ  サービスを停止してください。スクリプト コードの問題を確実に解決してください。その後、"net start  clussvc" を実行してクラスタ サービスを開始してください。必要に応じて、リソースを再びオンラインに する前に、待ちのタイムアウトが大きくされたことを確認してください。  
    4月8日 1:18 Service Control Manager 情報 なし 7036 N/A APSRV02 WMI Performance Adapter サービスは、停止 状態に入りました。 
    4月8日 1:18 Service Control Manager 情報 なし 7036 N/A APSRV02 WMI Performance Adapter サービスは、実行中 状態に入りました。 
    4月8日 1:18 Service Control Manager 情報 なし 7035 NT AUTHORITY\SYSTEM APSRV02 WMI Performance Adapter サービスは、正常に 開始 コントロールを送信しました。 
    4月8日 1:18 ClusSvc 情報 フェールオーバー マネージャ  1201 N/A APSRV02 リソース グループ "IIS" はオンラインになりました。 
    4月8日 1:18 W32Time 情報 なし 37 N/A APSRV02 タイム プロバイダ NtpClient は現在 192.168.41.10 (ntp.m|0x0|192.168.40.4:123->192.168.41.10:123) から有効な時間データを受信しています。 
    4月8日 1:18 ClusSvc 情報 フェールオーバー マネージャ  1200 N/A APSRV02 リソース グループ "IIS" をオンラインにしようとしています。 

    2010年5月28日 9:16

回答

  • こんにちは。

    1.時刻の同期処理がスクリプトの実行を阻害するほど重いとも思えないのですが、似た事例の報告はあるでしょうか?
    =>まったく関係ありません。

    2.単純に時刻の同期処理と重なるのが問題であるのなら時刻同期のタイミングをずらしたいのですが、
      時刻同期のタイミングはコントロールする手段はあるのでしょうか?
    =>使用している時刻同期の機能に依存しますが、イベントログに W32Time のログがあるため、Windows Time Serviceが動作しているものと思います。
    Windows Time Serviceの動作は以下の資料のレジストリで制御可能です。

    http://technet.microsoft.com/ja-jp/library/cc773263(WS.10).aspx#w2k3tr_times_tools_uhlp


    また、"日時バックアップのためのバッチ処理を行うと、クラスタのリソースがフェールオーバーする"事を解決したいのであれば、バックアップ時の処理(バッチファイルを含む)を根本的に見直す必要があります。
    Winodws 2003のバックアップを行った場合VSSのOnFreezeによる応答停止が発生します。停止時間が長くなれば、当然のごとくリソースはフェールオーバーします。
    VSSのOnFreezeはこちらを参照して下さい。
    http://msdn.microsoft.com/en-us/library/aa381563(VS.85).aspx

    フェールオーバーを抑制するのであれば、対象のリソースを停止後にバックアップをするか、リソースのIsAliveとLooksAliveを編集してバックアップ中のリソース停止中でもOn lineを通知するようにしてみてください。
    IsAliveとLooksAliveについてはこちらに解説があります。
    http://msdn.microsoft.com/en-us/library/aa372846(v=VS.85).aspx

    • 回答の候補に設定 三沢健二 2010年5月31日 1:32
    • 回答としてマーク 三沢健二 2010年6月3日 8:07
    2010年5月28日 9:44