none
WindowsServer2003の障害について RRS feed

  • 質問

  • WEBサーバとして稼動しているサーバがあります。
    OS:WindowsServer2003SP2(SP1からSP2にアップデート)
    IIS:6.0

    本日、突然サーバに接続できなくなりました。
    ブラウザでのWEBサイトへアクセス(インターネットごし、内部ネットワーク)と
    リモートデスクトップでの接続(内部ネットワークから)ができませんでした。

    また、同一セグメントにある他サーバからでpingを実行するも応答がなく、
    何もほどこしようがなく電源ボタン長押しで再起動を実行するしかなかったため、
    実行したところ正常に復旧することができました。
    (再起動はデータセンターに常駐するオペレータに実施してもらいました。
     なお、コンソール上はどのようになっていたか不明です。確認してもらうことができませんでした。)

    復旧後にOSの状況を確認したところ以下のイベントログが出力されていましたが、
    マスタブラウザについては知識不足のため関係あるのかが分かりません。
    そこで、ご教授いただけたらと思い投稿させていただきました。

    ■エラー
    ソース:MRxSmb イベントID:8003 種類:エラー
    説明:マスタ ブラウザは、自分がトランスポート NetBT_Tcpip_{4056E53F-9F6E-40 のドメインのマスタ ブラウザであると認識している 別のコンピュータ ***** からサーバー アナウンスを受信しました。 マスタ ブラウザが停止しているか、またはブラウザの選択中です。

    ソース:W3SVC イベントID:1113 種類:エラー
    説明:イベント ID (1113) (ソース W3SVC 内) に関する説明が見つかりませんでした。リモート コンピュータからメッセージを表示するために必要なレジストリ情報またはメッセージ DLL ファイルがローカル コンピュータにない可能性があります。この説明を取得するために /AUXSOURCE= フラグを使用することができる可能性があります。詳細については、ヘルプとサポートを参照してください。次の情報はイベントの一部です: 87257011.

    ソース:W3SVC イベントID:1007 種類:エラー
    説明:イベント ID (1007) (ソース W3SVC 内) に関する説明が見つかりませんでした。リモート コンピュータからメッセージを表示するために必要なレジストリ情報またはメッセージ DLL ファイルがローカル コンピュータにない可能性があります。この説明を取得するために /AUXSOURCE= フラグを使用することができる可能性があります。詳細については、ヘルプとサポートを参照してください。次の情報はイベントの一部です: https://*:443/, 87257011.

    ソース:BROWSER イベントID:8032 種類:エラー
    説明:ブラウザ サービスがトランスポート \Device\NetBT_Tcpip_{4056E53F-9F6E-404F-B92B-F21E6B546996} でバックアップ一覧の取得に失敗した回数が多すぎます。 バックアップ ブラウザを停止しています。

    ■警告
    ソース:W3SVC イベントID:1013 種類:警告
    説明:イベント ID (1013) (ソース W3SVC 内) に関する説明が見つかりませんでした。リモート コンピュータからメッセージを表示するために必要なレジストリ情報またはメッセージ DLL ファイルがローカル コンピュータにない可能性があります。この説明を取得するために /AUXSOURCE= フラグを使用することができる可能性があります。詳細については、ヘルプとサポートを参照してください。次の情報はイベントの一部です: DefaultAppPool, 1712, 0.

    ソース:HTTP イベントID:54 種類:警告
    説明:イベント ID (54) (ソース HTTP 内) に関する説明が見つかりませんでした。リモート コンピュータからメッセージを表示するために必要なレジストリ情報またはメッセージ DLL ファイルがローカル コンピュータにない可能性があります。この説明を取得するために /AUXSOURCE= フラグを使用することができる可能性があります。詳細については、ヘルプとサポートを参照してください。次の情報はイベントの一部です: \Device\Http\AppPool.

    2010年4月1日 8:59

回答

  • こんにちは。

    pingの応答が無いようであれば、それはOSのカーネルモード(NT カーネルまたはドライバ)レベルのハングアップです。ドライバやハードウェアに問題があり、システム全体が停止に至っています。

    イベントログにドライバやハードウェアの問題が記録されていれば、それが原因の可能性があります。

    ハードウェア側にログを取る機能があれば、当時のエラー状況を確認してみてください。

    ドライバに関しては、問題が発生したタイミングでメモリダンプを取って解析すれば原因は追究できますが、かなりスキルを求められる調査になります。

    ダンプの取り方は以下になります。
    http://support.microsoft.com/kb/244139/ja
    http://support.microsoft.com/kb/927069/ja

    記録されているイベントについては、マスタブラウザが停止しても、pingの不応答の原因にはなりません。(pingの応答はtcpip.sysが行うため)
    このイベントは、例えば今まではサーバーAがマスタブラウザだったが、これを変更する処理が開始されたことを意味します。

    その他、"イベントxxxに関する説明が見つかりませんでした"と表示されているものが多いのですが、これはEventMessageFileにDLLが登録されていない、またはDLLが無い事が原因です。ハングアップとは別の話ですが、対処する場合は以下を参考にしてください。

    http://itpro.nikkeibp.co.jp/free/NT/WinReadersOnly/20050209/4/

    2010年4月1日 22:22
  • こんにちは。

    イベントログにハードウェアに関連するログはないとのことですが、ハングアップ時には基本的にログは残りません。(カーネルモードのハングであれば、イベントログにも記録が残らなくなります。例外的にWatch Dog Timerが動作していればログも残りますが、この場合はStopエラーが発生しているはずです)

    また、先の投稿でのメモリダンプとは、ユーザーの操作で取得するダンプファイル(強制ダンプ)のことです。自発的にStopエラーが発生し、自動的に保存されるダンプファイルの事ではありません。

    今一度、強制ダンプの取り方を確認してみてください。そして、ハングの原因(OSの方では、カーネルのデッドロック、LPC,高いIRQL,Device Objectのキューの滞留、などなどを見たいところですが、手にあまるようであれば有償で解析を依頼した方がいいと思います。)

    現在の、"応答がありませんでした"の情報から得られる回答は、"いずれかのハードかドライバが原因でしょう"としか言えません。

     

    2010年4月5日 13:50

すべての返信

  • こんにちは。

    pingの応答が無いようであれば、それはOSのカーネルモード(NT カーネルまたはドライバ)レベルのハングアップです。ドライバやハードウェアに問題があり、システム全体が停止に至っています。

    イベントログにドライバやハードウェアの問題が記録されていれば、それが原因の可能性があります。

    ハードウェア側にログを取る機能があれば、当時のエラー状況を確認してみてください。

    ドライバに関しては、問題が発生したタイミングでメモリダンプを取って解析すれば原因は追究できますが、かなりスキルを求められる調査になります。

    ダンプの取り方は以下になります。
    http://support.microsoft.com/kb/244139/ja
    http://support.microsoft.com/kb/927069/ja

    記録されているイベントについては、マスタブラウザが停止しても、pingの不応答の原因にはなりません。(pingの応答はtcpip.sysが行うため)
    このイベントは、例えば今まではサーバーAがマスタブラウザだったが、これを変更する処理が開始されたことを意味します。

    その他、"イベントxxxに関する説明が見つかりませんでした"と表示されているものが多いのですが、これはEventMessageFileにDLLが登録されていない、またはDLLが無い事が原因です。ハングアップとは別の話ですが、対処する場合は以下を参考にしてください。

    http://itpro.nikkeibp.co.jp/free/NT/WinReadersOnly/20050209/4/

    2010年4月1日 22:22
  • 中年やっちゅうねんさん

    ご教授ありがとうございます。

    記載するのを忘れていましたが、イベントログにハードウェアに関連するログは残っておりません。
    また、某メーカのハードウェアを使用しており、メーカーが提供しているツールでハードウェアの
    状況を確認しましたが、こちらにつきましても特にエラーはありませんでした。

    また、メモリダンプも考え、確認したところ出力されておりませんでした。
    そのため、メモリダンプからの調査もできず。。。

    そんな、状況なため分かる方にご教授していただきたく投稿したしだいです。

    2010年4月5日 12:35
  • こんにちは。

    イベントログにハードウェアに関連するログはないとのことですが、ハングアップ時には基本的にログは残りません。(カーネルモードのハングであれば、イベントログにも記録が残らなくなります。例外的にWatch Dog Timerが動作していればログも残りますが、この場合はStopエラーが発生しているはずです)

    また、先の投稿でのメモリダンプとは、ユーザーの操作で取得するダンプファイル(強制ダンプ)のことです。自発的にStopエラーが発生し、自動的に保存されるダンプファイルの事ではありません。

    今一度、強制ダンプの取り方を確認してみてください。そして、ハングの原因(OSの方では、カーネルのデッドロック、LPC,高いIRQL,Device Objectのキューの滞留、などなどを見たいところですが、手にあまるようであれば有償で解析を依頼した方がいいと思います。)

    現在の、"応答がありませんでした"の情報から得られる回答は、"いずれかのハードかドライバが原因でしょう"としか言えません。

     

    2010年4月5日 13:50
  • こんにちは、フォーラムオペレーターの三沢健二です。

    中年やっちゅうねん さん、いつもアドバイスありがとうございます。

    ところてん さん、その後いかがでしょうか?

    現時点での情報から原因を推測する事は困難かもしれませんが、案内いただいた内容は調査を行う際に参考になるアドバイスと思いましたので、勝手ながら [回答としてマーク] を付けさせていただきました。


    それでは、今後とも TechNet Forum をよろしくお願いします。

    ______________________________________
    マイクロソフト株式会社 フォーラム オペレーター 三沢健二

    2010年4月13日 2:22
    モデレータ