none
Pada server 2003. Kod chyby 1000008e .

    Dotaz

  • Dobry den.

    Prosim o radu. Naprosto nepravidelne se restartuje komletne cely server s OS Windows 2003 SP2.

    Dekuji za radu. Seidenglanz

    Pripojuji vypis z windbg:

    ---------------------------

    Microsoft (R) Windows Debugger Version 6.12.0002.633 X86 Copyright (c) Microsoft Corporation. All rights reserved. Loading Dump File [C:\WINDOWS\Minidump\Mini112810-01.dmp] Mini Kernel Dump File: Only registers and stack trace are available Symbol search path is: C:\WINDOWS\symbols Executable search path is: Unable to load image \WINDOWS\system32\ntkrnlpa.exe, Win32 error 0n2 *** WARNING: Unable to verify timestamp for ntkrnlpa.exe Windows Server 2003 Kernel Version 3790 (Service Pack 2) MP (2 procs) Free x86 compatible Product: LanManNt, suite: TerminalServer Machine Name: Kernel base = 0x80800000 PsLoadedModuleList = 0x808a6ea8 Debug session time: Sun Nov 28 09:08:39.343 2010 (UTC + 1:00) System Uptime: 0 days 18:04:04.269 Unable to load image \WINDOWS\system32\ntkrnlpa.exe, Win32 error 0n2 *** WARNING: Unable to verify timestamp for ntkrnlpa.exe Loading Kernel Symbols ............................................................... ................................................. Loading User Symbols Loading unloaded module list ... ******************************************************************************* * * * Bugcheck Analysis * * * ******************************************************************************* Use !analyze -v to get detailed debugging information. BugCheck 1000008E, {c0000005, 8093b93b, f532fa3c, 0} Probably caused by : ntkrnlpa.exe ( nt!PopDispatchDisplayRequired+13 ) Followup: MachineOwner --------- 0: kd> !analyze -v ******************************************************************************* * * * Bugcheck Analysis * * * ******************************************************************************* KERNEL_MODE_EXCEPTION_NOT_HANDLED_M (1000008e) This is a very common bugcheck. Usually the exception address pinpoints the driver/function that caused the problem. Always note this address as well as the link date of the driver/image that contains this address. Some common problems are exception code 0x80000003. This means a hard coded breakpoint or assertion was hit, but this system was booted /NODEBUG. This is not supposed to happen as developers should never have hardcoded breakpoints in retail code, but ... If this happens, make sure a debugger gets connected, and the system is booted /DEBUG. This will let us see why this breakpoint is happening. Arguments: Arg1: c0000005, The exception code that was not handled Arg2: 8093b93b, The address that the exception occurred at Arg3: f532fa3c, Trap Frame Arg4: 00000000 Debugging Details: ------------------ EXCEPTION_CODE: (NTSTATUS) 0xc0000005 - Instrukce na adrese 0x%08lx odkazovala na adresu paměi 0x%08lx. S pamětí nelze provést operaci: %s. FAULTING_IP: nt!PopDispatchDisplayRequired+13 8093b93b 8b4e1c mov ecx,dword ptr [esi+1Ch] TRAP_FRAME: f532fa3c -- (.trap 0xfffffffff532fa3c) ErrCode = 00000000 eax=f532fbb4 ebx=8841d2e0 ecx=8a197ca0 edx=00000000 esi=00000001 edi=00000000 eip=8093b93b esp=f532fab0 ebp=f532fb88 iopl=0 nv up ei ng nz na pe nc cs=0008 ss=0010 ds=0023 es=0023 fs=0030 gs=0000 efl=00010286 nt!PopDispatchDisplayRequired+0x13: 8093b93b 8b4e1c mov ecx,dword ptr [esi+1Ch] ds:0023:0000001d=00000000 Resetting default scope CUSTOMER_CRASH_COUNT: 1 DEFAULT_BUCKET_ID: DRIVER_FAULT_SERVER_MINIDUMP BUGCHECK_STR: 0x8E CURRENT_IRQL: 0 LAST_CONTROL_TRANSFER: from 8094acad to 8093b93b STACK_TEXT: f532fb88 8094acad 8841d2f8 f532fbb4 001f0fff nt!PopDispatchDisplayRequired+0x13 f532fce4 8094afd1 0153ea20 001f0fff 00000000 nt!RawCreate+0x97 f532fce8 0153ea20 001f0fff 00000000 ffffffff nt!LdrpAccessResourceDataNoMultipleLanguage+0x103 WARNING: Frame IP not in any known module. Following frames may be wrong. f532fd38 808897cc 0153ea20 001f0fff 00000000 0x153ea20 f532fd64 7c93860c badb0d00 0153e664 00000000 nt!MiReserveSystemPtes+0x20a f532fd68 badb0d00 0153e664 00000000 00000000 0x7c93860c f532fd6c 0153e664 00000000 00000000 00000000 0xbadb0d00 f532fd70 00000000 00000000 00000000 00000000 0x153e664 STACK_COMMAND: kb FOLLOWUP_IP: nt!PopDispatchDisplayRequired+13 8093b93b 8b4e1c mov ecx,dword ptr [esi+1Ch] SYMBOL_STACK_INDEX: 0 SYMBOL_NAME: nt!PopDispatchDisplayRequired+13 FOLLOWUP_NAME: MachineOwner MODULE_NAME: nt IMAGE_NAME: ntkrnlpa.exe DEBUG_FLR_IMAGE_TIMESTAMP: 4b7a90ad FAILURE_BUCKET_ID: 0x8E_nt!PopDispatchDisplayRequired+13 BUCKET_ID: 0x8E_nt!PopDispatchDisplayRequired+13 Followup: MachineOwner ---------

    neděle 28. listopadu 2010 21:51

Odpovědi

  • Zažil jsem podobně nečekané pády serveru, do kterého jsem po cca 2 letech přidal 2 další HDD a zdroj to zřejmě v některých chvílích neutáhnul. Server někdy spadl do BSOD, někdy se restartoval, ale nebyl to klasický restart s korektním ukončením sllužeb Win, stroj se vypnul během 3-5 sekund (normálně tak přes 30). Nakonec pomohla náhrada silnějším zdrojem. Možná i v tomto případě bude nejsnažší/nejlevnější zkusit vyměnit zdroj...

    A samozřejmě sledovat teploty základní desky při testech apod. pokud je HW monitoring dostupný. A vyčistit od prachu (if any) všechny chladící plochy stlačeným vzduchem...


    JN
    středa 8. prosince 2010 23:16

Všechny reakce

  • Neslo by to poslat formatovane (<pre>...</pre>)?

    Bez cteni chyb. hlasek (to se opravdu neda!) - BIOS je aktualni, RAMet testovana?

    MP

    neděle 28. listopadu 2010 22:32
    Vlastník
  • Server HP ProLiant ML350 G4, pamet netestovana, provedu. Bios aktualni.
    Snad jsem to ted vlozil citelne...

    Microsoft (R) Windows Debugger Version 6.12.0002.633 X86
    Copyright (c) Microsoft Corporation. All rights reserved.
    
    
    Loading Dump File [C:\WINDOWS\Minidump\Mini112810-01.dmp]
    Mini Kernel Dump File: Only registers and stack trace are available
    
    Symbol search path is: C:\WINDOWS\symbols
    Executable search path is: 
    Unable to load image \WINDOWS\system32\ntkrnlpa.exe, Win32 error 0n2
    *** WARNING: Unable to verify timestamp for ntkrnlpa.exe
    Windows Server 2003 Kernel Version 3790 (Service Pack 2) MP (2 procs) Free x86 compatible
    Product: LanManNt, suite: TerminalServer
    Machine Name:
    Kernel base = 0x80800000 PsLoadedModuleList = 0x808a6ea8
    Debug session time: Sun Nov 28 09:08:39.343 2010 (UTC + 1:00)
    System Uptime: 0 days 18:04:04.269
    Unable to load image \WINDOWS\system32\ntkrnlpa.exe, Win32 error 0n2
    *** WARNING: Unable to verify timestamp for ntkrnlpa.exe
    Loading Kernel Symbols
    ...............................................................
    .................................................
    Loading User Symbols
    Loading unloaded module list
    ...
    *******************************************************************************
    *                                       *
    *            Bugcheck Analysis                  *
    *                                       *
    *******************************************************************************
    
    Use !analyze -v to get detailed debugging information.
    
    BugCheck 1000008E, {c0000005, 8093b93b, f532fa3c, 0}
    
    Probably caused by : ntkrnlpa.exe ( nt!PopDispatchDisplayRequired+13 )
    
    Followup: MachineOwner
    ---------
    
    0: kd> !analyze -v
    *******************************************************************************
    *                                       *
    *            Bugcheck Analysis                  *
    *                                       *
    *******************************************************************************
    
    KERNEL_MODE_EXCEPTION_NOT_HANDLED_M (1000008e)
    This is a very common bugcheck. Usually the exception address pinpoints
    the driver/function that caused the problem. Always note this address
    as well as the link date of the driver/image that contains this address.
    Some common problems are exception code 0x80000003. This means a hard
    coded breakpoint or assertion was hit, but this system was booted
    /NODEBUG. This is not supposed to happen as developers should never have
    hardcoded breakpoints in retail code, but ...
    If this happens, make sure a debugger gets connected, and the
    system is booted /DEBUG. This will let us see why this breakpoint is
    happening.
    Arguments:
    Arg1: c0000005, The exception code that was not handled
    Arg2: 8093b93b, The address that the exception occurred at
    Arg3: f532fa3c, Trap Frame
    Arg4: 00000000
    
    Debugging Details:
    ------------------
    
    
    EXCEPTION_CODE: (NTSTATUS) 0xc0000005 - Instrukce na adrese 0x%08lx odkazovala na adresu paměi 0x%08lx. S pamětí nelze provést operaci: %s.
    
    FAULTING_IP: 
    nt!PopDispatchDisplayRequired+13
    8093b93b 8b4e1c     mov   ecx,dword ptr [esi+1Ch]
    
    TRAP_FRAME: f532fa3c -- (.trap 0xfffffffff532fa3c)
    ErrCode = 00000000
    eax=f532fbb4 ebx=8841d2e0 ecx=8a197ca0 edx=00000000 esi=00000001 edi=00000000
    eip=8093b93b esp=f532fab0 ebp=f532fb88 iopl=0     nv up ei ng nz na pe nc
    cs=0008 ss=0010 ds=0023 es=0023 fs=0030 gs=0000       efl=00010286
    nt!PopDispatchDisplayRequired+0x13:
    8093b93b 8b4e1c     mov   ecx,dword ptr [esi+1Ch] ds:0023:0000001d=00000000
    Resetting default scope
    
    CUSTOMER_CRASH_COUNT: 1
    
    DEFAULT_BUCKET_ID: DRIVER_FAULT_SERVER_MINIDUMP
    
    BUGCHECK_STR: 0x8E
    
    CURRENT_IRQL: 0
    
    LAST_CONTROL_TRANSFER: from 8094acad to 8093b93b
    
    STACK_TEXT: 
    f532fb88 8094acad 8841d2f8 f532fbb4 001f0fff nt!PopDispatchDisplayRequired+0x13
    f532fce4 8094afd1 0153ea20 001f0fff 00000000 nt!RawCreate+0x97
    f532fce8 0153ea20 001f0fff 00000000 ffffffff nt!LdrpAccessResourceDataNoMultipleLanguage+0x103
    WARNING: Frame IP not in any known module. Following frames may be wrong.
    f532fd38 808897cc 0153ea20 001f0fff 00000000 0x153ea20
    f532fd64 7c93860c badb0d00 0153e664 00000000 nt!MiReserveSystemPtes+0x20a
    f532fd68 badb0d00 0153e664 00000000 00000000 0x7c93860c
    f532fd6c 0153e664 00000000 00000000 00000000 0xbadb0d00
    f532fd70 00000000 00000000 00000000 00000000 0x153e664
    
    
    STACK_COMMAND: kb
    
    FOLLOWUP_IP: 
    nt!PopDispatchDisplayRequired+13
    8093b93b 8b4e1c     mov   ecx,dword ptr [esi+1Ch]
    
    SYMBOL_STACK_INDEX: 0
    
    SYMBOL_NAME: nt!PopDispatchDisplayRequired+13
    
    FOLLOWUP_NAME: MachineOwner
    
    MODULE_NAME: nt
    
    IMAGE_NAME: ntkrnlpa.exe
    
    DEBUG_FLR_IMAGE_TIMESTAMP: 4b7a90ad
    
    FAILURE_BUCKET_ID: 0x8E_nt!PopDispatchDisplayRequired+13
    
    BUCKET_ID: 0x8E_nt!PopDispatchDisplayRequired+13
    
    Followup: MachineOwner
    ---------
    
    

    neděle 28. listopadu 2010 23:02
  • Server HP ProLiant ML350 G4, pamet netestovana, provedu. Bios aktualni.

    Stáhni si MemTest a otestuj... a pošli více info o historii toho stroje a projevení problému

    JN
    pondělí 29. listopadu 2010 10:06
  • MemTest proveden a nezjisteny zadne chyby pameti.

    Historie stroje:

    HP ML350G4 2GB/72GB hotswap disk noraid

    Nainstalovan OS MS 2003 na 72GB disku provoz nekolik let bez problemu.

    Pote zavada na disku, disk komplet KO.

    Zakoupen novy hotswap uwscsi disk HP 300GB a nainstalovan nove os MS Windows 2003.

    Instalovany vsechny aktualizace a ovladace, provedena konfigurace. Stroj je pouzivan jako radic domeny, terminalovy, souborovy a tiskovy server.

    Po instalaci vse ok po dobu nekolika mesicu. Po urcite dobe zacalo dochazet k nahodnym padum OS.

    Nekdy dochazi k padu 2x denne, jindy nespadne mesic. Pokazde naprosto stejny duvod padu (viz vyse). V posledni dobe pada dost casto i 2x tesne za sebou, pak beh ok.

    Zavislost na konkretni cinnosti nebo sw doposud nezjistena.

    Seidenglanz

     

     

    úterý 7. prosince 2010 17:43
  • Zkus spustit nějaký zátěžový test na Procesoru (OCCT...ten je dobrý) a nech ho běžet a monitoruj při tom teploty...

    Jak dlouho jsi ho nechal zatěžovat memtestem? Protože pokud při memtestu třeba přes víkend (nebo více jak 24 hodin) nespadnul, tak je to skoro jistě chyba software...je možné, že je tam nějaká konfliktní aktualizace, ale to by jsi zjistil nejlépe tak, že by jsi zjistil, jestli se třeba od té doby, co se to začalo stávat nenainstalovala nějaká aktualizace.

    úterý 7. prosince 2010 19:24
  • Mel jsem obdobny problem s jednou ML350. Otacel se bez zjevne souvislosti,
    nekdy trikrat za tyden, pak zase treba dva tydna bezel OK. V memory dumpu
    pokazde jina pricina. Po nejake doby me technik HP presvedcil, ze je
    nalomeny system, nasledovala kompletni reinstalace. Nepomohlo. Samozrejme
    vymenena pamet, deska. Pak jednou odesel zdroj, a novy zdroj vydrzel
    fungovat cca 2 hodiny nez vyhorel a vzal s sebou do kremikoveho nebe
    prakticky cely server. Menilo se vsechno krome skrine, a pametovych modulu.
     
    Od te doby to funguje.
     
    Muj zaver: servis a at postupne meni co se da. CarePack predpokladam mas?
     
    BTW: jenom zvidava otazka - proc provozujes server bez RAIDu?
     
    BB
     
     
    středa 8. prosince 2010 6:58
  • Zažil jsem podobně nečekané pády serveru, do kterého jsem po cca 2 letech přidal 2 další HDD a zdroj to zřejmě v některých chvílích neutáhnul. Server někdy spadl do BSOD, někdy se restartoval, ale nebyl to klasický restart s korektním ukončením sllužeb Win, stroj se vypnul během 3-5 sekund (normálně tak přes 30). Nakonec pomohla náhrada silnějším zdrojem. Možná i v tomto případě bude nejsnažší/nejlevnější zkusit vyměnit zdroj...

    A samozřejmě sledovat teploty základní desky při testech apod. pokud je HW monitoring dostupný. A vyčistit od prachu (if any) všechny chladící plochy stlačeným vzduchem...


    JN
    středa 8. prosince 2010 23:16
  • Dekuji vsem za info. Vse zatim beze zmeny. Server bez RAIDu neni moje volba. Nas zakaznik, nas pan... Stejne je to s carepackem. Vyzkousim jeste ten zdroj a uvidime.
    úterý 11. ledna 2011 9:45