none
Il server W2012 continua a riavviarsi per errore hardware. RRS feed

  • Domanda

  • Gli errori segnalati dal sistema sono diversi, l'ultimo, un IRQL NOT LESS OR EQUAL da parte del Kernel. Effettuando un monitoraggio delle risorse si notano errori hardware abbastanza periodici con diversi programmi (immagine): quelli che però, da una analisi dei diversi dump, risultano solitamente fatali sono dell'antivirus e del kernel stesso. Si allega ultimo dump per una analisi migliore. Avete qualche consiglio? Grazie.

    DRIVER_CORRUPTED_EXPOOL (c5)
    An attempt was made to access a pageable (or completely invalid) address at an
    interrupt request level (IRQL) that is too high.  This is
    caused by drivers that have corrupted the system pool.  Run the driver
    verifier against any new (or suspect) drivers, and if that doesn't turn up
    the culprit, then use gflags to enable special pool.
    Arguments:
    Arg1: ffffe001b1584260, memory referenced
    Arg2: 0000000000000002, IRQL
    Arg3: 0000000000000000, value 0 = read operation, 1 = write operation
    Arg4: fffff800dcab64dc, address which referenced memory

    Debugging Details:
    ------------------


    DUMP_CLASS: 1

    DUMP_QUALIFIER: 401

    BUILD_VERSION_STRING:  9600.18821.amd64fre.winblue_ltsb.170914-0600

    DUMP_TYPE:  1

    BUGCHECK_P1: ffffe001b1584260

    BUGCHECK_P2: 2

    BUGCHECK_P3: 0

    BUGCHECK_P4: fffff800dcab64dc

    BUGCHECK_STR:  0xC5_2

    CURRENT_IRQL:  2

    FAULTING_IP:
    nt!ExAllocatePoolWithTag+5fc
    fffff800`dcab64dc 498b00          mov     rax,qword ptr [r8]

    CPU_COUNT: 10

    CPU_MHZ: 834

    CPU_VENDOR:  GenuineIntel

    CPU_FAMILY: 6

    CPU_MODEL: 4f

    CPU_STEPPING: 1

    CPU_MICROCODE: 6,4f,1,0 (F,M,S,R)  SIG: B00001F'00000000 (cache) B00001F'00000000 (init)

    DEFAULT_BUCKET_ID:  WIN8_DRIVER_FAULT

    PROCESS_NAME:  System

    ANALYSIS_SESSION_HOST:  UDSRVFDE3034

    ANALYSIS_SESSION_TIME:  01-02-2018 08:27:41.0792

    ANALYSIS_VERSION: 10.0.15063.468 amd64fre

    TRAP_FRAME:  ffffd00158886190 -- (.trap 0xffffd00158886190)
    NOTE: The trap frame does not contain all registers.
    Some register values may be zeroed or incorrect.
    rax=0000000000000000 rbx=0000000000000000 rcx=0000007fffffffff
    rdx=0000000000000000 rsi=0000000000000000 rdi=0000000000000000
    rip=fffff800dcab64dc rsp=ffffd00158886320 rbp=0000000000000280
     r8=ffffe001b1584260  r9=7ffffffffffffffc r10=0000000000000001
    r11=000000006966744e r12=0000000000000000 r13=0000000000000000
    r14=0000000000000000 r15=0000000000000000
    iopl=0         nv up ei ng nz na po cy
    nt!ExAllocatePoolWithTag+0x5fc:
    fffff800`dcab64dc 498b00          mov     rax,qword ptr [r8] ds:ffffe001`b1584260=????????????????
    Resetting default scope

    LAST_CONTROL_TRANSFER:  from fffff800dc9726e9 to fffff800dc966ba0

    STACK_TEXT: 
    ffffd001`58886048 fffff800`dc9726e9 : 00000000`0000000a ffffe001`b1584260 00000000`00000002 00000000`00000000 : nt!KeBugCheckEx
    ffffd001`58886050 fffff800`dc970f3a : 00000000`00000000 fffff800`dcafeea0 00000000`00000000 fffff800`dc8e2dc6 : nt!KiBugCheckDispatch+0x69
    ffffd001`58886190 fffff800`dcab64dc : ffff112c`7346721b 00000000`00000011 00000000`00000000 ffffe001`b3059418 : nt!KiPageFault+0x23a
    ffffd001`58886320 fffff800`dc8e516a : 00000000`00000000 00000000`00000001 ffffe001`bc8fb900 00000000`00000000 : nt!ExAllocatePoolWithTag+0x5fc
    ffffd001`588863f0 fffff800`dce8ad0a : 00000000`00000218 00000000`00000020 00000000`00000000 00000000`00000003 : nt!ExAllocatePoolWithTagPriority+0x6a
    ffffd001`58886480 fffff801`c294da17 : 00000000`00000280 00000000`00000218 ffffe001`6966744e 00000000`6966744e : nt!VeAllocatePoolWithTagPriority+0x1d6
    ffffd001`588864f0 fffff800`dce8b09a : ffffd001`58886628 ffffe001`b45e2640 ffffe001`bf00d530 00000000`68734c4b : VerifierExt!XdvHibernationNotification+0x79ff
    ffffd001`58886530 fffff801`c383aa11 : 00000000`00000002 ffffe001`b2943b98 00000000`00000000 fffff801`c383ba10 : nt!VerifierExAllocatePoolEx+0x2a
    ffffd001`58886570 fffff801`c38f0f09 : 00000000`0000000c ffffe001`b517c000 00000000`00000000 ffffe001`b517c030 : Ntfs!NtfsInitializeIrpContext+0x24d
    ffffd001`588865d0 fffff800`dce895f8 : 00000000`00000001 ffffe001`bf00d530 00000000`00000000 00000000`00000002 : Ntfs!NtfsFsdClose+0x1e9
    ffffd001`588866e0 fffff801`c294b989 : ffffe001`bf00d530 fffff801`c2e91101 fffff800`dc937a2c fffff800`dcbbb58c : nt!IovCallDriver+0xb4
    ffffd001`58886730 fffff801`c2e91101 : ffffe001`b51718d0 ffffe001`b51718d0 00000000`00000002 00000000`00000009 : VerifierExt!XdvHibernationNotification+0x5971
    ffffd001`58886770 fffff800`dce895f8 : ffffe001`bf00d530 00000000`00000000 00000000`00000001 fffff800`dc84db01 : fltmgr!FltpDispatch+0xf1
    ffffd001`588867d0 fffff800`dcbbb58c : ffffe001`be342c40 ffffe001`b517c030 ffffe001`bf00d530 00000000`00000001 : nt!IovCallDriver+0xb4
    ffffd001`58886820 fffff800`dcbd01ac : 00000000`00000000 ffffe001`be342c40 ffffe001`b33179a0 ffffe001`be342c10 : nt!IopDeleteFile+0x128
    ffffd001`588868a0 fffff800`dc8a44cf : 00000000`00000000 00000000`00000001 ffffe001`be342c40 ffffe001`c63b3df0 : nt!ObpRemoveObjectRoutine+0x64
    ffffd001`58886900 fffff800`dc86fcfa : ffffe001`c63b3e50 ffffe001`be342c40 ffffe001`be342c40 ffffe001`c63b3df0 : nt!ObfDereferenceObjectWithTag+0x8f
    ffffd001`58886940 fffff800`dc87371c : ffffe001`c63b3df0 00000000`00000001 00000000`00000000 ffffe001`c63b3df0 : nt!CcDeleteSharedCacheMap+0x12e
    ffffd001`58886970 fffff800`dc8751d9 : ffffe001`bd996180 00000000`00000000 fffff800`00000000 00000000`000021e5 : nt!CcWriteBehindInternal+0x330
    ffffd001`58886a00 fffff800`dc874da9 : 00000000`00000000 ffffe001`ba9ed040 ffffe001`c470a180 00000000`00000000 : nt!CcWriteBehind+0x95
    ffffd001`58886aa0 fffff800`dc84d16f : fffff800`dc8e6400 ffffe001`ba9ed100 fffff800`dcafa820 00000000`00000000 : nt!CcWorkerThread+0x22d
    ffffd001`58886b50 fffff800`dc9130ec : ffffe001`b49001e0 ffffe001`ba9ed040 00000000`00000080 ffffe001`ba9ed040 : nt!ExpWorkerThread+0x69f
    ffffd001`58886c00 fffff800`dc96d1c6 : ffffd001`5234c180 ffffe001`ba9ed040 ffffd001`5235b1c0 00000000`00000000 : nt!PspSystemThreadStartup+0x58
    ffffd001`58886c60 00000000`00000000 : ffffd001`58887000 ffffd001`58881000 00000000`00000000 00000000`00000000 : nt!KiStartSystemThread+0x16


    STACK_COMMAND:  kb

    THREAD_SHA1_HASH_MOD_FUNC:  fa9bc0dc0bad5296c8add52c9ba9ae7d3ea3baac

    THREAD_SHA1_HASH_MOD_FUNC_OFFSET:  48d7daafc76d587e6ebfb97fdbfd6d5e80ed7c8e

    THREAD_SHA1_HASH_MOD:  8bc29376aae8d1213e986bc3a0ed057b4d70dc72

    FOLLOWUP_IP:
    nt!ExAllocatePoolWithTag+5fc
    fffff800`dcab64dc 498b00          mov     rax,qword ptr [r8]

    FAULT_INSTR_CODE:  4c008b49

    SYMBOL_STACK_INDEX:  3

    SYMBOL_NAME:  nt!ExAllocatePoolWithTag+5fc

    FOLLOWUP_NAME:  MachineOwner

    MODULE_NAME: nt

    IMAGE_NAME:  ntkrnlmp.exe

    DEBUG_FLR_IMAGE_TIMESTAMP:  59ba8548

    BUCKET_ID_FUNC_OFFSET:  5fc

    FAILURE_BUCKET_ID:  0xC5_2_VRF_nt!ExAllocatePoolWithTag

    BUCKET_ID:  0xC5_2_VRF_nt!ExAllocatePoolWithTag

    PRIMARY_PROBLEM_CLASS:  0xC5_2_VRF_nt!ExAllocatePoolWithTag

    TARGET_TIME:  2018-01-02T03:39:01.000Z

    OSBUILD:  9600

    OSSERVICEPACK:  0

    SERVICEPACK_NUMBER: 0

    OS_REVISION: 0

    SUITE_MASK:  272

    PRODUCT_TYPE:  3

    OSPLATFORM_TYPE:  x64

    OSNAME:  Windows 8.1

    OSEDITION:  Windows 8.1 Server TerminalServer SingleUserTS

    OS_LOCALE: 

    USER_LCID:  0

    OSBUILD_TIMESTAMP:  2017-09-14 15:34:00

    BUILDDATESTAMP_STR:  170914-0600

    BUILDLAB_STR:  winblue_ltsb

    BUILDOSVER_STR:  6.3.9600.18821.amd64fre.winblue_ltsb.170914-0600

    ANALYSIS_SESSION_ELAPSED_TIME:  80e

    ANALYSIS_SOURCE:  KM

    FAILURE_ID_HASH_STRING:  km:0xc5_2_vrf_nt!exallocatepoolwithtag

    FAILURE_ID_HASH:  {08daf78e-64c7-27e0-07ba-3a96b59c398d}

    Followup:     MachineOwner

    martedì 2 gennaio 2018 07:31

Tutte le risposte

  • Ciao

    Hai già provato a disattivare le schede di rete della mainboard del server o a scollegare quelle esterne?

    Prova e riavvia. 

    Il server che modello è?

    Marco

    martedì 2 gennaio 2018 08:19
  • Visto che gli gli errori riguardano diversi programmi inizierei con un controllo approfondito della memoria RAM ed eventualmente del disco. Queste operazioni richiedono necessariamente un fermo macchina, quindi almeno per il tempo necessario ai controlli (1-2 giorni) dovrai spostare i ruoli su un altro server. Potresti approfittare di questa occasione per provare a virtualizzare il tutto, ma con l'hardware in queste condizioni la vedo difficile.....quindi a meno di avere servizi non replicabili ti consiglio di provare con una migrazione o con il solo inserimento di un DC in replica.
    Per eseguire una scansione completa della memoria di sistema ti consiglio di far girare il test per almeno 6 ore (ad esempio puoi provare ad utilizzare memtest), ma secondo me la segnalazione di errore la riceverai molto prima.
    martedì 2 gennaio 2018 08:23
    Moderatore
  • concordo con Fabrizio sul fare un'analisi approfondita della ram usando qualche robusto tool di diagnostica.

    Edoardo Benussi
    Microsoft MVP - Cloud and Datacenter Management
    e[dot]benussi[at]outlook[dot]it

    martedì 2 gennaio 2018 09:04
    Moderatore
  • Ahia, sui server è un problema delicato. Il server finchè vive deve essere mantenuto in garanzia o carepack. A questo punto non hai bisogno di chiedere aiuto: apri un ticket al supporto del brand e ti risolvono loro il problema hardware. Se non hai il server in garanzia ed inizia a dare problemi di questo tipo è un guaio, soprattutto perchè l'HW dei server non è come quello dei client. Se anche hai un problema alla ram o ai dischi ancora peggio spesso il ricambio costa il suo giusto e senza un supporto del brand difficilmente ti fai un debug da solo sulla macchina.

    Il mio consiglio è: se il server non è in garanzia inzia in fretta a migrare e mandalo in pensione, se lo è, be' devi parlare col supporto tecnico a livello sistema operativo non risolvi nulla. Imho.

    ciao.

    A.

     
    martedì 2 gennaio 2018 15:16
    Moderatore
  • Grazie a tutti! Aggiungo alcune informazioni in più richieste.

    Il server è un DELL con processore Xeon E5-2620 v4 con 32GB di RAM e dischi SAS in RAID 1 per OS e RAID 5 per i dati, a febbraio compie un anno ed è la copia esatta di un altro che invece funziona regolarmente. Visto che all'inizio il problema era spesso collegato al driver di rete di Kaspersky (Antivirus in uso), inizialmente non riconosciuto come valido (certificato) e poi reinstallando nuovamente l'antivirus invece lo era, e considerando che si era usato il sistema di raggruppamento su un unico IP di Windows fosse quello il problema. Ma sia eliminando l'antivirus e anche sciogliendo la rete dal gruppo per usare le schede singolarmente nulla era cambiato. Il server è su una rete riservata e quindi non è raggiungibile dall'esterno, si è però comunque interpellata la DELL due volte che dopo aver effettuato i test richiesti ci ha detto che tutto era a posto e il problema era di natura software e non essendo contemplato nel contratto non la riguarda. Abbiamo anche in quelle due occasioni aggiornato il firmware e i driver richiesti. Poi, tra novembre e dicembre, si è effettuato oltre a due volte il test della memoria tramite strumenti diversi, anche ad uno stress test di due ore e la macchina ha funzionato senza nessun problema e non ha dato segni di cedimento(!) Sembra di combattere contro i "mulini a vento" perché il server non si riavvia con una certa periodicità o motivazione, ma a caso e con tempistiche sempre diverse. Fortuna che al momento non è in produzione, ma deve diventarlo se il suo gemello dovesse avere dei problemi.


    • Modificato Paolo Toso mercoledì 3 gennaio 2018 06:48
    mercoledì 3 gennaio 2018 06:45
  • Scusa se insisto. 

    Hai disattivato dal bios le schede di rete e riavviato il tutto?

    Non é il primo Dell che incontro con lo stesso problema. 

    Alcuni lo fanno in fase di spegnimento.  Molti durante il normale utilizzo. 

    Altre volte, per esclusione, sono arrivato a fargli cambiare il controller raid.

    Visto che non è in produzione prova driver verifier

    https://docs.microsoft.com/en-us/windows-hardware/drivers/devtest/driver-verifier

    Marco

    mercoledì 3 gennaio 2018 07:11
  • Ciao,

    A me addiritura e sucesso, dopo in Update di una semplice KB di avere un problema simile con in server della DELL. Vado a memoria- se non ricordo male , il problema e risultato nella antivirus .

    Se non e in produzione puoi provare con una complete disinstallazione (compreso cleanup tool della antivrus) e fare delle prove.

    Saluti, Nikola

    mercoledì 3 gennaio 2018 07:51
    Moderatore
  • Grazie. Il tempo di un messaggio e l'amico si è riavviato... Non ho provato a disattivare tutte le schede di rete e quando l'ho fatto, le ho disattivate tramite IDRAC tenendone una in funzione; comunque oggi proverò a toglierle tutte e vediamo cosa succede. Sì, verifier lo conosco, ho controllato i driver diverse volte ed è tutto a posto. Non risulta nulla di anomalo. Poi (domani) toglierò nuovamente l'antivirus e vediamo cosa fa. Mi sta facendo venire la nausea.
    mercoledì 3 gennaio 2018 08:07