none
Server Exchange 2010 KO RRS feed

  • Domanda

  • Ciao a tutti,
    abbiamo una macchina fisica Windows 2008 R2 SP1 con Exchange 2010 SP3 RU 26 con il solo ruolo mailbox presente che senza un apparente ragione ed orario va in crash e resta irraggiungibile fino al riavvio manuale.
    Avevo intenzione di mettere in piedi una trace con qualche contatore per vedere se qualcosa, processo, cpu o altro mandi in crash il server. Avete qualche suggerimento di cosa potrei mettere sotto traccia ?

    Grazie

    mercoledì 8 maggio 2019 07:51

Risposte

Tutte le risposte

  • Ciao, 

    macchina fisica + crash di sistema= problemi hardware. Di svariati tipi possibili...ma partirei di li. Check dell’hardware controllo che non siano andati su drivers strani, poi updates a ritroso...e via per quella strada.

    ciao!

    A.

    mercoledì 8 maggio 2019 18:24
    Moderatore
  • Ciao;
    sposo a pieno al tua ipotesi, già percorsa anche col supporto del produttore HW che a seguito dell'esecuzione di vari tool non ha trovato problemi HW.
    Per quanto riguarda patch e driver etc... tutti i server sono allineati, e il problema è solo su uno.
    Ora volevo mettere in piedi un monitor di risorse/processi per vedere se quando la macchina va in crash c'è qualcosa di strano o qualche costante che potrebbe essere un indizio.
    Per questo chiedevo suggerimenti per cosa mettere sotto monitoraggio.
    Grazie

    giovedì 9 maggio 2019 06:45
  • ma ti fa bluescreen? hai controllato magari? in quel caso con bluescreenview della nirsoft potresti capire cosa lo crea..
    mercoledì 15 maggio 2019 05:35
    Moderatore
  • magari facesse bsod! Via ILO da console rdp dice semplicemente "no signal"
    Questo è tutto quello che ho... ho messo in piedi un blg che raccogli info su dishi, cpu, ram, etc... per vedere se quando va giù c'è qualche picco... vediamo che può essere...

    mercoledì 15 maggio 2019 13:49
  • e se fosse invece un problema che esula dal server in se? tipo l'alimentazione a cui è collegato?
    mercoledì 15 maggio 2019 13:53
    Moderatore
  • l'alimentazione la escluderei, la sala macchine è controllata e tutta cablata ad-hoc.
    il fornitore HW ha verificato e per lui i componenti del server, ram, cpu, dischi, controller, etc.. è tutto ok...
    fatto sta che ogni tanto il server "muore"... bah... 
    giovedì 16 maggio 2019 11:53
  • Guarda, io escludo solo quello che vedo di persona. Piazzaci una webcam e vedi se quando si spegne lo fa di brutto :) se così è il problema è dell’alimentazione. Comunque in ogni server a livello hardware esiste un log, su HP si chiama Adureport e viene generato dall’interfaccia Ilo, poi lo legge il brand, su Dell si chiama Drac...su Ibm...non lo so. :)
    giovedì 16 maggio 2019 18:48
    Moderatore
  • L'event viewer riporta qualcosa?

    Con perfmon potresti registrare i parametri principali cpu/ram/disco, per poi visionarli dopo la riaccensione.


    Gastone Canali >http://www.armadillo.it


    Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere

    giovedì 16 maggio 2019 22:51
    Moderatore
  • purtroppo no, nell'event viewer non c'è nulla di strano...
    ho messo su dei counter per vedere se quando la macchina va giù c'è qualcosa di strano che possa essere indice della causa del problema.

    Vi tengo aggiornati

    venerdì 17 maggio 2019 09:19
  • purtroppo no, nell'event viewer non c'è nulla di strano...

    [cut]

    Strano...

    "va in crash e resta irraggiungibile fino al riavvio manuale"

    Quando è in crash, risponde al ping? puoi accedere localmente? Cosa non funziona?

    riavvio manuale: è un riavvio normale? Oppure devi forzarlo brutalmente ?


    Gastone Canali >http://www.armadillo.it


    Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere

    venerdì 17 maggio 2019 10:03
    Moderatore
  • purtroppo no, nell'event viewer non c'è nulla di strano...

    [cut]

    Strano...

    "va in crash e resta irraggiungibile fino al riavvio manuale"

    Quando è in crash, risponde al ping?

    NO

    puoi accedere localmente?

    No, anche via ILO che è l'unico accesso che abbiamo lo schermo via RDP riporta "no signal"

    Cosa non funziona?

    La macchina resta frizzata

    riavvio manuale: è un riavvio normale? Oppure devi forzarlo brutalmente ?

    Da ILO "cold reset", praticamente il riavvio tenendo premuto il tasto...


    Gastone Canali >http://www.armadillo.it


    Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere


    venerdì 17 maggio 2019 12:10
  • Quindi l'event viewer è frizzato pure lui e non riporta nulla, neanche gli eventi di  "kernel power" dello spegnimento forzoso . Corretto?

    Gastone Canali >http://www.armadillo.it


    Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere

    venerdì 17 maggio 2019 14:11
    Moderatore
  • Quindi l'event viewer è frizzato pure lui e non riporta nulla, neanche gli eventi di  "kernel power" dello spegnimento forzoso . Corretto?

    Gastone Canali >http://www.armadillo.it


    Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere

    Esatto
    venerdì 17 maggio 2019 14:32
  • Non si capiva che il problema fosse un sistema "frizzato", i  Freeze sono difficili da debuggare, con i crash si ha qualche possibilità in più, fortunatamente microsoft ci aiuta fornendoci 4 metodi (il terzo metodo è quello citato nel mio post precedente)

    https://docs.microsoft.com/en-us/windows/client-management/troubleshoot-windows-freeze

    Io come prima cosa, verificherei se i driver sono aggiornati (sopratutto quelli che sono dei kernel driver) non costa nulla, prova a consultare il support di microsoft, ci sono delle kb sui freeze di windows 2008

    Ciao Gastone


    Gastone Canali >http://www.armadillo.it


    Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere

    venerdì 17 maggio 2019 18:14
    Moderatore
  • Altro reboot, ma sta volta ho trovato questo:

    Log Name:      System
    Source:        Microsoft-Windows-WER-SystemErrorReporting
    Date:          20/05/2019 00:22:12
    Event ID:      1001
    Task Category: None
    Level:         Error
    Keywords:      Classic
    User:          N/A
    Computer:      server.dominio.com
    Description:
    The computer has rebooted from a bugcheck.  The bugcheck was: 0x00000101 (0x000000000000000d, 0x0000000000000000, 0xfffff88002442180, 0x000000000000000a). A dump was saved in: C:\Windows\MEMORY.DMP. Report Id: .
    Event Xml:
    <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
      <System>
        <Provider Name="Microsoft-Windows-WER-SystemErrorReporting" Guid="{ABCE23E7-DE45-4366-8631-84FA6C525952}" EventSourceName="BugCheck" />
        <EventID Qualifiers="16384">1001</EventID>
        <Version>0</Version>
        <Level>2</Level>
        <Task>0</Task>
        <Opcode>0</Opcode>
        <Keywords>0x80000000000000</Keywords>
        <TimeCreated SystemTime="2019-05-19T22:22:12.000000000Z" />
        <EventRecordID>524776</EventRecordID>
        <Correlation />
        <Execution ProcessID="0" ThreadID="0" />
        <Channel>System</Channel>
        <Computer>server.dominio.com</Computer>
        <Security />
      </System>
      <EventData>
        <Data Name="param1">0x00000101 (0x000000000000000d, 0x0000000000000000, 0xfffff88002442180, 0x000000000000000a)</Data>
        <Data Name="param2">C:\Windows\MEMORY.DMP</Data>
        <Data Name="param3">
        </Data>
      </EventData>
    </Event>

    da una ricerca veloce ho trovato che il problema potrebbe essere legato alla CPU:

    https://docs.microsoft.com/en-us/windows-hardware/drivers/debugger/bug-check-0x101---clock-watchdog-timeout

    adesso ho messo sotto trace i counter della CPU e vediamo se effettivamente qualcosa viene tracciato.

    Qualcuno ha qualche altre indicazione ?

    Grazie!

    martedì 21 maggio 2019 06:59
  • Hai già analizzato il dump?https://www.raymond.cc/blog/how-to-analyze-memory-dump-dmp-file/

    Gastone Canali >http://www.armadillo.it


    Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere

    martedì 21 maggio 2019 22:34
    Moderatore
  • Ciao a tutti,
    il server, tanto per cambiare, ha fatto boot un altro volta :)

    Ma sta volta ho un file di dump che sono riuscito ad analizzare.
    Riporto di seguito quanto i tool windbg e WhoCrashed hanno estratto:

    WinDBG


    Microsoft (R) Windows Debugger Version 10.0.18362.1 AMD64
    Copyright (c) Microsoft Corporation. All rights reserved.


    Loading Dump File [D:\_crash_pd4\_MEMORY.DMP]
    Kernel Summary Dump File: Kernel address space is available, User address space may not be available.

    Symbol search path is: srv*
    Executable search path is:
    Windows 7 Kernel Version 7601 (Service Pack 1) MP (16 procs) Free x64
    Product: Server, suite: Enterprise TerminalServer SingleUserTS
    Built by: 7601.24231.amd64fre.win7sp1_ldr.180810-0600
    Machine Name:
    Kernel base = 0xfffff800`03c4e000 PsLoadedModuleList = 0xfffff800`03e88c90
    Debug session time: Fri Jun  7 18:00:03.728 2019 (UTC + 2:00)
    System Uptime: 0 days 0:28:12.715
    Loading Kernel Symbols
    ...............................................................
    ................................................................
    .....................
    Loading User Symbols

    Loading unloaded module list
    ......
    For analysis of this file, run !analyze -v
    13: kd> !analyze -v
    *******************************************************************************
    *                                                                             *
    *                        Bugcheck Analysis                                    *
    *                                                                             *
    *******************************************************************************

    WHEA_UNCORRECTABLE_ERROR (124)
    A fatal hardware error has occurred. Parameter 1 identifies the type of error
    source that reported the error. Parameter 2 holds the address of the
    WHEA_ERROR_RECORD structure that describes the error conditon.
    Arguments:
    Arg1: 0000000000000000, Machine Check Exception
    Arg2: fffffa8035b59028, Address of the WHEA_ERROR_RECORD structure.
    Arg3: 00000000b6000000, High order 32-bits of the MCi_STATUS value.
    Arg4: 0000000000100153, Low order 32-bits of the MCi_STATUS value.

    Debugging Details:
    ------------------


    KEY_VALUES_STRING: 1


    PROCESSES_ANALYSIS: 1

    SERVICE_ANALYSIS: 1

    STACKHASH_ANALYSIS: 1

    TIMELINE_ANALYSIS: 1


    DUMP_CLASS: 1

    DUMP_QUALIFIER: 401

    BUILD_VERSION_STRING:  7601.24231.amd64fre.win7sp1_ldr.180810-0600

    SYSTEM_MANUFACTURER:  Dell Inc.

    SYSTEM_PRODUCT_NAME:  PowerEdge R715

    BIOS_VENDOR:  Dell Inc.

    BIOS_VERSION:  3.4.1

    BIOS_DATE:  05/04/2018

    BASEBOARD_MANUFACTURER:  Dell Inc.

    BASEBOARD_PRODUCT:  0C5MMK

    BASEBOARD_VERSION:  A00

    DUMP_TYPE:  1

    BUGCHECK_P1: 0

    BUGCHECK_P2: fffffa8035b59028

    BUGCHECK_P3: b6000000

    BUGCHECK_P4: 100153

    BUGCHECK_STR:  0x124_AuthenticAMD

    CPU_COUNT: 10

    CPU_MHZ: bb8

    CPU_VENDOR:  AuthenticAMD

    CPU_FAMILY: 15

    CPU_MODEL: 1

    CPU_STEPPING: 2

    DEFAULT_BUCKET_ID:  WIN7_DRIVER_FAULT

    PROCESS_NAME:  System

    CURRENT_IRQL:  f

    ANALYSIS_SESSION_HOST:  W10P-FORINO

    ANALYSIS_SESSION_TIME:  06-17-2019 12:29:39.0324

    ANALYSIS_VERSION: 10.0.18362.1 amd64fre

    STACK_TEXT: 
    fffff880`025b7f08 fffff800`03c189ef : 00000000`00000124 00000000`00000000 fffffa80`35b59028 00000000`b6000000 : nt!KeBugCheckEx
    fffff880`025b7f10 fffff800`03ddcbdf : 00000000`00000001 fffffa80`35631830 00000000`00000000 fffffa80`35631880 : hal!HalBugCheckSystem+0x1e3
    fffff880`025b7f50 fffff800`03c186b4 : 00000000`00000728 fffffa80`35631830 fffff880`025b82b0 00000000`00000000 : nt!WheaReportHwError+0x26f
    fffff880`025b7fb0 fffff800`03c18006 : fffffa80`35631830 fffff880`025b82b0 fffffa80`35631830 00000000`00000000 : hal!HalpMcaReportError+0x4c
    fffff880`025b8100 fffff800`03c0be5f : 00000000`00000000 00000000`00000001 fffff880`025b8330 00000000`00000000 : hal!HalpMceHandler+0x9e
    fffff880`025b8140 fffff800`03cee6ec : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : hal!HalHandleMcheck+0x47
    fffff880`025b8170 fffff800`03cee529 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KxMcheckAbort+0x6c
    fffff880`025b82b0 fffff880`04c026e4 : fffff880`04c0272d 00000000`00000000 00000000`00000048 00000000`0002365b : nt!KiMcheckAbort+0x169
    fffff880`025dcaf8 fffff880`04c0272d : 00000000`00000000 00000000`00000048 00000000`0002365b 01d51d4a`1196008e : amdppm!ReadIoMemRaw+0x30
    fffff880`025dcb00 fffff880`04c02970 : 00000000`00000001 00000000`00000001 fffff880`025ad180 fffffa80`356b1930 : amdppm!ReadGenAddr+0x21
    fffff880`025dcb30 fffff800`03d97f24 : 00000000`00000001 fffffa80`356c7dd0 ffffffff`ffffdfff 00000000`00000000 : amdppm!C2Idle+0x80
    fffff880`025dcb60 fffff800`03ce4eec : fffff880`025ad180 fffff880`025bc440 00000000`00000001 fffff880`00000001 : nt!PoIdle+0x4e4
    fffff880`025dcc40 00000000`00000000 : fffff880`025dd000 fffff880`025d7000 fffff880`025dcc00 00000000`00000000 : nt!KiIdleLoop+0x2c


    THREAD_SHA1_HASH_MOD_FUNC:  1eb06fbf5449c6d697b1fb9b95c19ed3b91bcffe

    THREAD_SHA1_HASH_MOD_FUNC_OFFSET:  c60ca32732bcff4c9d5321996e5a9aeb59fd2a6b

    THREAD_SHA1_HASH_MOD:  e9f2847bcf936e5afaf11f0b5441bcbe1095c434

    FOLLOWUP_NAME:  MachineOwner

    MODULE_NAME: AuthenticAMD

    IMAGE_NAME:  AuthenticAMD

    DEBUG_FLR_IMAGE_TIMESTAMP:  0

    STACK_COMMAND:  .thread ; .cxr ; kb

    FAILURE_BUCKET_ID:  X64_0x124_AuthenticAMD_PROCESSOR_CACHE

    BUCKET_ID:  X64_0x124_AuthenticAMD_PROCESSOR_CACHE

    PRIMARY_PROBLEM_CLASS:  X64_0x124_AuthenticAMD_PROCESSOR_CACHE

    TARGET_TIME:  2019-06-07T16:00:03.000Z

    OSBUILD:  7601

    OSSERVICEPACK:  1000

    SERVICEPACK_NUMBER: 0

    OS_REVISION: 0

    SUITE_MASK:  274

    PRODUCT_TYPE:  3

    OSPLATFORM_TYPE:  x64

    OSNAME:  Windows 7

    OSEDITION:  Windows 7 Server (Service Pack 1) Enterprise TerminalServer SingleUserTS

    OS_LOCALE: 

    USER_LCID:  0

    OSBUILD_TIMESTAMP:  2018-08-10 17:14:00

    BUILDDATESTAMP_STR:  180810-0600

    BUILDLAB_STR:  win7sp1_ldr

    BUILDOSVER_STR:  6.1.7601.24231.amd64fre.win7sp1_ldr.180810-0600

    ANALYSIS_SESSION_ELAPSED_TIME:  68fc

    ANALYSIS_SOURCE:  KM

    FAILURE_ID_HASH_STRING:  km:x64_0x124_authenticamd_processor_cache

    FAILURE_ID_HASH:  {8bb1abe1-5cc5-4642-921b-5e3d4790100e}

    Followup:     MachineOwner
    ---------

    WhoCrashed

    This was probably caused by the following module: amdppm.sys (amdppm+0x26E4)
    Bugcheck code: 0x124 (0x0, 0xFFFFFA8035B59028, 0xB6000000, 0x100153)
    Error: WHEA_UNCORRECTABLE_ERROR
    file path: C:\windows\system32\drivers\amdppm.sys
    product: Microsoft® Windows® Operating System
    company: Microsoft Corporation
    description: Processor Device Driver
    Bug check description: This bug check indicates that a fatal hardware error has occurred. This bug check uses the error data that is provided by the Windows Hardware Error Architecture (WHEA).
    This is likely to be caused by a hardware problem.
    The crash took place in a Microsoft module. Your system configuration may be incorrect. Possibly this problem is caused by another driver on your system that cannot be identified at this time.

    Da quanto ci capisco il problema sembra essere il driver della CPU

    FAILURE_BUCKET_ID:  X64_0x124_AuthenticAMD_PROCESSOR_CACHE

    BUCKET_ID:  X64_0x124_AuthenticAMD_PROCESSOR_CACHE

    PRIMARY_PROBLEM_CLASS:  X64_0x124_AuthenticAMD_PROCESSOR_CACHE

    file path: C:\windows\system32\drivers\amdppm.sys

    Qualcuno di voi ha più esperienza di me nel leggere i file di dump e può darmi qualche indicazione in più ?

    Grazie

    mercoledì 19 giugno 2019 06:24
  • Ciao. 

    Amdppm.sys..... modello del server? 

    Marco

    mercoledì 19 giugno 2019 07:05
  • Ciao,

    questo il modello del server:

    SYSTEM_PRODUCT_NAME:  PowerEdge R715

    l'analisi del dump l'ho fatta dal mio pc.

    mercoledì 19 giugno 2019 07:11
  • Ciao,
    dall'ultimo dump sembrerebbe che il problema si una CPU da sostituire.
    Ci stiamo organizzando per la sostituzione
    giovedì 25 luglio 2019 09:50
  • :-) non lo sospettava nessuno il problema hardware...:-)

    In carriera trovata solo una CPU difettosa su un client. 

    Non monto però AMD su macchine server. Mai venduta una. Non monto nemmeno Dell.

    Bene che sei arrivato alla soluzione!

    grazie di averla condivisa.

    ciao!

    A.

    giovedì 25 luglio 2019 12:45
    Moderatore