Principale utente con più risposte
Server Exchange 2010 KO

Domanda
-
Ciao a tutti,
abbiamo una macchina fisica Windows 2008 R2 SP1 con Exchange 2010 SP3 RU 26 con il solo ruolo mailbox presente che senza un apparente ragione ed orario va in crash e resta irraggiungibile fino al riavvio manuale.
Avevo intenzione di mettere in piedi una trace con qualche contatore per vedere se qualcosa, processo, cpu o altro mandi in crash il server. Avete qualche suggerimento di cosa potrei mettere sotto traccia ?Grazie
Risposte
-
Ciao,
dall'ultimo dump sembrerebbe che il problema si una CPU da sostituire.
Ci stiamo organizzando per la sostituzione- Contrassegnato come risposta Alessandro-VanniniMVP, Moderator giovedì 25 luglio 2019 12:46
Tutte le risposte
-
-
Ciao;
sposo a pieno al tua ipotesi, già percorsa anche col supporto del produttore HW che a seguito dell'esecuzione di vari tool non ha trovato problemi HW.
Per quanto riguarda patch e driver etc... tutti i server sono allineati, e il problema è solo su uno.
Ora volevo mettere in piedi un monitor di risorse/processi per vedere se quando la macchina va in crash c'è qualcosa di strano o qualche costante che potrebbe essere un indizio.
Per questo chiedevo suggerimenti per cosa mettere sotto monitoraggio.
Grazie -
-
magari facesse bsod! Via ILO da console rdp dice semplicemente "no signal"
Questo è tutto quello che ho... ho messo in piedi un blg che raccogli info su dishi, cpu, ram, etc... per vedere se quando va giù c'è qualche picco... vediamo che può essere... -
-
l'alimentazione la escluderei, la sala macchine è controllata e tutta cablata ad-hoc.
il fornitore HW ha verificato e per lui i componenti del server, ram, cpu, dischi, controller, etc.. è tutto ok...
fatto sta che ogni tanto il server "muore"... bah... -
Guarda, io escludo solo quello che vedo di persona. Piazzaci una webcam e vedi se quando si spegne lo fa di brutto :) se così è il problema è dell’alimentazione. Comunque in ogni server a livello hardware esiste un log, su HP si chiama Adureport e viene generato dall’interfaccia Ilo, poi lo legge il brand, su Dell si chiama Drac...su Ibm...non lo so. :)
-
L'event viewer riporta qualcosa?
Con perfmon potresti registrare i parametri principali cpu/ram/disco, per poi visionarli dopo la riaccensione.
Gastone Canali >http://www.armadillo.it
Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere -
-
purtroppo no, nell'event viewer non c'è nulla di strano...
[cut]
Strano...
"va in crash e resta irraggiungibile fino al riavvio manuale"
Quando è in crash, risponde al ping? puoi accedere localmente? Cosa non funziona?
riavvio manuale: è un riavvio normale? Oppure devi forzarlo brutalmente ?
Gastone Canali >http://www.armadillo.it
Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere -
purtroppo no, nell'event viewer non c'è nulla di strano...
[cut]
Strano...
"va in crash e resta irraggiungibile fino al riavvio manuale"
Quando è in crash, risponde al ping?
NO
puoi accedere localmente?
No, anche via ILO che è l'unico accesso che abbiamo lo schermo via RDP riporta "no signal"
Cosa non funziona?
La macchina resta frizzata
riavvio manuale: è un riavvio normale? Oppure devi forzarlo brutalmente ?
Da ILO "cold reset", praticamente il riavvio tenendo premuto il tasto...
Gastone Canali >http://www.armadillo.it
Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere -
Quindi l'event viewer è frizzato pure lui e non riporta nulla, neanche gli eventi di "kernel power" dello spegnimento forzoso . Corretto?
Gastone Canali >http://www.armadillo.it
Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere -
Quindi l'event viewer è frizzato pure lui e non riporta nulla, neanche gli eventi di "kernel power" dello spegnimento forzoso . Corretto?
Esatto
Gastone Canali >http://www.armadillo.it
Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere -
Non si capiva che il problema fosse un sistema "frizzato", i Freeze sono difficili da debuggare, con i crash si ha qualche possibilità in più, fortunatamente microsoft ci aiuta fornendoci 4 metodi (il terzo metodo è quello citato nel mio post precedente)
https://docs.microsoft.com/en-us/windows/client-management/troubleshoot-windows-freeze
Io come prima cosa, verificherei se i driver sono aggiornati (sopratutto quelli che sono dei kernel driver) non costa nulla, prova a consultare il support di microsoft, ci sono delle kb sui freeze di windows 2008
Ciao Gastone
Gastone Canali >http://www.armadillo.it
Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere -
Altro reboot, ma sta volta ho trovato questo:
Log Name: System
Source: Microsoft-Windows-WER-SystemErrorReporting
Date: 20/05/2019 00:22:12
Event ID: 1001
Task Category: None
Level: Error
Keywords: Classic
User: N/A
Computer: server.dominio.com
Description:
The computer has rebooted from a bugcheck. The bugcheck was: 0x00000101 (0x000000000000000d, 0x0000000000000000, 0xfffff88002442180, 0x000000000000000a). A dump was saved in: C:\Windows\MEMORY.DMP. Report Id: .
Event Xml:
<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
<System>
<Provider Name="Microsoft-Windows-WER-SystemErrorReporting" Guid="{ABCE23E7-DE45-4366-8631-84FA6C525952}" EventSourceName="BugCheck" />
<EventID Qualifiers="16384">1001</EventID>
<Version>0</Version>
<Level>2</Level>
<Task>0</Task>
<Opcode>0</Opcode>
<Keywords>0x80000000000000</Keywords>
<TimeCreated SystemTime="2019-05-19T22:22:12.000000000Z" />
<EventRecordID>524776</EventRecordID>
<Correlation />
<Execution ProcessID="0" ThreadID="0" />
<Channel>System</Channel>
<Computer>server.dominio.com</Computer>
<Security />
</System>
<EventData>
<Data Name="param1">0x00000101 (0x000000000000000d, 0x0000000000000000, 0xfffff88002442180, 0x000000000000000a)</Data>
<Data Name="param2">C:\Windows\MEMORY.DMP</Data>
<Data Name="param3">
</Data>
</EventData>
</Event>da una ricerca veloce ho trovato che il problema potrebbe essere legato alla CPU:
adesso ho messo sotto trace i counter della CPU e vediamo se effettivamente qualcosa viene tracciato.
Qualcuno ha qualche altre indicazione ?
Grazie!
-
Hai già analizzato il dump?https://www.raymond.cc/blog/how-to-analyze-memory-dump-dmp-file/
Gastone Canali >http://www.armadillo.it
Se alcuni post rispondono al tuo quesito(non necessariamente i miei), ricorda di contrassegnarli come risposta e non dimenticare di contrassegnare anche i post utili. GRAZIE! Ricorda di dare un occhio ai link Click Here andHere -
Ciao a tutti,
il server, tanto per cambiare, ha fatto boot un altro volta :)Ma sta volta ho un file di dump che sono riuscito ad analizzare.
Riporto di seguito quanto i tool windbg e WhoCrashed hanno estratto:WinDBG
Microsoft (R) Windows Debugger Version 10.0.18362.1 AMD64
Copyright (c) Microsoft Corporation. All rights reserved.
Loading Dump File [D:\_crash_pd4\_MEMORY.DMP]
Kernel Summary Dump File: Kernel address space is available, User address space may not be available.Symbol search path is: srv*
Executable search path is:
Windows 7 Kernel Version 7601 (Service Pack 1) MP (16 procs) Free x64
Product: Server, suite: Enterprise TerminalServer SingleUserTS
Built by: 7601.24231.amd64fre.win7sp1_ldr.180810-0600
Machine Name:
Kernel base = 0xfffff800`03c4e000 PsLoadedModuleList = 0xfffff800`03e88c90
Debug session time: Fri Jun 7 18:00:03.728 2019 (UTC + 2:00)
System Uptime: 0 days 0:28:12.715
Loading Kernel Symbols
...............................................................
................................................................
.....................
Loading User SymbolsLoading unloaded module list
......
For analysis of this file, run !analyze -v
13: kd> !analyze -v
*******************************************************************************
* *
* Bugcheck Analysis *
* *
*******************************************************************************WHEA_UNCORRECTABLE_ERROR (124)
A fatal hardware error has occurred. Parameter 1 identifies the type of error
source that reported the error. Parameter 2 holds the address of the
WHEA_ERROR_RECORD structure that describes the error conditon.
Arguments:
Arg1: 0000000000000000, Machine Check Exception
Arg2: fffffa8035b59028, Address of the WHEA_ERROR_RECORD structure.
Arg3: 00000000b6000000, High order 32-bits of the MCi_STATUS value.
Arg4: 0000000000100153, Low order 32-bits of the MCi_STATUS value.Debugging Details:
------------------
KEY_VALUES_STRING: 1
PROCESSES_ANALYSIS: 1SERVICE_ANALYSIS: 1
STACKHASH_ANALYSIS: 1
TIMELINE_ANALYSIS: 1
DUMP_CLASS: 1DUMP_QUALIFIER: 401
BUILD_VERSION_STRING: 7601.24231.amd64fre.win7sp1_ldr.180810-0600
SYSTEM_MANUFACTURER: Dell Inc.
SYSTEM_PRODUCT_NAME: PowerEdge R715
BIOS_VENDOR: Dell Inc.
BIOS_VERSION: 3.4.1
BIOS_DATE: 05/04/2018
BASEBOARD_MANUFACTURER: Dell Inc.
BASEBOARD_PRODUCT: 0C5MMK
BASEBOARD_VERSION: A00
DUMP_TYPE: 1
BUGCHECK_P1: 0
BUGCHECK_P2: fffffa8035b59028
BUGCHECK_P3: b6000000
BUGCHECK_P4: 100153
BUGCHECK_STR: 0x124_AuthenticAMD
CPU_COUNT: 10
CPU_MHZ: bb8
CPU_VENDOR: AuthenticAMD
CPU_FAMILY: 15
CPU_MODEL: 1
CPU_STEPPING: 2
DEFAULT_BUCKET_ID: WIN7_DRIVER_FAULT
PROCESS_NAME: System
CURRENT_IRQL: f
ANALYSIS_SESSION_HOST: W10P-FORINO
ANALYSIS_SESSION_TIME: 06-17-2019 12:29:39.0324
ANALYSIS_VERSION: 10.0.18362.1 amd64fre
STACK_TEXT:
fffff880`025b7f08 fffff800`03c189ef : 00000000`00000124 00000000`00000000 fffffa80`35b59028 00000000`b6000000 : nt!KeBugCheckEx
fffff880`025b7f10 fffff800`03ddcbdf : 00000000`00000001 fffffa80`35631830 00000000`00000000 fffffa80`35631880 : hal!HalBugCheckSystem+0x1e3
fffff880`025b7f50 fffff800`03c186b4 : 00000000`00000728 fffffa80`35631830 fffff880`025b82b0 00000000`00000000 : nt!WheaReportHwError+0x26f
fffff880`025b7fb0 fffff800`03c18006 : fffffa80`35631830 fffff880`025b82b0 fffffa80`35631830 00000000`00000000 : hal!HalpMcaReportError+0x4c
fffff880`025b8100 fffff800`03c0be5f : 00000000`00000000 00000000`00000001 fffff880`025b8330 00000000`00000000 : hal!HalpMceHandler+0x9e
fffff880`025b8140 fffff800`03cee6ec : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : hal!HalHandleMcheck+0x47
fffff880`025b8170 fffff800`03cee529 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KxMcheckAbort+0x6c
fffff880`025b82b0 fffff880`04c026e4 : fffff880`04c0272d 00000000`00000000 00000000`00000048 00000000`0002365b : nt!KiMcheckAbort+0x169
fffff880`025dcaf8 fffff880`04c0272d : 00000000`00000000 00000000`00000048 00000000`0002365b 01d51d4a`1196008e : amdppm!ReadIoMemRaw+0x30
fffff880`025dcb00 fffff880`04c02970 : 00000000`00000001 00000000`00000001 fffff880`025ad180 fffffa80`356b1930 : amdppm!ReadGenAddr+0x21
fffff880`025dcb30 fffff800`03d97f24 : 00000000`00000001 fffffa80`356c7dd0 ffffffff`ffffdfff 00000000`00000000 : amdppm!C2Idle+0x80
fffff880`025dcb60 fffff800`03ce4eec : fffff880`025ad180 fffff880`025bc440 00000000`00000001 fffff880`00000001 : nt!PoIdle+0x4e4
fffff880`025dcc40 00000000`00000000 : fffff880`025dd000 fffff880`025d7000 fffff880`025dcc00 00000000`00000000 : nt!KiIdleLoop+0x2c
THREAD_SHA1_HASH_MOD_FUNC: 1eb06fbf5449c6d697b1fb9b95c19ed3b91bcffeTHREAD_SHA1_HASH_MOD_FUNC_OFFSET: c60ca32732bcff4c9d5321996e5a9aeb59fd2a6b
THREAD_SHA1_HASH_MOD: e9f2847bcf936e5afaf11f0b5441bcbe1095c434
FOLLOWUP_NAME: MachineOwner
MODULE_NAME: AuthenticAMD
IMAGE_NAME: AuthenticAMD
DEBUG_FLR_IMAGE_TIMESTAMP: 0
STACK_COMMAND: .thread ; .cxr ; kb
FAILURE_BUCKET_ID: X64_0x124_AuthenticAMD_PROCESSOR_CACHE
BUCKET_ID: X64_0x124_AuthenticAMD_PROCESSOR_CACHE
PRIMARY_PROBLEM_CLASS: X64_0x124_AuthenticAMD_PROCESSOR_CACHE
TARGET_TIME: 2019-06-07T16:00:03.000Z
OSBUILD: 7601
OSSERVICEPACK: 1000
SERVICEPACK_NUMBER: 0
OS_REVISION: 0
SUITE_MASK: 274
PRODUCT_TYPE: 3
OSPLATFORM_TYPE: x64
OSNAME: Windows 7
OSEDITION: Windows 7 Server (Service Pack 1) Enterprise TerminalServer SingleUserTS
OS_LOCALE:
USER_LCID: 0
OSBUILD_TIMESTAMP: 2018-08-10 17:14:00
BUILDDATESTAMP_STR: 180810-0600
BUILDLAB_STR: win7sp1_ldr
BUILDOSVER_STR: 6.1.7601.24231.amd64fre.win7sp1_ldr.180810-0600
ANALYSIS_SESSION_ELAPSED_TIME: 68fc
ANALYSIS_SOURCE: KM
FAILURE_ID_HASH_STRING: km:x64_0x124_authenticamd_processor_cache
FAILURE_ID_HASH: {8bb1abe1-5cc5-4642-921b-5e3d4790100e}
Followup: MachineOwner
---------WhoCrashed
This was probably caused by the following module: amdppm.sys (amdppm+0x26E4)
Bugcheck code: 0x124 (0x0, 0xFFFFFA8035B59028, 0xB6000000, 0x100153)
Error: WHEA_UNCORRECTABLE_ERROR
file path: C:\windows\system32\drivers\amdppm.sys
product: Microsoft® Windows® Operating System
company: Microsoft Corporation
description: Processor Device Driver
Bug check description: This bug check indicates that a fatal hardware error has occurred. This bug check uses the error data that is provided by the Windows Hardware Error Architecture (WHEA).
This is likely to be caused by a hardware problem.
The crash took place in a Microsoft module. Your system configuration may be incorrect. Possibly this problem is caused by another driver on your system that cannot be identified at this time.Da quanto ci capisco il problema sembra essere il driver della CPU
FAILURE_BUCKET_ID: X64_0x124_AuthenticAMD_PROCESSOR_CACHE
BUCKET_ID: X64_0x124_AuthenticAMD_PROCESSOR_CACHE
PRIMARY_PROBLEM_CLASS: X64_0x124_AuthenticAMD_PROCESSOR_CACHE
file path: C:\windows\system32\drivers\amdppm.sys
Qualcuno di voi ha più esperienza di me nel leggere i file di dump e può darmi qualche indicazione in più ?
Grazie
-
-
-
Ciao,
dall'ultimo dump sembrerebbe che il problema si una CPU da sostituire.
Ci stiamo organizzando per la sostituzione- Contrassegnato come risposta Alessandro-VanniniMVP, Moderator giovedì 25 luglio 2019 12:46
-
:-) non lo sospettava nessuno il problema hardware...:-)
In carriera trovata solo una CPU difettosa su un client.
Non monto però AMD su macchine server. Mai venduta una. Non monto nemmeno Dell.
Bene che sei arrivato alla soluzione!
grazie di averla condivisa.
ciao!
A.