none
Problema Raid-5 su Server 2008 RRS feed

  • Domanda

  • Salve a tutti,

    ho un problema sul server con raid 5 con 3 dischi in ufficio che si è verificato per la seconda volta nell'arco di un mese:

    il server si blocca senza dare possibilità di effettuare nessun tipo di operazione, la clessidra resta in fase di caricamento ma di fatto i dischi non lavorano e il led resta spento costingendomi a resettare. Al riavvio il controller raid segnala il 3° disco come DEGRADED, effettuo un altro riavvio per verificarne la presenza da Bios, viene visto regolarmente, riavvio e viene segnalato come BAD, riavvio nuovamente e parte il caricamento del sistema (molto lungo), lentamente si avvia windows e appare l'icona dell'Intel Matrix Storage che segnala la ricostruzione dei file tramite ridondanza (o qlc del genere), come la volta precedente sto aspettando che finisca questa fase lunga che rallenta tutte le operazioni ma che alla fine fà tornare il server alle normali prestazioni.

    Premetto che in entrambi i casi ero fuori ufficio e al mio rientro mi veniva segnalato il blocco del server, ispezionandolo in entrambi i casi ho trovato i fermi del pannello del case allentati. Possibile che il problema derivi da una manomissione, la disconnessione e riconnessione di un disco mentre il server è acceso?

    Al momento il Matrix (nelle proprietà avanzate) mi segnala tutti e 3 i dischi come NORMALI e all'avvio il controller non segnala più errori.

    Nel caso in cui il problema derivi da un disco difettoso, quali sono le operazioni da effettuare per verificarne l'integrità?

    E' possibile effettuare un chkdsk /r su un sistema raid?

    Il software Intel Rapid serve allo scopo?

    Quali sono le operazioni di manutenzione ordinaria da effettuare su sistemi raid?

    ps. l'unico evento registrato è un errore critico di Riavvio del sistema senza un regolare arresto.

     

    Ringraziandovi auguro a tutti una buona notte o buon lavoro.

    mercoledì 6 ottobre 2010 00:45

Risposte

  • Purtroppo non ho avuto mai il piacede di usare Intel Rapid, spero che qualche collega possa spendere 2 parole a proposito.

    Credo che chkdsk /r possa anche funzionare anche se il volume è raid5, anche se in genere il controller fa una ottima verifica dell'hw collegato, invece il check disco per disco è impossibile da fare, i dati vengono gestiti dal controller ossia è il controller che ti fa vedere un unico disco mentre sotto di lui prende i dati e controllo di parità e li distribuisce sui dischi che ne compongono l'array. In poche parole il disco da solo è vuoto.
    Il raid5 riesce a sopperire la mancanza di un solo disco attraverso l'inversione dati-controllo parità; se un disco va offline lui ricostruisce i dati mancanti e continua a funzionare, dal momento che gli dici che il disco è stato ripristinato fa la rebuild mettendo quello che lui dovrebbe calcolare nel nuovo disco poi lo mette online. Il registro eventi non vede dal controller in basso, quindi se il controller non scrive sul registro eventi li non trovi nulla. In genere si installa un manager per i controller raid che fa anche quel lavoro.


    Roberto Pallucchini
    *** Please mark as Answer, if this reply helps you***
    *** Per favore Suggerisci come risposta, se la risposta ti è stata di aiuto***
    • Contrassegnato come risposta torvox giovedì 7 ottobre 2010 22:11
    mercoledì 6 ottobre 2010 10:31

Tutte le risposte

  • Il disco 3 per me è guasto; il disco per qualche suo motivo probabilmente durante il funzionamento ha errori di scrittura oppure di trasferimento, il controller rileva questo e lo isola poi spegnendo il server e riavviando il controller lo ritrova collegato e funzionante quindi lo ricrea. Comunque per me è da sostituire.
    Per la verifica dipende dal tipo/modello del disco, per ata o sata classici potrebbe essere disponibili dei tool del costruttore, ad esempio maxtor aveva un tool chiamato power Max, oppure ci potrebbero essere diagnostici per il tuo controller che esegue anche il test dei dischi. Il test va fatto continuo visto che il problema non sembra fisso.
    In genere non ci sono operazioni di manutenzione per i Raid.

    ciao


    Roberto Pallucchini
    *** Please mark as Answer, if this reply helps you***
    *** Per favore Suggerisci come risposta, se la risposta ti è stata di aiuto***
    mercoledì 6 ottobre 2010 04:35
  • Come suggerito da Roberto, L'hd degraded direi che deve essere sostituito, prima che un secondo disco manifesti problemi e tu perda la continuità di funzionamento del server. Sostituisci il dischi e lo metti online come good...

    Normalmente i controller hanno dei tools che dovrebbero verificare l'integrità del disco.

    Come manutenzione ordinaria direi che il controllo periodico di alert e log sia più che sufficiente. 

    Ma, ripeto, non esiterei a cambiare il disco.

     

     


    Adriano Mariolini MCITP Server Administrator MCTS Windows Server 2008 Applications Infrastructure, Configuration adriano.mariolini[at]my.sysadmin.it
    mercoledì 6 ottobre 2010 07:41
  • Concordo con Roberto, il disco 3 è da sostituire, in più aggiungo che se fossi in te metterei qualche sorta di sigillo  non visibile sul case per capire se c'è qualcuno che manomette il server.

    Ciao.


    Edoardo Benussi - Microsoft® MVP
    Management Infrastructure - Systems Administration
    https://mvp.support.microsoft.com/Profile/Benussi
    Windows Server Italian Forum Moderator
    edo[at]mvps[dot]org
    mercoledì 6 ottobre 2010 07:46
    Moderatore
  • Come immaginavo allora,

    i dischi sono sata, effettuerò un controllo sui dischi con i tool a disposizione del costruttore e del controller, verificherò che i dischi vengano correttamente alimentati. Nel frattempo ho scovato questo tool con la possibilità di controllo su dischi raid http://hddscan.com/.

    Avete info approposito di Intel Rapid?

    Nel caso in cui volessi effettuare un controllo e ripristino (vi prego non me ne abbiate!) di eventuali settori danneggiati sarebbe inutile (oltre che dannoso) collegare i singoli dischi su altro sistema per un chkdsk /r? Una volta ricollegati al server questo non sarebbe in grado di rielaborare le info del file system?

    I sintomi di blocco descritti sono possibili scollegando e ricollegando un disco a sistema avviato? Perchè nel registro eventi viene solo segnalato il mio reset e nessun errore sul disco?

     

    Grazie a tutti voi per il supporto :)

     

    ps. credo che un bel lucchetto sul case faccia proprio al caso

    mercoledì 6 ottobre 2010 10:08
  • Purtroppo non ho avuto mai il piacede di usare Intel Rapid, spero che qualche collega possa spendere 2 parole a proposito.

    Credo che chkdsk /r possa anche funzionare anche se il volume è raid5, anche se in genere il controller fa una ottima verifica dell'hw collegato, invece il check disco per disco è impossibile da fare, i dati vengono gestiti dal controller ossia è il controller che ti fa vedere un unico disco mentre sotto di lui prende i dati e controllo di parità e li distribuisce sui dischi che ne compongono l'array. In poche parole il disco da solo è vuoto.
    Il raid5 riesce a sopperire la mancanza di un solo disco attraverso l'inversione dati-controllo parità; se un disco va offline lui ricostruisce i dati mancanti e continua a funzionare, dal momento che gli dici che il disco è stato ripristinato fa la rebuild mettendo quello che lui dovrebbe calcolare nel nuovo disco poi lo mette online. Il registro eventi non vede dal controller in basso, quindi se il controller non scrive sul registro eventi li non trovi nulla. In genere si installa un manager per i controller raid che fa anche quel lavoro.


    Roberto Pallucchini
    *** Please mark as Answer, if this reply helps you***
    *** Per favore Suggerisci come risposta, se la risposta ti è stata di aiuto***
    • Contrassegnato come risposta torvox giovedì 7 ottobre 2010 22:11
    mercoledì 6 ottobre 2010 10:31
  • Purtroppo non ho avuto mai il piacede di usare Intel Rapid, spero che qualche collega possa spendere 2 parole a proposito.

    Credo che chkdsk /r possa anche funzionare anche se il volume è raid5, anche se in genere il controller fa una ottima verifica dell'hw collegato, invece il check disco per disco è impossibile da fare, i dati vengono gestiti dal controller ossia è il controller che ti fa vedere un unico disco mentre sotto di lui prende i dati e controllo di parità e li distribuisce sui dischi che ne compongono l'array. In poche parole il disco da solo è vuoto.
    Il raid5 riesce a sopperire la mancanza di un solo disco attraverso l'inversione dati-controllo parità; se un disco va offline lui ricostruisce i dati mancanti e continua a funzionare, dal momento che gli dici che il disco è stato ripristinato fa la rebuild mettendo quello che lui dovrebbe calcolare nel nuovo disco poi lo mette online. Il registro eventi non vede dal controller in basso, quindi se il controller non scrive sul registro eventi li non trovi nulla. In genere si installa un manager per i controller raid che fa anche quel lavoro.


    Roberto Pallucchini
    *** Please mark as Answer , if this reply helps you***
    *** Per favore Suggerisci come risposta , se la risposta ti è stata di aiuto***


    Grazie Roberto,

    nel tardo pomeriggio effettuerò le opportune verifiche. Vi farò un resoconto dettagliato in serata.

     

    Buon lavoro.

    mercoledì 6 ottobre 2010 12:01
  • Salve,

    scusate per il ritardo causa impegni.

    Ho effettuato le opportune verifiche, il controller continua a non segnalare problemi. Ho installato Intel Rapid Storage che è il successore del Matrix, ha effettuato verifica e controllo senza trovare errori, i tre dischi risultano NORMALI.

    Credo sia meglio dotarsi di un disco supplementare per un cambio rapido in caso di rottura. E' l'unica cosa sicura da fare che mi viene in mente.

     

    Grazie a tutti per il supporto.

    giovedì 7 ottobre 2010 22:11
  • Visto che ti sei procurato un disco pronto per l'eventuale sostituzione ti consiglio di installarlo subito e configurarlo come spare disk (bell'esempio di fault tollerance) che così appena uno ne va fuori linea questo viene inserito nell'array ed utilizzato così ti ritrovi sempre l'array bello integro. In caso di malfunzionamenti non tti resta che sfilare quello guasto e via, anzi, se vuoi fare fault-tollerance non lo butti ma lo sostituisci così se ti ricatita un disco quasto c'è sempre un disco di ricambio pronto.

    ciao


    Roberto Pallucchini
    *** Please mark as Answer, if this reply helps you***
    *** Per favore Suggerisci come risposta, se la risposta ti è stata di aiuto***
    venerdì 8 ottobre 2010 03:55