none
Raid Lösung RRS feed

  • Frage

  • Hallo

    Ist jetzt nicht zwingend eine Windows Server Frage alleine. Aber ich frag trotzdem mal.

    Zuerst eine Vorgeschichte:

    Wir nutzen 2012 R2 mit einem RAID 5. Scheinbar sind unsere Platten Schrott (aber wer weiss schon im Voraus, welches Modell wie lange halten wird?). Also, langer Rede kurzer Sinn: Die fallen dauernd aus und wir bauen den Array dauernd neu. Jetzt ist es passiert, dass 2 Blöcke nicht rekonstruiert werden konnten, weil wir einen Doppelfehler hatten (also auf einer zweiten Platte waren 2 Fehler und eine Platte ist total ausgefallen). Tja, dumm gelaufen, aber egal. Es sind nur temporäre Dateien betroffen.

    Wir haben danach also alle defekten Platten ersetzt und alles läuft jetzt wieder. Das blöde ist, dass der Raid Controller diese defekten Sektoren nicht mehr freigeben kann/will. Man müsse dazu die ganze Konfiguration löschen und das ganze Raid neu aufbauen. Heisst es... gut, ist ja kein Problem, ich speichere schnell die paar TB Daten auf 'n USB Stick, formatiere durch und kopier alles zurück :-) ne, Spass beiseite... ist echt nicht machbar solch eine Idee.

    Daher jetzt meine Frage:

    Welches System (es gibt ja in Windows neu sehr viele Arten von ... nennen wir sie mal "Software-Raid") oder welche Hardware (LSI? Intel? Adaptec? RocketRaid?) könnte sowas am besten handeln? Womit habt ihr die besten Erfahrungen gemacht? Ich will einfach nicht, dass wenn ein Cluster defekt ist, wir den ganzen Array schrotten müssen und von vorne anfangen müssen. Das ist doch echt bescheuert so ein System.

    Ach und: ja, mir ist klar, man soll nicht mit defekten Platten arbeiten und sie sofort austauschen. Und ja, ich kann Raid-6 nutzen statt 5 womit das hier kein Problem wäre. ... und so weiter und so fort. Im Moment interessiert mich aber nur, welche Lösung bei einer totalen Katastrophe die beste Funktionalität bietet um die Situation irgendwie zu retten. Also, wer hat sozusagen den besten Airbag? ... wenn ich Dateien verliere... ja gut, wenn ich NTFS-Tabellen verliere und das halbe System Schrott ist... auch gut... kein Problem für mich. Ich will nur wissen, welches System nach dem Tausch der Platten wieder normal hochfährt (und z.B. das defekte Zeug halt mit 0en ersetzt).

    Rudolf

    Sonntag, 25. Dezember 2016 13:14

Antworten

  • Moin,

    keines der Standard-RAID-Level wird Dir pauschal das Gewünschte bieten. Im Bereich von Hardware-RAID musst Du dich halt an die goldenen Regeln halten:

    • möglichst kein RAID5 oder 6 in Produktion einsetzen (ja, richtig, das bedeutet RAID10 und s. auch http://www.baarf.dk/)
    • regelmäßige Patrol Reads über alle Platten einrichten, und sei es auf Kosten der Performance. Ergebnisse davon überwachen!
    • Hot Spare-Platten, die auch regelmäßig zum Testen hochgefahren werden (sind normalerweise in einem Power-Down-Zustand)
    • defekte Platten sofort austauschen
    • Platten, die beim Patrol Read auffallen, sofort austauschen
    • die vorzeitige Abnutzung dadurch reduzieren, dass man mehrfache IOs für dieselbe Operation vermeidet (Stichwort: Volume Alignment) und große Caches an den Controllern verbaut.

    Denk daran: RAID ist ursprünglich nicht dafür erfunden worden, Platten zuverlässiger zu machen, sondern um sie schneller oder größer zu machen!

    Die nächste Stufe der Zuverlässigkeit des Plattensubsystems liegt in den proprietären Verbundtechnologien mit mehr als zwei Kopien (Stichwort: Storage Spaces, VMware VSAN oder HP 3PAR oder oder oder...) Hier werden die Blöcke, wenn Du Glück hast, so intelligent verteilt, dass der Ausfall eines ganzen Enclosure das Volume noch oben läßt.

    Doch die wahre Antwort auf die Frage nach der Verfügbarkeit von Applikationen und Daten liegt auf der Applikationsschicht - Redundanzen (DFS im File, DAG in Exchange und SQL, Replikation im AD usw.), Continuous Data Protection, zeitnahe Replikation produktiver VMs usw. Platte kriegst Du niemals so robust, dass sie nie ausfällt.


    Evgenij Smirnov

    I work @ msg services ag, Berlin -> http://www.msg-services.de
    I blog (in German) @ http://it-pro-berlin.de
    my stuff in PSGallery --> https://www.powershellgallery.com/profiles/it-pro-berlin.de/
    Exchange User Group, Berlin -> http://exusg.de
    Windows Server User Group, Berlin -> http://www.winsvr-berlin.de
    Mark Minasi Technical Forum, reloaded -> http://newforum.minasi.com

    Sonntag, 25. Dezember 2016 20:40

Alle Antworten

  • Moin,

    keines der Standard-RAID-Level wird Dir pauschal das Gewünschte bieten. Im Bereich von Hardware-RAID musst Du dich halt an die goldenen Regeln halten:

    • möglichst kein RAID5 oder 6 in Produktion einsetzen (ja, richtig, das bedeutet RAID10 und s. auch http://www.baarf.dk/)
    • regelmäßige Patrol Reads über alle Platten einrichten, und sei es auf Kosten der Performance. Ergebnisse davon überwachen!
    • Hot Spare-Platten, die auch regelmäßig zum Testen hochgefahren werden (sind normalerweise in einem Power-Down-Zustand)
    • defekte Platten sofort austauschen
    • Platten, die beim Patrol Read auffallen, sofort austauschen
    • die vorzeitige Abnutzung dadurch reduzieren, dass man mehrfache IOs für dieselbe Operation vermeidet (Stichwort: Volume Alignment) und große Caches an den Controllern verbaut.

    Denk daran: RAID ist ursprünglich nicht dafür erfunden worden, Platten zuverlässiger zu machen, sondern um sie schneller oder größer zu machen!

    Die nächste Stufe der Zuverlässigkeit des Plattensubsystems liegt in den proprietären Verbundtechnologien mit mehr als zwei Kopien (Stichwort: Storage Spaces, VMware VSAN oder HP 3PAR oder oder oder...) Hier werden die Blöcke, wenn Du Glück hast, so intelligent verteilt, dass der Ausfall eines ganzen Enclosure das Volume noch oben läßt.

    Doch die wahre Antwort auf die Frage nach der Verfügbarkeit von Applikationen und Daten liegt auf der Applikationsschicht - Redundanzen (DFS im File, DAG in Exchange und SQL, Replikation im AD usw.), Continuous Data Protection, zeitnahe Replikation produktiver VMs usw. Platte kriegst Du niemals so robust, dass sie nie ausfällt.


    Evgenij Smirnov

    I work @ msg services ag, Berlin -> http://www.msg-services.de
    I blog (in German) @ http://it-pro-berlin.de
    my stuff in PSGallery --> https://www.powershellgallery.com/profiles/it-pro-berlin.de/
    Exchange User Group, Berlin -> http://exusg.de
    Windows Server User Group, Berlin -> http://www.winsvr-berlin.de
    Mark Minasi Technical Forum, reloaded -> http://newforum.minasi.com

    Sonntag, 25. Dezember 2016 20:40
  • Hallo

    ... gut, das würde jetzt im Religionskrieg enden. Darum sag ich nichts dazu. Aber folgendes: Ich will nur wissen, welche Systeme nach dem Wechseln von Datenträgern, zuvor als "nicht zugreifbare Sektoren" marktierte Elemente wieder freigeben (können). Damit ich dann auf Software-Basis die Daten reparieren kann um weiter zu arbeiten. Also -> welche "Virtualisierung" einer Disk (eben, Raid, Software, was auch immer) kriegt es hin, dass ich defekte Sektoren durch genullte ersetzen kann im laufenden Betrieb. ... von der Theorie her: alle, in der Praxis: die wenigsten. ... wieso ich das will? ... na, sagen wir, das endet wahrscheinlich auch im Religionskrieg, darum sage ich hier auch nichts dazu. :-) ja, ist doch wahr... es gibt so viele Meinungen und im Grunde sind alle gleich richtig oder falsch. Aber im Grunde finde ich eine Theorie, welche die Worte "immer" oder "nie" enthält selten gut.

    Rudolf

    Montag, 26. Dezember 2016 01:00
  • Moin,

    Religionskrieg? Wieso denn? Lies das Baarf-Manifest ;-). Das ist kein Aufruf zum Krieg, sondern ein Aufruf an jeden Einzelnen, zumindest aus seiner eigenen Erfahrung zu lernen und Schlüsse für die Zukunft zu ziehen. Und Du hast Deine Erfahrung laut dem OP schon gemacht, willst Dich aber trotzdem am selben Konzept festhalten in der Hoffnung, dass Hersteller X das in sich unzulängliche Konzept weniger schlecht implementiert hat als der Rest. Dazu hat Einstein einen schönen Spruch gebracht, den werde ich jetzt aber nicht zitieren.

    Und eine Theorie war in meinem Post nicht enthalten, sondern eher eine Quintessenz aus über 20 Jahren Praxis, inklusive semi-manuellen Zusammenpuzzelns gestorbener striped Volumes und ein paar anderer Schweinereien. Hochgezüchtete SAN-Verbünde mit synchroner Spiegelung über zwei Rechenzentren gingen (und ich rede von mehreren Herstellern und verschiedenen Installationen) komplett in die Knie, weil eine einzelne Platte aus dem "grünen" nicht in den "roten", sondern in den "gelben" Zustand wechselte.

    Was ich heute draußen sehe ist dies: Die Welt ist über RAID weitgehend hinweg, außer vielleicht RAID1 für das Boot-Laufwerk. Und auch RAID10 ist nicht wirklich gut, sondern einfach nur am erträglichsten schlecht. Wenn man einen Dienst - denn darum geht es ja im Endeffekt - haben will, der unterbrechungsfrei läuft, ist es eine schlechte Idee, ihn von einem einzelnen System (Server, Switch, Controller, Platte, was auch immer) abhängig zu machen.

    Zusammenfassend: Du kannst dazu sagen, was Du willst, ich glaube (und hoffe) nicht, dass ausgerechnet RAID heutzutage noch das Potential für einen Flame War hat. Anderen zu unterstellen, sie wären auf einen Solchen aus, halte ich aber dennoch für unwürdig. Zumal Du ja die Frage gestellt hast. Was wäre gewesen, wenn jetzt einer geschrieben hätte "Hey, LSI kriegt's alles hin, total super, das Zeug!"? Wäre Dir damit geholfen? Keineswegs, denn a. hast Du ja keine Ahnung, ob Derjenige überhaupt weiß, wovon er redet, und b. gibt es hier vielleicht 10 Leute, die mit diesem Produkt auch Gegenteiliges erlebt haben, dies aber halt nicht schreiben. Es hilft in einem Diskussionsforum also nur eins: Diskutieren :-) Und wenn Du dich darauf als TO nicht einlassen willst, ist die Diskussion schnell zu Ende... Was immer schade ist, denn sie kann auch anderen helfen, die direkt nicht beteiligt waren.


    Evgenij Smirnov

    I work @ msg services ag, Berlin -> http://www.msg-services.de
    I blog (in German) @ http://it-pro-berlin.de
    my stuff in PSGallery --> https://www.powershellgallery.com/profiles/it-pro-berlin.de/
    Exchange User Group, Berlin -> http://exusg.de
    Windows Server User Group, Berlin -> http://www.winsvr-berlin.de
    Mark Minasi Technical Forum, reloaded -> http://newforum.minasi.com

    Montag, 26. Dezember 2016 09:07
  • Alles klar...

    Aber, trotz aller Bedenken gegen Systeme wie Raid, muss ich doch noch festhalten, dass das Problem nicht die Idee hinter Raid ist, sondern vielmehr die Umsetzung. Egal wie du es drehen willst, am Ende kannst du dich nicht auf ein Gerät verlassen. Und was weitaus am häufigsten ausfällt (und die grössten Probleme macht, wenn's soweit ist), sind Festplatten. Ausserdem sind die zu klein. Darum kommst du kaum um Raid herum. Und darum will ich hierfür die beste Lösung, welche auch im Fehlerfall noch anständig arbeitet. Und wie gesagt: Ich nutze das Zeug nicht primär wegen des Ausfalls. Sondern wirklich, weil ich die Leistung und Grösse des Verbunds brauche.

    Die andere Sache: die Lösung mit guter Software zu machen (Replikation etc.). Da hast du vollkommen Recht. Das müsste man. Aber die Welt spinnt. Alle reden nur von Virtualisierung, Daten-Deduplizierung, HTTPS, Block-Level-Replikation und was weiss ich nicht was noch für Schrott. Hast du dir den Müll mal angesehen? Teilweise sind die Ideen mehr als Haarsträubend. Z.B. DFSR... gutes Beispiel. Ich habe mir mal die Mühe gemacht, ein Tool zu bauen, welches den Replikationsstatus zweier Server vergleicht. Resultat? ... von irgendwas um 250'000 Dateien wurden etwa 7 nie repliziert. Wieso? ... keine Ahnung. Es war nicht herauszufinden. Löschen und neu Anlegen war die einzige Lösung. ... oder nächste Frage: Hast du mal probiert einen SQL oder IIS zu replizieren? Hattest du dabei mehr oder gleich viel Spass wie mit Raid? Wie wär's mit Exchange?

    Natürlich, ich könnte ja alles in der Cloud einmieten... nur löst das nicht das Problem. In der Cloud muss es auch einer lösen.

    Ich meine, es ist heute ja nicht mal möglich, die Daten sauber von der Installation zu trennen, ohne zuvor Tage investiert zu haben um herauszufinden, wie ein Programm überlistet werden könnte, damit das möglich ist. Irgend eine blöde Einstellung versteckt es immer an einer dämlichen Position, welche man am Ende vergisst...

    Sorry... aber... alle Ideen sind gut und ich will nichts gegen deine Argumente sagen. Alle Diskussionen sind gut. Am Ende ist aber alles viel zu schlecht umgesetzt. Darum wähle ich einen Mix aller Lösungen.

    Rudolf

    Montag, 26. Dezember 2016 11:22
  • Moin,

    Z.B. DFSR... gutes Beispiel. Ich habe mir mal die Mühe gemacht, ein Tool zu bauen, welches den Replikationsstatus zweier Server vergleicht. Resultat? ... von irgendwas um 250'000 Dateien wurden etwa 7 nie repliziert. Wieso? ... keine Ahnung. Es war nicht herauszufinden. Löschen und neu Anlegen war die einzige Lösung. ...

    Ja, DFS-R hat seine Tücken, ist ja auch ein uraltes Produkt. Und ja, es will minutiös überwacht werden - genau, wie Du am eigenen Leib herausgefunden hast, wie RAID. Nur aber: Wenn die Festplatte ausfällt (Dein eigenes Beispiel), die den NTFS-Header wegreißt, würden dir bei Single Copy mit RAID drunter 250.000 Dateien fehlen und bei DFS-R 7. Ich bin für 7, ehrlich gesagt, und die 7 haben sich mit etwas Glück seit dem letzten Backup nicht verändert.

    oder nächste Frage: Hast du mal probiert einen SQL oder IIS zu replizieren? Hattest du dabei mehr oder gleich viel Spass wie mit Raid?

    SQL: Oft genug, um, wenn ich nur zwei Maschinen zur Verfügung habe und die Applikationen mitspielen, eine DAG jederzeit einem Cluster vorzuziehen.

    IIS: Was gibt es da zu replizieren? Ein Webserver hat nach Möglichkeit zustandslos zu sein, auch um horizontal skaliert werden zu können. Und wenn ein Webserver *Daten* lokal ablegt, dann ist nicht IIS das Problem (das kann ich per DSC oder per Skript verbindlich konfigurieren), sondern die Applikation, die so bekloppt ist. Schon allein, weil weder Skalierung noch Lastverteilung möglich ist, und zwar by design.

    Wie wär's mit Exchange?

    Exchange ist derzeit mein primäres Betätigungsfeld. Seit wir keine Single Copy-Datenhaltung mehr als das ausschließliche Szenario haben, auf jeden Fall aber seit der Einführung der DAG mit 2010, ist die Anzahl der Fälle, wo ich ESEUTIL bemühen musste, um Größenordnungen zurückgegangen. Überhaupt ist Exchange für mich ein Paradebeispiel dafür, wie man Hochverfügbarkeit betreibt: Datenbanken können so klein werden, dass sie jeweils auf eine Platte passen, es sind viele Kopien möglich, das Frontend weiß, welche davon aktiv ist, seit neuestem kann eine passive Kopie indiziert werden...

    Natürlich, ich könnte ja alles in der Cloud einmieten... nur löst das nicht das Problem. In der Cloud muss es auch einer lösen.

    Das nicht. Aber die Cloud (als Konzept) hilft, sich vom Schichtdenken zu verabschieden, was ja genau das Thema hier in diesem Thread ist. Im Schichtmodell baut die Applikation auf dem OS auf, das OS auf dem Hypervisor, der Hypervisor auf der Hardware, und das für Compute, Storage und Network. Das ermöglicht zwar eine schöne Abstraktion, behandelt aber nicht den Fall, dass eine der unteren Schichten ausfallen kann. Deswegen ist ja auch ein RAID-Ausfall im klassischen Fall so verheerend - das Volume ist von allem, was darüber liegt, als 100% funktionierend vorausgesetzt. Und das kann sich die Cloud nicht leisten, daher ist nicht eine Platte, sondern ein ganzer Server die Einheit, die im Zweifel getauscht wird. Später kann man in der Werkstatt über defekte Platten, Lüfter oder Netzteile nachdenken, aber der Service läuft weiter, und das ist die Hauptsache. Das kann man alles auch on-premises umsetzen, kostet nicht einmal wesentlich mehr, solange alles läuft - und rentiert sich erst recht dann, wenn irgendwas ausfällt.

    Und als Wort zum Sonntag:

    Hast du dir den Müll mal angesehen?

    Solange es nicht um etwas extrem developer-lastiges oder um SharePoint geht, kannst Du in der Regel davon ausgehen ;-) Wobei ich mir nicht mal sicher bin, dass das "oder" im vorherigen Satz wirklich ein Widerspruch ist.


    Evgenij Smirnov

    I work @ msg services ag, Berlin -> http://www.msg-services.de
    I blog (in German) @ http://it-pro-berlin.de
    my stuff in PSGallery --> https://www.powershellgallery.com/profiles/it-pro-berlin.de/
    Exchange User Group, Berlin -> http://exusg.de
    Windows Server User Group, Berlin -> http://www.winsvr-berlin.de
    Mark Minasi Technical Forum, reloaded -> http://newforum.minasi.com

    Montag, 26. Dezember 2016 21:06
  • Gut... stimmt schon alles. Ah, evtl. sollte ich erklären wie ich das hier mache... ich habe alle Maschinen doppelt und in allen Maschinen noch RAID. ... von dem her hab ich das schon so umgesetzt wie du sagst. Nur, um die Neuinstallationen nach Platten-Versagen zu minimieren, versuch ich's halt noch mit RAID. Die einzige Versicherung ist's aber nicht. Nur, ... es wär schön, wenn es auch noch eine wäre (eben, neben dem Zusammenfassen des Speicherplatzes, was eigentlich die Hauptaufgabe vom RAID ist). ... IIS -> die Konfiguration muss man replizieren und die Inhalte halt ... ist letzhin auch gerade kräftig schief gelaufen :-) na ja...

    Das mit dem Exchange, das weiss ich natürlich von dir... hier wird's aber schnell sau teuer, wenn ich das replizieren will. Und die Leistung dies's braucht... nicht ganz ohne.

    ... also, eigentlich... habe ich nur mit ein paar Dingen Probleme. Also, Software, welche sich einfach wirklich standhaft weigert irgend eine Art von Replikation mitzumachen. Und die Teils hab ich auf einer Maschine zusammengefasst, welche ich mit dem Besten vom Besten am Laufen zu halten versuche. Zudem ist alles virtuell, damit ich im Notfall die VHDs (welche man neu ja auch replizieren könnte... was aber auch etwas viel Datentransfer verursacht) woanders laufen lassen könnte.

    Trotzdem ist das immer mühsam... also... irgendwie will ich einfach verhindern, dass mir der Mist um die Ohren fliegt. Und genau das ist mal wieder passiert mit dem blöden Raid. Und um die Arbeit halt nicht mehr zu haben... eben... such ich was noch besseres als das was ich für das Beste hielt :-).

    ... eigentlich sind wir gleicher Meinung, oder? :-)

    Rudolf

    Dienstag, 27. Dezember 2016 01:12
  • Trotzdem ist das immer mühsam... also... irgendwie will ich einfach verhindern, dass mir der Mist um die Ohren fliegt. Und genau das ist mal wieder passiert mit dem blöden Raid. Und um die Arbeit halt nicht mehr zu haben... eben... such ich was noch besseres als das was ich für das Beste hielt :-).

    ... eigentlich sind wir gleicher Meinung, oder? :-)

    Absolut :-)

    Evgenij Smirnov

    I work @ msg services ag, Berlin -> http://www.msg-services.de
    I blog (in German) @ http://it-pro-berlin.de
    my stuff in PSGallery --> https://www.powershellgallery.com/profiles/it-pro-berlin.de/
    Exchange User Group, Berlin -> http://exusg.de
    Windows Server User Group, Berlin -> http://www.winsvr-berlin.de
    Mark Minasi Technical Forum, reloaded -> http://newforum.minasi.com

    Dienstag, 27. Dezember 2016 11:03