Du bist nicht angemeldet.

  • »kawakawa« ist der Autor dieses Themas

Beiträge: 1 039

Registrierungsdatum: 25. November 2013

  • Private Nachricht senden

1

Montag, 25. November 2013, 20:51

Datenprobleme des Subaru-Community Forums (an die Admins)

Hallo,

bin selbst Informatiker und habe von dem Problem gelesen, musste mich soeben auch selbst wieder neu im Forum anmelden, weil alles weg war.

Wie ich Eure Ausführungem im Thread "Reset des Forums" verstanden habe, vermutet ihr, dass der Raid-Controller die Daten fehlerhaft auf die HDDs speichert. Darf ich fragen, wie ihr das eruiert habt? Ich meine, wie habt ihr festgestellt, dass der Datenstrom nach dem verlassen des Controllers auf seinen Ports, aber noch vor dem Erreichen der HDDs Fehler enthält?

Das was ihr beschreibt - so wie ich es verstand - ist das typische Verhalten bei sog. Silent Data Corruption.

In der Regel ist der Controller dabei aber ganz unschuldig. Er schreibt in der Regel die Daten schon richtig weg, diese Daten werden aber entweder durch die Verkabelung (SAS oder SATA Kabel) verändert, oder durch Anschlüsse in den Bakplanes oder meistens ist die Festplatte defekt.

In den einigen Fällen, wo ich Zeuge von Silent Data Corruption wurde, war der Controller grundsätzlich nicht daran schuld.

Der meiste Grund war, dass es die Festplatten waren, welche die Daten auf den Magnetscheiben fehlerhaft weggeschrieben haben. Ein Verify der Daten findet nämlich nicht statt. Die HDD bekommt die Daten und schreibt sie einfach weg. Ob sie auf den Magnetscheiben korrekt geschrieben wurden oder nicht, wird nicht geprüft, sondern darauf vertraut. Sehr oft passiert dieser Fehler im Übrigen, wenn SSDs statt HDDs verwendet werden.

Der zweite Fehler war die Verkabelung: Und zwar immer in einem bestimmten Fall:

Habt ihr einen SAS Controller, der auf SAS Platten schreibt, kann man den Fehler in der Verkabelung fast ausschließen, weil SAS ein Protokoll ist, welches Fehler bei Datenübertragungen zu 99% ausschließen kann.

Verwendet ihr aber SATA Festplatten an einem SAS/SATA-Controller, kann es zu folgendem Szenario kommen: Wenn ihr Festplatten verwendet, die SATA III (Sata 6G) fähig sind, versucht der Controller sie ebenfalls mit dem SATA III Protokoll anzusprechen. Die Erfahrung hat aber gezeigt, dass SATA III Kabel und das Protokoll sehr störanfällig sind. Daher wird dazu geraten, auch wenn SATA III fähige HDDs verwendet werden, unbedingt am Controller das SATA II (Sata 3G) Protokoll als Maximalgeschwindigkeit einzustellen. Man verliert dabei nicht an Geschwindigkeit und die Daten kommen deutlich sicherer an den Festplatten ohne korrumpiert worden zu sein.

Sind es zufällig SATA III HDDs die ihr nutzt? Dann stellt doch probeweise am Controller den SATA III Modus ab und aktiviert als maximum den SATA II Modus. Falls es geht natürlich. An den meisten Areca und LSI Controllern geht das.

Zum Backup kann ich sagen, dass es Software gibt, welche eine Datenüberprüfung nach der Sicherung vornimmt. Dadurch dauert das Backup doppelt so lange. Allerdings hat man damit nur gewonnen, dass es sichergestellt ist, dass die gleichen Daten im Backup landen, welche auf dem Server sind. Sind die Daten auf dem Server bereits fehlerhaft, werden die fehlerhaften Daten auch in die Backups gespielt.

Um Fehler im Dateisystem zu vermeiden, gibt es unter Linux einige besondere Dateisysteme, die eine Fehlerkorrektur und Überwachung bieten.

Wollte hiermit mit meinen Anregungen nur helfen. Aber als Hauptursache - aus eigener Erfahrung - sehe ich tatsächlich die Problematik, dass eben das SATA III Protokoll eingestellt ist und / oder, dass HDDs aus dem Desktop-Bereich verwendet wurden, statt echte Nearline oder Enterprise HDDs. Man sollte daher immer für ein Raid beispielsweise auf die Constellation Serie von Seagate ausweichen.

Was für HDDs oder Controller ihr verwendet ist mir nicht bekannt. Auch nicht, ob ihr physischen Zugriff auf den Server habt. Daher alles bitte als Schuss ins Blaue verstehen. Vielleicht hilft's aber.

Gruss
kawakawa

cybersquare

Administrator

Beiträge: 3 225

Registrierungsdatum: 28. März 2003

Wohnort: Muttenz

  • Private Nachricht senden

2

Dienstag, 26. November 2013, 20:29

Werde dir später gerne eine detailiertere Beschreibung schreiben, hab nur grad keine Zeit.

Es ist ein Smart Array 6402/128 Controller, ist also Ultra320 SCSI.
Als ich die Platten und Controller mit ACU prüfen wollte wurde gleich ein Fehler des Controllers angezeigt.
Eigentlich werde ich vom System via Mail über Hardwarefehler informiert, da die Logfiles aber corrupted waren wurden die WBEM Events nicht erkannt und somit nicht weitergeleitet.
Die Festplatten wurden nach Einbau des neuen Controllers mehrfach geprüft.
Da auch nach intensiven Tests kein IO Fehler aufgetreten ist, haben die Platten selber wohl keinen schaden davongetragen.
Hätte mich auch gewundert.

Im Moment ist das FS EXT3, ob ich beim nächsten Server auf XFS, ext4, JFS oder Reiser gehe... mal sehen.

Gruss
Andreas
Real racers prove their skills on the track. Street racing is just a competition to see who is the bigger idiot.

  • »kawakawa« ist der Autor dieses Themas

Beiträge: 1 039

Registrierungsdatum: 25. November 2013

  • Private Nachricht senden

3

Dienstag, 26. November 2013, 20:41

Hallo,

aah, ein "alter" HP Controller. Ist das ggf. ein umgelabelter LSI oder Adaptec? HP stellt ja keine Controller selbst her (so wie ich es im Kopf habe). Nehme an, der komplette Rest des Servers ist auch HP?

Was für Festplatten hängen dran, wo die Daten drauf sind?

Ich persönlich habe wenig Erfahrung mit den HP-Servern, weil die meisten, welche die geschäftlich nutzen, den HP-Service mit buchen.

Aber ich kann mich umhören, ob es bei diesem Controller Probleme gibt. Was für Fehler hat die ACU genau gemeldet? Bzw. welchen Fehler hat der Controller registriert?

Habt ihr den Server in einem Rechenzentrum gebucht / gemietet oder habt ihr nur den Platz im Rack gemietet und habt den eigenen Server reingestellt oder steht der Server irgendwo sonst und ist ans WAN angebunden?

Gruss
kawakawa

Bonetec

Profi

Beiträge: 1 237

Registrierungsdatum: 26. Juni 2003

Wohnort: Karlstadt

  • Private Nachricht senden

4

Dienstag, 26. November 2013, 21:05

Jungs ich denk macht das mal lieber per Telefon aus ;)
Ist leichter für euch, für die jenigen die eh nur Bahnhof verstehen und die Leute die es nix angeht :thumbup:

Grüße

tnp

Mitglied im GT-Club

Beiträge: 3 012

Registrierungsdatum: 7. September 2007

Wohnort: Benken, ZH

  • Private Nachricht senden

5

Dienstag, 26. November 2013, 21:05

Der 6402 ist so alt, der hat seine Schuldigkeit (genau wie die Platten) schlicht getan. Bei HP gibt es seit Jahren nur noch die SAS (Pxxx Serie).
Aber da das hier "nur" unser Forum ist braucht man da (mindestens wegen mir) keine Welle machen. Hardware geht kaputt, ist halt so.

cybersquare

Administrator

Beiträge: 3 225

Registrierungsdatum: 28. März 2003

Wohnort: Muttenz

  • Private Nachricht senden

6

Mittwoch, 27. November 2013, 19:38

Ich kenne den Server und den Controller gut.
Mir ist schon klar das die Hardware nicht auf dem neusten Stand ist, das ist für ein Forum aber auch nicht nötig.
Die Platten, RAM, ein Netzteil wie auch der Controller waren unbenutzte Lagerteile als ich das Forum installiert habe.

Hab mir schon überlegt ob ich nun auf einen DL380 G5 wechsle, der hätte einen P400 Controller drin. Neuere Hardware aber auf keinen Fall.
Schon jetzt langweilt sich der Server.
Das einzige was wirklich benutzt wird ist RAM.

Ich denke eher das im Moment alles so bleibt wie es ist.
Einen Ausfall kann es immer mal geben, auch bei einem neuen Server.
Beim Controller war "nur" das BBWC hinüber.

Egal, wurde zwar für einen Moment etwas Laut und eine kurze Nacht, aber sonst ist nun alles wieder ok.

Gruss
Andreas
Real racers prove their skills on the track. Street racing is just a competition to see who is the bigger idiot.

  • »kawakawa« ist der Autor dieses Themas

Beiträge: 1 039

Registrierungsdatum: 25. November 2013

  • Private Nachricht senden

7

Mittwoch, 27. November 2013, 22:31

Hallo Andreas,

ich weiß es nicht, wie der Write-Back Cache an Deinem Controller implementiert ist, aber wenn es so ist wie üblich, also ein ECC-RAM Modul auf dem Controller und ein anschließbares Batterie-Modul, wie bei Areca, LSI und Konsorten, dann verursacht der Ausfall der Batterie selbst keine Schreibfehler. Der Ausfall des RAMs, sobald also ECC-Fehler erkannt werden, hagelt es so viele Fehlermeldungen, dass man es kaum übersehen kann.

In der Regel wird bei ECC-Fehlern des RAM Moduls auch automatisch der Write-Back Cache abgeschaltet und auf Write-Through umgeschaltet. So machen es die meisten aktuellen Controller.

Bist Du Dir 100% sicher, dass ihr damit wirklich die Probleme beseitigt habt???

Gruss
kawakawa

Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von »kawakawa« (27. November 2013, 23:01)


cybersquare

Administrator

Beiträge: 3 225

Registrierungsdatum: 28. März 2003

Wohnort: Muttenz

  • Private Nachricht senden

8

Mittwoch, 27. November 2013, 23:39

Beruflich kümmere ich mich u.a. um grössere EVA`s (6400) und 3PAR Storage.
Wir haben einige 100 Physische Server, und Virtuelle noch genügend dazu.

Auch wenn Ich zur Zeit keine betreue, ich kenne den 370er doch recht gut.
Habe selber drei Privat in Gebrauch (G5-G6).

Du willst eine Garantie?
Eine 100% Garantie wird es von mir nie geben.
Wer weiss schon genau wie es zum Ausfall des Controllers kam.
Geschäftlich wäre das anders gelaufen, aber so muss ich da nicht Tagelang Techniker des Herstellers bemühen.
Auch wenn mich der Verlust der Daten extrem nervt, mehr Arbeit war es nicht wert.

Gruss
Andreas
Real racers prove their skills on the track. Street racing is just a competition to see who is the bigger idiot.

  • »kawakawa« ist der Autor dieses Themas

Beiträge: 1 039

Registrierungsdatum: 25. November 2013

  • Private Nachricht senden

9

Mittwoch, 27. November 2013, 23:51

Hallo,

was Du genau beruflich machst, war mir nicht bekannt. Ebensowenig, dass Du bereits mehr Erfahrung mit genau diesen Servern hättest. Ich ging davon aus, dass bis dato die genaue Fehlerquelle nicht exakt eingegrenzt worden wäre, sondern es nur "am wahrscheinlichsten" am BBWC gelegen haben müsste.

Dass es keine 100% Garantie gibt, ist mir schon klar.

Gruss
kawakawa