Ankündigung

Einklappen
Keine Ankündigung bisher.

WG-Dateisystem kaputt/IO-Fehler - Hardware/CF defekt oder "nur" Filesystem kaputt?

Einklappen
Dieses Thema ist geschlossen.
X
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

    [wiregate] WG-Dateisystem kaputt/IO-Fehler - Hardware/CF defekt oder "nur" Filesystem kaputt?

    Hi zusammen,

    mein eigentlich zuverlässiges WG hat ein Problem... Was habe ich gemacht?
    Ich habe gestern Abend versucht, ein Backup (wie hier beschrieben https://redaktion.knx-user-forum.de/...bakcuprestore/) durchzuführen - nachdem das per USB-Stick nicht geklappt hat - wurde nicht erkannt - habe ich das script dann so angepasst, dass die Sicherung auf mein NAS erfolgt (DIRNAME angepasst). Dazu habe ich einen fstab-Eintrag hinzugfügt. Hat auch alles funktioniert, zwar langsam, aber nach ca. 3 Stunden war das Backup laut Log um 22:23 fertig. Die gz-Files sind auch OK.
    Ich bin vorher schon ins Bett und habe dann heute Morgen gemerkt, dass einige auf dem Wiregate laufenden Logiken nichts tun - ein Check per Webmin ergab dann, dass der Wiregated- und der Monit-Prozess nicht liefen, ein Neustart der Dienste war nicht möglich. Die Verbindungen per Putty und WinSCP waren noch möglich, die CometVisu lief auch noch. Ich habe dann kurz die wiregate_plugin.log angeschaut - um 22:00 war der letzte Eintrag eines Plugins, danach folgen endlose binäre Nullen (so zeigt mir das zumindest Notepad++...)...
    OK, ich dachte, vielleicht hat das Backup-Script das System einfach überlastet und habe einen Neustart versucht - ein Fehler... Das System landete in einer Endlos-Boot-Schleife. Nachdem ich dann das Netzteil gezogen, etwas gewartet und wieder gesteckt habe, gab's beim ersten mal eine Sirenen-Melodie, danach wieder die Endlos-Boot-Schleife.
    Ich habe also das WG ausgebaut, Monitor und Tastatur vom Rechner gemopst und am WG angeschlossen....
    Die Reboot-Schleife wird dadurch ausgelöst, dass er beim Filesystem-Check zuviele Fehler findet. Teilweiße, wenn kein Netzwerkkabel agesteckt ist, fällt der Reboot aus, es kommen dennoch massenweiße IO-Fehler und Fehlermeldungen wegen "Filesystem ist Readonly" etc... Einmal habe ich es geschafft, mich auf der Console anzumelden, teils kommt die Tonfolge wie beim Erfolgreichen Boot... Aber nutzbar ist nichts, ich bekomme nichtmal eth0 zum laufen. Auch beim navigieren im Dateisystem auf der Console hagelt es fehler, z.b. schon bei "cd etc".
    Ich hänge mal ein paar "Handy-Screenshots" und das modifizierte Backup-Script an.
    Wegen der IO-Fehler riecht das für mich nach Hardware-Fehler, aber warum sollte das Backup-Script dazu führen? Ich hatte vor einigen Monaten schon mal das Problem, dass das Wiregate nicht mehr booten wollte, da gings aber irgendwann wieder.... Hat evtl. der Lesezugriff auf die ganze Karte durchs Backup "schlafende Hunde" geweckt?
    Was meint ihr? Hardware-Fehler? Oder eher doch nur ein kaputtes Dateisystem (aber warum dann? Habe ich das Script "verhunzt"? und wie fixen?)

    Verzweifelte Grüße,
    Chris

    Code:
    #!/bin/bash
    
    export PATH=/usr/sbin:/usr/bin:/sbin:/bin
    export DIRNAME=/mnt/xxx/zzz
    nowdate=`date +%F_%H-%M`
    host=`hostname`
    
    echo "Backup started $nowdate" > $DIRNAME/wg-image.log
    dd if=/dev/hda of=$DIRNAME/MBR-Backup bs=512 count=1
    dd if=/dev/hda1 bs=1M | gzip -9 > $DIRNAME/$host-hda1-$nowdate.img.gz
    dd if=/dev/hda2 bs=1M | gzip -9 > $DIRNAME/$host-hda2-$nowdate.img.gz
    fdisk -l /dev/hda > $DIRNAME/$host-hda_fdisk.info
    
    nowdate=`date +%F_%H-%M`
    echo "Backup ended $nowdate" >> $DIRNAME/wg-image.log
    
    sync
    sync
    beep -r 5
    You do not have permission to view this gallery.
    This gallery has 5 photos.

    #2
    I/O Error und Uncorrectable Error in dem Context hört sich ganz stark nach HW-Problem an. Wäre interessant, ob es in alten Logs schon Fehlermeldungen gab.
    Das Backup wird das Problem kaum verursacht haben. Das Script sieht auf den ersten Blick gut aus.

    Das Auslesen der 4GB sollte in 5-10 Minuten erledigt sein, nicht 3 Stunden. Da hat der vielleicht endlose Leseversuche auf kaputten Blöcken gemacht.
    StefanW wird Dir sicher empfehlen, ein Ticket bei Elabnet aufzumachen. Wenn Du kein altes Backup hast, nützt Dir auch der Austausch der CF-Karte nichts.

    Kommentar


      #3
      Ja, das Ticket mache ich nun auf... Ist schon merkwürdig, dass das System ausgerechnet nach/beim dem erstellen eines Backups die Biege macht und ohne dieses wahrscheinlich noch laufen würde...

      Kommentar


        #4
        Vermutlich ein defektes Dateisystem im Flash.

        Bitte für solche Probleme ein Ticket eröffnen unter support at wiregate dot de

        Ich hoffe Du hast eine Langzeitgarantie für den WireGate Server gebucht, weil wenn der Flash getauscht werden muss, die Reparatur kostenintensiv werden wird.

        lg

        Stefan

        Kommentar


          #5
          Hi,
          das WG ist auf dem Weg zu ElabNet... Wenn es wieder da ist, mache ich das Backup gleich mal zu Beginn, und nicht erst, wenns eigentlich schon zu spät ist...

          Kommentar


            #6
            Die Backup-Zeit von 3 Stunden ist bei maximaler gzip-Kompression -9 vielleicht doch realistisch. Ich sichere dagegen das gesamte Image in einem Rutsch unkomprimiert aufs NAS, was < 5 Minuten dauert, und komprimiere das Image später mittels PC in kurzer Zeit.
            Separates Sichern von MBR und Partitionen hat nur (?) den Vorteil, dass man mittels Loop-Device direkt auf die Dateien zugreifen kann. Backup und Restore sind dagegen aufwendiger.
            Beim Restore würde mir noch Kopfschmerzen machen, wenn die neue CF-Karte geringfügig kleiner ist als die alte (4GB ist ja nur gerundete Kapazität). Alles von Hand anlegen und umkopieren ist aufwendiger.

            Kommentar


              #7
              Die wichtigen Dateien habe ich schon aktuell gesichert (z.B. Plugins), schade isses vor allem um die RRD-Werte, da habe ich nur veraltete Backups. Jetzt wird's n bischen off-topic, aber vielleicht kann mir ja ein Linux-Profi helfen - wie bekomme ich denn das Backup der Datenpartition, das ich jetzt vom alten Wiregate habe, auf z.B. einen USB-Stick widerhergestellt, um z.B. eben die RRD-Files eventuell noch zu retten... Geht das mit einem beliebigen vom Stick gebootetem Linux und einem zweiten Stick (> 4 GB) als Widerherstellungsziel?

              Kommentar


                #8
                Einfach unter Linux das Image mounten, siehe z.B. http://www.schnatterente.net/softwar...-image-mounten.
                Wenn man noch kein Linux hat, ist das vielleicht ein Grund .

                Kommentar


                  #9
                  Falls es Euch interessiert, wie wir das Thema Datensicherung und vor allem Wiederherstellung beim Timberwolf Server lösen werden:

                  - Alle Varianten sind mit einer Back-Up-SSD ausgestattet (bzw. diese Opton ist bestellbar) auf die automatisch alles gesichert wird. Alle Einstellungen und alle Bewegungsdaten.

                  - Bei Ausfall des Servers wird die Backup-SSD einfach in den neuen Server gesteckt und dieser damit gestartet. Der neue Server erkennt das Backup und bietet an, einen Full- oder einen Half-Clone anzufertigen. (Full-Clone ist wie ein eineiiger Zwilling; Half-Clone ist nur die Konfig um damit leichter Server-Setups vorzubereiten, eine Funktion für Integratoren, welche in mehreren Objekten die gleiche KNX-Installation ausführen).

                  Damit muss man sich nicht mehr plagen und Images kopieren (was bei bis zu einem TB dann auch zu groß wird) und sich Gedanken machen. Einfach umstecken, booten, auswählen, fertig.


                  lg

                  Stefan

                  Kommentar


                    #10
                    Zitat von nipponichi Beitrag anzeigen
                    Einfach unter Linux das Image mounten, siehe z.B. http://www.schnatterente.net/softwar...-image-mounten.
                    Wenn man noch kein Linux hat, ist das vielleicht ein Grund .
                    Danke, das funktioniert 1a... Jetzt mal schauen, was davon noch nutzbar ist. Ich mag Linux, wenn es das tut, was ich mir enbilde

                    Derweil überlege ich, was die Lebenszeit der CF erhöhen könnte... ich denke, RRDs und Logs werden die meisten Schreibzugriffe verursachen. Könnte man die auf ein externes Laufwerk (USB-Stick/Platte) auslagern?

                    Kommentar


                      #11
                      Hallo Chris,

                      Zitat von frankenChris Beitrag anzeigen
                      Derweil überlege ich, was die Lebenszeit der CF erhöhen könnte...
                      Das ist unsere Aufgabe als Hersteller. Wir designen mit unseren Entscheidungen für Technik und Auslegung die Haltbarkeit der Systeme.

                      Auch wenn es Dich - bzw. Deinen Server - erwischt hat, stehen wir bei Betrachtung aller uns bekannten Ausfälle im Vergleich zur Gesamtlaufzeit extrem gut da.
                      • Aus den derzeitigen Daten (Anzahl Gesamtbetriebsstunden aller Server und über alle Ausfälle) ergäbe sich derzeit sogar eine MTBF von 187 Jahren für den WireGate Server. Das ist ein sehr guter Wert! Das ist natürlich nur eine Hochrechnung und zeigt auf, dass die von uns zugekauften Produkte eine wirklich sehr gute Qualität haben. Es wird vermutlich noch Alterungsprozesse geben, welche diesen Wert herabsetzen werden. Mit großer Wahrscheinlichkeit dürften die Mehrzahl der Server mangels technischer Nutzbarkeit lange vor deren tatsächlichen Ausfall außer Betrieb genommen werden.
                      • Das ist auch kein Zufall, sondern liegt vor allem an der Auslegung der SSD. Wir haben nur (sauteure) Industrial Grade SLC eingekauft.
                      • Zudem arbeiten wir mit ein paar Optimierungen und Mechanismen, um die Löschrate auf dem SSD so gering wie nur irgend möglich zu halten.
                      • Das ist übrigens auch eine der wichtigsten Direktiven bei der Entwicklung des Timberwolf Servers, dass die SSD maximal geschont werden, dafür wird auch sehr viel Entwicklungszeit verwendet. Deshalb kehren wir auch den RRDs im neuen Server den Rücken, weil durch dessen Eimerketten-mit-Verdichtung-Umspeicherung zuviele Blöcke neu geschrieben werden.
                      • Wir haben vier Generationen dieser SSD in CF-Bauweise gekauft, Ausfälle betreffend ganz überwiegerng nur die CF aus der ersten Generation.
                      • Server die von uns repariert werden, erhalten nagelneue Industrial Grade SLC CF-Karten.


                      Die Angaben zur MTBF sind statistisch zu bewerten und beruhen auf einer angenommen Wahrscheinlichkeitsverteilung von Ausfällen über die Zeit. Aus den MTBF-Angaben (und Nutzungs- und Umweltbedingungen) lassen sich Wahrscheinlichkeitsdichten berechnen. Dadurch gewinnt man eine Vorstellung, wieviel Prozent eines Gerätes im ersten Betriebsjahr ausfallen werden, wieviele im zweiten Jahr usw. Es werden also schon vor der MTBF Geräte defekt. Daher funktionieren zum Ablauf der MTBF - also nach z.B. 187 Jahren - nur noch etwa 36,8 Prozent aller Geräte.

                      ==> Das es Deinen Server nach wenigen Betriebsjahren erwischt hat, ist statistisches Pech.

                      Wie haben Dir eine nachträgliche Garantieverlängerung angeboten, mit der dies bezahlt wird. Ich denke, bei den uns bisher bekannten Ausfallzahlen über alle Server seit 2009 und unserer extremen Kulanz für das nachträgliche Abschließen einer Garantie, dürfen wir sagen, dass wir alles richtig gemacht haben.

                      Hinweis zur Langzeit-Garantie: Wir bieten eine Langzeit-Garantie für den WireGate Server an. Es handelt sich dabei um eine wirkliche Garantie (im Gegensatz zu dem Machwerk das einem bei den großen Elektromärkten mit Fernsehwerbung angedreht wird). Das bedeutet, dass alle Schäden an der Hardware von uns im Rahmen der Garantie ersetzt werden, das schließt Fehler auf der CF-Karte und eine Neuinitialisierung mit ein. Derzeit bieten wir sogar jedem von einem Ausfall der CF betroffenen Kunden aktiv den nachträglichen Abschluss der Garantie an. (Kennt sonst noch jemand ein Unternehmen, dass den nachträglichen Abschluss einer Garantie anbietet? Nachdem der Schaden eingetreten ist? Für Datenspeicher?). Ich würde mich freuen, wenn man unsere diesbezügliche extreme Kulanz auch lobend erwähnen würde. Leider sind Kunden heute nur noch zu motivieren, über schlechtes im Internet zu schreiben, ein äußerst entgegenkommender und schneller Support fällt zumeist unter den Tisch.

                      Diese Langzeit-Garantie kann im Nachhinein für alte Server nur noch befristet bis 31. Juni 2017 abgeschlossen werden, nur noch in der "Plus"-Version und nur solange der Vorrat reicht. Das Board wird nicht mehr hergestellt, wir werden uns nur im Rahmen der verkauften Garantien mit Ersatzteilen eindecken. Wer keine Garantie erwirbt und außerhalb der GEwährleistung ist, muss damit rechnen, dass wir keine Ersatzteile mehr haben.


                      Zitat von frankenChris Beitrag anzeigen
                      ich denke, RRDs und Logs werden die meisten Schreibzugriffe verursachen. Könnte man die auf ein externes Laufwerk (USB-Stick/Platte) auslagern?
                      Nein, das ist nicht vorgesehen und würde zu sehr vielen Folgeproblemen führen. Trotzdem haben wir uns Gedanken gemacht und deshalb gibt es beim Timberwolf Server zwei Speicher für ein integrales Backup, so dass im seltenen Fall des Falles soweit möglich keine Daten verloren gehen.


                      lg

                      Stefan
                      Zuletzt geändert von StefanW; 26.04.2017, 12:13. Grund: Wording; Erwartungen zur Lebensdauer präzisiert

                      Kommentar


                        #12
                        Hallo Stefan,

                        die Ausführung zur MTBF ist interessant, danke... Ich wollte mit meiner Frage auch gar nicht die Qualität anzweifeln, mir ging es mehr darum konkret für meinen Usecase eine entlastung der CF-Karte zu erreichen: Ich habe/hatte einfach - sehr wahrscheinlich überdurschnittlich - viele Schreibzugriffe durch z.B. RRDs und Plugin-Logs... Wenn das WG wieder da und aufgesetzt ist, werde ich da mal etwas ausmisten, auch wenn ich doch stark aufs Statistische Glück hoffe
                        Das Angebot für die Garantieverlängerung - obwohl es eigentlich schon zu spät war - ist tatsächlich sehr Kulant und hat mich gefreut, das hätte ich eh hier noch erwähnt.

                        Viele Grüße
                        Christian

                        Kommentar


                          #13
                          Ich habe mal für Transcend-Industrial CF Karten die TBW-Werte (Terabyte written) verglichen.
                          Für eine 4GB SLC-Karte (88 TBW) könnte man 10 Jahre lang 16MB/min schreiben, bei der entsprechenden MLC-Karte (2.5 TBW) 500kB/min.
                          Jetzt müßte man nur wissen, wieviel pro rrd im Schnitt geschrieben wird ...
                          Wenn in der Regel nur 1 Block (1KB) alle fünf Minuten pro rrd geschrieben wird (Kompression geschieht vergleichsweise selten) hätte man bei 100 rrds 200 kB/min.
                          Dazu kommen noch EIB- und Plugin-Log.
                          Sollte damit unkritisch sein.

                          Die MTBF ist natürlich nur eine Wahrscheinlichkeitsaussage, die keine Aussage über die Lebensdauer des individuelle Geräts möglich macht.
                          Wegen Bauteilalterung (Kondensatoren, Elektromigration in Halbleitern) wird man im Schnitt vielleicht bei 10-30 Jahren landen.

                          Grüße, Manuel

                          Kommentar


                            #14
                            Das Wiregate (mit neuer Nummer ) kam heute wieder, es läuft schonmal. Ich bin etwas angeschlagen, also muss die komplette Einrichtung evtl. noch etwas warten...

                            Kommentar


                              #15
                              Es läuft alles wieder. Nachdem ich inzwischen die MPDs etc. auf einen Raspi ausgelagert habe, ging die Einrichtung realtiv fix... Die (relevanten) Dateien aus dem Backup des konnte ich übrigends alle noch lesen (Hatte ich aber eh separat gesichert).

                              Kommentar

                              Lädt...
                              X