UBIFS sudden death

  • Erledigt

    DM7000s + 500GB hdd
    DM8000 HD DMOE2.0+GP3.2/flash + 1TB hdd+ Sandisk Extreme III 4GB SDHC
    DM920 UHD 4K 1x DVB-S2 FBC + 1TB hdd

    2 Mal editiert, zuletzt von SuPerfrEa|< ()

  • Moin
    Also ich habe mir zurseicherheit auf meiner 7020HD ein Kopie in die Data Partition kopiert und kann die ggf. über die Kernel Commandline booten und wieder zurückkopieren. So habe ich mir das jedenfalls gedacht pobiert ob das hinhaut habe ich noch nicht. Booten der anderen Partition geht aber ich habe ich noch nicht auf eine kaputte Root Partition kopiert weil sie nocht nicht kaputt war :tongue:

    Gruß Florian
    DM7080HD S2S2, HDD WDC WD10EARX Green 1 TB
    DMM experimental OE2.2 + GP3.3

  • Zitat

    Original von SuPerfrEa|<
    Erledigt


    ...da stellt sich nur die Frage: Was ist denn erledigt?



    ThomasM: Habe die Version 11.0 installiert, obwohl das damit nichts zu tun habe kann, weil ja die Box heute Morgen nicht starten konnte, bevor der Fehler bei sichern mit dflash kam.

    DANKE für Eure Hilfe !


    DMM Experimental + GP3

  • Mit dflash gab es ein Problem, welches mit der Version 11.0 behoben ist. Das ist halt eine Sache. Dein Startproblem war ein anderes!

  • Danke für die Info, allerdings war bei mir bereits die Version 11.0 installiert.
    Habe mir jetzt noch die Version 11.1 installiert und damit gesichert und anschließend wieder neu geflasht, mal schauen ob ich noch mal Probleme beim booten bekomme.

    DANKE für Eure Hilfe !


    DMM Experimental + GP3

  • Hallo!


    Mich wundert, dass die Einträge zu den sporadisch auftretenden Ubifs Fehlern bei der 7020hd alle mindestens ein Jahr alt sind, scheinbar hat niemand das Problem bei aktuellen Images mehr.
    Ich habe heute bereits zum zweiten Mal (auf einem aktuellen OE 2.0 Image) das Problem gehabt, dass die Box hängt und dmesg massenhaft fehler der folgenden Form auswirft:


    Code
    May  1 17:52:01 dm7020hd user.err kernel: [ 5710.136000] UBIFS error (pid 6662): ubifs_read_node: bad node at LEB 620:159744, LEB mapping status 0
    May  1 17:52:01 dm7020hd user.err kernel: [ 5710.138000] UBIFS error (pid 6662): do_readpage: cannot read page 0 of inode 7186, error -22


    Nach allem was ich dazu finde hilft wohl nur ein Neuflashen. Das habe ich zuvor dann auch gemacht, aber nach einiger Zeit kommt der Fehler zurück. Gibt es inzwischen irgendeine Möglichkeit, dass dieser Fehler dauerhaft verschwindet?!
    Danke!
    mfg


    Jojo

  • Zitat

    Originally posted by Jojojoxx
    Mich wundert, dass die Einträge zu den sporadisch auftretenden Ubifs Fehlern bei der 7020hd alle mindestens ein Jahr alt sind, scheinbar hat niemand das Problem bei aktuellen Images mehr.


    Naja, die Mehrzahl der Regulars hier spielt wohl inzwischen lieber mit 7080HD und 820HD...


    Zitat

    Ich habe heute bereits zum zweiten Mal (auf einem aktuellen OE 2.0 Image) das Problem gehabt, dass die Box hängt und dmesg massenhaft fehler der folgenden Form auswirft:


    Code
    May  1 17:52:01 dm7020hd user.err kernel: [ 5710.136000] UBIFS error (pid 6662): ubifs_read_node: bad node at LEB 620:159744, LEB mapping status 0
    May  1 17:52:01 dm7020hd user.err kernel: [ 5710.138000] UBIFS error (pid 6662): do_readpage: cannot read page 0 of inode 7186, error -22


    Bei mir ist das Problem auch wieder da, und zwar verschärft. Es fing IIRC Ende März an, als die Box beim halben Ladebalken stehen blieb. Hintergrund war eine kaputte libQt* (weiß nicht mehr exakt welche, aber das sind halt mit die fettesten Files auf der Kiste). Ich hab die aus dem Backup ersetzt. Seitdem geht es aber zunehmend rasanter mit Problemen. Ablauf scheint immer wieder folgender zu sein:


    [list=1]
    [*]Beim Lesen von Files im Flash kommt es zu korrigierbaren ECC-Fehlern und UBI scrubbed den betreffenden LEB (kopiert ihn in einen neuen PEB):

    Code
    [ 1560.247000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:24afb800
    [ 1560.280000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:24afb800
    [ 1560.509000] UBI: scrubbed PEB 2315 (LEB 0:1599), data moved to PEB 2645
    [ 1561.456000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:252c4a00
    [ 1561.459000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:252c4a00
    [ 1561.720000] UBI: scrubbed PEB 2347 (LEB 0:1610), data moved to PEB 2623
    [ 1569.786000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:26e56c00
    [ 1569.789000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:26e56c00
    [ 1569.807000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:26e56c00
    [ 1570.055000] UBI: scrubbed PEB 2457 (LEB 0:647), data moved to PEB 2595


    [*]Irgendwas schreibt im Flash. Größere Updates sind besonders gefährlich, aber mitunter reicht auch schon das Rewrite von keymap, timers oder autotimers.
    [*]Beim nächsten Bootvorgang zerbröselt es dann fast immer was und die klassischen Fehler tauchen auf (bad node type (255 but expected 1/2/etc)). Dann folgen Fehler wie die von Dir geposteten.
    [/list=1]


    Ich hatte das erst gestern wieder und habe dann - weil es langsam nervt - wiederholt das gesamte / in place mit dem letzten tar (wo grad alles noch ging) überschrieben. Das Problem ist nun, dass dabei ständig weitere ECC scrubs stattfinden. Ich mach anschließend ein sync, drop_caches und check dann mit md5sum -c gegen ein Digestfile für das gerade ausgepackte tar. Meistens liefert das weitere ECC scrubs, manchmal sogar neue Lesefehler. Man sollte annehmen, dass das irgendwann mal aufhört, wenn alle altersschwachen Erase Blocks ausgemustert wurden, tut es aber leider nicht. Ich kann mich irgendwie nicht des Eindrucks erwehren, dass das ECC scrubbing manchmal daneben schießt und die falschen EBs trifft...


    Zitat

    Nach allem was ich dazu finde hilft wohl nur ein Neuflashen.


    Speziell da habe ich meine Zweifel. Das Neuflashen der 7020HD vom 2nd aus ist ja leider nicht UBI-aware (zumindest war es das nicht, als ich zuletzt geguckt habe), d.h. es zerstört die komplette Nutzungsstatistik von UBI (Erase Counters). Man flasht also zunehmend in EBs, die hohe ECs hatten oder gar zuvor schon wegen correctable ECC errors ausgemustert wurden (nur die komplett kaputten Blöcke werden ausgespart). Wenn obige Theorie zutrifft, dann nimmt das Problem anschließend lawinenartig zu - und mein Verdacht ist, dass das bei mir grade anfängt...


    Zitat

    Das habe ich zuvor dann auch gemacht, aber nach einiger Zeit kommt der Fehler zurück. Gibt es inzwischen irgendeine Möglichkeit, dass dieser Fehler dauerhaft verschwindet?!


    Ich spiele mit dem Gedanken, alles auf einen USB-Stick zu verlagern und nur noch von dem zu booten. Schöner wäre es natürlich, wenn die Kiste mit dem eingebauten Flash vernünftig funktionieren würde. Und komisch ist, dass wir ja mal ein reichliches Jahr Ruhe hatten - und in der Zeit kamen noch wesentlich mehr Updates als heute. Die Vermutung liegt nahe, dass der zu Grunde liegende Bug mal gefixt war, aber wieder da ist. Oder aber, dass er schon immer von ECC scrubs getriggert wurde und die mit dem zunehmenden Alter des Flashs jetzt immer häufiger werden...


    Fragt sich halt, ob das jemals wirklich gefixt war oder ob das "wir mounten UBIFS nicht mehr sync, weil es das Problem beseitigt" nur die Rate des Auftretens reduziert hat. Ein echter Fix war das allein ja eh nicht, denn man muss von einem Filesystem schon verlangen können, dass es auch bei sync mount korrekt funktioniert. Wenn der Bug im BCM Blob steckt, dann Gute Nacht...


    HTH & TIA,
    Andre.

  • Hallo!


    Ich habe bei mir das Problem "gelöst" bzw. vielmehr umgangen. Ich habe bei meiner 7020hd das Dateisystem von UbiFS umgestellt zurück auf JFFS2. Seitdem habe ich keine Probleme mehr. Zwar ist UbiFS JFFS2 überlegen, aber was habe ich davon wenn alle paar Wochen das Dateisystem crasht?
    Daher kann ich dir nur empfehlen auch diese Umstellung vorzunehmen, die Änderung ist auch dauerhaft, d.h. Updates über den Paketmanager ändern nichts daran.
    mfg


    Jojo

  • Ich habe dflash dazu benutzt. Damit kannst du einfach ein Backup erstellen und wenn du in den Einstellungen JFFS2 als Dateisystem wählst, wird das Backup derart erstellt, dass du bei einer anschließenden "Wiederherstellung" des Backups dein System in JFFS2 wiederherstellst.

  • und ich hab mir ueberlegt endlich mal neu zu flashen um ubifs zu bekommen. Anscheinend ist das keine gute Idee und drum lass ich es erstmal bleiben.