Quote
Originally posted by Jojojoxx
Mich wundert, dass die Einträge zu den sporadisch auftretenden Ubifs Fehlern bei der 7020hd alle mindestens ein Jahr alt sind, scheinbar hat niemand das Problem bei aktuellen Images mehr.
Naja, die Mehrzahl der Regulars hier spielt wohl inzwischen lieber mit 7080HD und 820HD...
Quote
Ich habe heute bereits zum zweiten Mal (auf einem aktuellen OE 2.0 Image) das Problem gehabt, dass die Box hängt und dmesg massenhaft fehler der folgenden Form auswirft:
May 1 17:52:01 dm7020hd user.err kernel: [ 5710.136000] UBIFS error (pid 6662): ubifs_read_node: bad node at LEB 620:159744, LEB mapping status 0
May 1 17:52:01 dm7020hd user.err kernel: [ 5710.138000] UBIFS error (pid 6662): do_readpage: cannot read page 0 of inode 7186, error -22
Bei mir ist das Problem auch wieder da, und zwar verschärft. Es fing IIRC Ende März an, als die Box beim halben Ladebalken stehen blieb. Hintergrund war eine kaputte libQt* (weiß nicht mehr exakt welche, aber das sind halt mit die fettesten Files auf der Kiste). Ich hab die aus dem Backup ersetzt. Seitdem geht es aber zunehmend rasanter mit Problemen. Ablauf scheint immer wieder folgender zu sein:
[list=1]
[*]Beim Lesen von Files im Flash kommt es zu korrigierbaren ECC-Fehlern und UBI scrubbed den betreffenden LEB (kopiert ihn in einen neuen PEB):
[ 1560.247000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:24afb800
[ 1560.280000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:24afb800
[ 1560.509000] UBI: scrubbed PEB 2315 (LEB 0:1599), data moved to PEB 2645
[ 1561.456000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:252c4a00
[ 1561.459000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:252c4a00
[ 1561.720000] UBI: scrubbed PEB 2347 (LEB 0:1610), data moved to PEB 2623
[ 1569.786000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:26e56c00
[ 1569.789000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:26e56c00
[ 1569.807000] brcmnand_ctrl_verify_ecc: Correctable ECC error at 00010000:26e56c00
[ 1570.055000] UBI: scrubbed PEB 2457 (LEB 0:647), data moved to PEB 2595
[*]Irgendwas schreibt im Flash. Größere Updates sind besonders gefährlich, aber mitunter reicht auch schon das Rewrite von keymap, timers oder autotimers.
[*]Beim nächsten Bootvorgang zerbröselt es dann fast immer was und die klassischen Fehler tauchen auf (bad node type (255 but expected 1/2/etc)). Dann folgen Fehler wie die von Dir geposteten.
[/list=1]
Ich hatte das erst gestern wieder und habe dann - weil es langsam nervt - wiederholt das gesamte / in place mit dem letzten tar (wo grad alles noch ging) überschrieben. Das Problem ist nun, dass dabei ständig weitere ECC scrubs stattfinden. Ich mach anschließend ein sync, drop_caches und check dann mit md5sum -c gegen ein Digestfile für das gerade ausgepackte tar. Meistens liefert das weitere ECC scrubs, manchmal sogar neue Lesefehler. Man sollte annehmen, dass das irgendwann mal aufhört, wenn alle altersschwachen Erase Blocks ausgemustert wurden, tut es aber leider nicht. Ich kann mich irgendwie nicht des Eindrucks erwehren, dass das ECC scrubbing manchmal daneben schießt und die falschen EBs trifft...
Quote
Nach allem was ich dazu finde hilft wohl nur ein Neuflashen.
Speziell da habe ich meine Zweifel. Das Neuflashen der 7020HD vom 2nd aus ist ja leider nicht UBI-aware (zumindest war es das nicht, als ich zuletzt geguckt habe), d.h. es zerstört die komplette Nutzungsstatistik von UBI (Erase Counters). Man flasht also zunehmend in EBs, die hohe ECs hatten oder gar zuvor schon wegen correctable ECC errors ausgemustert wurden (nur die komplett kaputten Blöcke werden ausgespart). Wenn obige Theorie zutrifft, dann nimmt das Problem anschließend lawinenartig zu - und mein Verdacht ist, dass das bei mir grade anfängt...
Quote
Das habe ich zuvor dann auch gemacht, aber nach einiger Zeit kommt der Fehler zurück. Gibt es inzwischen irgendeine Möglichkeit, dass dieser Fehler dauerhaft verschwindet?!
Ich spiele mit dem Gedanken, alles auf einen USB-Stick zu verlagern und nur noch von dem zu booten. Schöner wäre es natürlich, wenn die Kiste mit dem eingebauten Flash vernünftig funktionieren würde. Und komisch ist, dass wir ja mal ein reichliches Jahr Ruhe hatten - und in der Zeit kamen noch wesentlich mehr Updates als heute. Die Vermutung liegt nahe, dass der zu Grunde liegende Bug mal gefixt war, aber wieder da ist. Oder aber, dass er schon immer von ECC scrubs getriggert wurde und die mit dem zunehmenden Alter des Flashs jetzt immer häufiger werden...
Fragt sich halt, ob das jemals wirklich gefixt war oder ob das "wir mounten UBIFS nicht mehr sync, weil es das Problem beseitigt" nur die Rate des Auftretens reduziert hat. Ein echter Fix war das allein ja eh nicht, denn man muss von einem Filesystem schon verlangen können, dass es auch bei sync mount korrekt funktioniert. Wenn der Bug im BCM Blob steckt, dann Gute Nacht...
HTH & TIA,
Andre.