Ho avuto alcuni errori btrfs ed ext4. Dopo aver deciso di testare la mia RAM ho avuto i seguenti errori ripetuti con memtester
. Ottengo sempre errori simili dopo un po 'di esecuzione di memtester
. Di solito in un'ora, ma ci sono volute 4-5 ore in una volta.
La RAM del mio computer è saldata. Ho uno slot vuoto aggiuntivo. Non ci sono impostazioni nel BIOS per disabilitare la RAM integrata.
Ho corso:
- Memtest86 + per 8 passaggi (~ 8 ore)
- MemTest86 per 18 passaggi (~ 9 ore)
memtester
estressapptest
su Fedora 27 di default, installato su una chiavetta USB (~ 10 ore)memtester
estressapptest
su Ubuntu 17.10 Live predefinito (~ 2 ore)memtester
estressapptest
su Ubuntu 17.10 su chiavetta USB (~ 8 ore)# debsums --changed
l'unico file modificato era un'immagine di un tema.
Non hanno stampato alcun errore.
Sto usando Ubuntu 17.10 (aggiornato dalla 17.04) con il kernel predefinito. Il kernel non è contaminato. È un laptop ASUS con Intel Haswell i3.
- Testato anche con Linux 4.14.13 e 4.15.0-rc3, rc4, mainline.
- Testato anche con pacchetto micro-codice Intel eliminato.
L'errore è riproducibile o Nouveau è disabilitato o abilitato, non vengono caricati driver binari nvidia.
Nella lista nera i seguenti moduli: mtd
intel_spi_platform
intel_spi
perché non si caricano sull'installazione predefinita di Fedora 27 e sembrano murare alcuni laptop Lenova. Gli errori non si sono fermati.
uname -a
l 'output
Linux hostname 4.13.0-19-generic #22-Ubuntu SMP Mon Dec 4 11:58:07 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux
# lsmod
l 'output
https://paste.ubuntu.com/26222245/
L' # lsmod
uscita di Fedora 27
https://paste.ubuntu.com/26226473/
Situazione attuale
Ho inserito il mio HDD in un laptop (laptop di backup) che ho saputo essere buono e ho eseguito i test lì. Ho ricevuto gli errori. Ora sono abbastanza sicuro che si tratti di un problema software. Non sono mai stato in grado di innescare gli errori sul mio laptop con un nuovo Ubuntu né con una Fedora che ci provava molte ore.
Cosa dovrei fare?
Un esempio degli errori:
Loop 6:
Stuck Address : ok
Random Value : ok
Compare XOR : ok
Compare SUB : ok
Compare MUL : ok
Compare DIV : ok
Compare OR : ok
Compare AND : ok
Sequential Increment: ok
Solid Bits : ok
Block Sequential : ok
Checkerboard : ok
Bit Spread : ok
Bit Flip : testing 262
FAILURE: 0x00000000 != 0xfffffffeffffffff at offset 0x0ef94000.
FAILURE: 0x00000000 != 0x100000000 at offset 0x0ef94008.
FAILURE: 0x00000000 != 0xfffffffeffffffff at offset 0x0ef94010.
FAILURE: 0x00000000 != 0x100000000 at offset 0x0ef94018.
FAILURE: 0x00000000 != 0xfffffffeffffffff at offset 0x0ef94020.
FAILURE: 0x00000000 != 0x100000000 at offset 0x0ef94028.
FAILURE: 0x00000000 != 0xfffffffeffffffff at offset 0x0ef94030.
FAILURE: 0x00000000 != 0x100000000 at offset 0x0ef94038.
Walking Ones : ok
Walking Zeroes : ok
8-bit Writes : ok
16-bit Writes : ok
Un errore simile con entrambi gli slot RAM è pieno:
Loop 1:
Stuck Address : ok
Random Value : ok
Compare XOR : ok
Compare SUB : ok
Compare MUL : ok
Compare DIV : ok
Compare OR : ok
Compare AND : ok
Sequential Increment: ok
Solid Bits : ok
Block Sequential : ok
Checkerboard : ok
Bit Spread : testing 4
FAILURE: 0x00000000 != 0x00000050 at offset 0x7da80000.
FAILURE: 0x00000000 != 0xffffffffffffffaf at offset 0x7da80008.
FAILURE: 0x00000000 != 0x00000050 at offset 0x7da80010.
FAILURE: 0x00000000 != 0xffffffffffffffaf at offset 0x7da80018.
FAILURE: 0x00000000 != 0x00000050 at offset 0x7da80020.
FAILURE: 0x00000000 != 0xffffffffffffffaf at offset 0x7da80028.
FAILURE: 0x00000000 != 0x00000050 at offset 0x7da80030.
FAILURE: 0x00000000 != 0xffffffffffffffaf at offset 0x7da80038.
Bit Flip : setting 141
Un errore di stressapptest
:
Report Error: miscompare : DIMM Unknown : 1 : 157s
Hardware Error: miscompare on CPU 2(0x2) at 0x7fcc0726e000(0xb0d18:DIMM Unknown): read:0x0000000000000000, reread:0x0000000000000000 expected:0x4a4a4a4a4a4a4a4a
Report Error: miscompare : DIMM Unknown : 1 : 157s
Hardware Error: miscompare on CPU 2(0x2) at 0x7fcc0726e008(0xb0d18:DIMM Unknown): read:0x0000000000000000, reread:0x0000000000000000 expected:0x4a4a4a4a4a4a4a4a
Report Error: miscompare : DIMM Unknown : 1 : 157s
Hardware Error: miscompare on CPU 2(0x2) at 0x7fcc0726e010(0xb0d18:DIMM Unknown): read:0x0000000000000000, reread:0x0000000000000000 expected:0x4a4a4a4a4a4a4a4a
Report Error: miscompare : DIMM Unknown : 1 : 157s
Hardware Error: miscompare on CPU 2(0x2) at 0x7fcc0726e018(0xb0d18:DIMM Unknown): read:0x0000000000000000, reread:0x0000000000000000 expected:0x4a4a4a4a4a4a4a4a
Report Error: miscompare : DIMM Unknown : 1 : 157s
Hardware Error: miscompare on CPU 2(0x2) at 0x7fcc0726e020(0xb0d18:DIMM Unknown): read:0x0000000000000000, reread:0x0000000000000000 expected:0x4a4a4a4a4a4a4a4a
Report Error: miscompare : DIMM Unknown : 1 : 157s
Hardware Error: miscompare on CPU 2(0x2) at 0x7fcc0726e028(0xb0d18:DIMM Unknown): read:0x0000000000000000, reread:0x0000000000000000 expected:0x4a4a4a4a4a4a4a4a
Report Error: miscompare : DIMM Unknown : 1 : 157s
Hardware Error: miscompare on CPU 2(0x2) at 0x7fcc0726e030(0xb0d18:DIMM Unknown): read:0x0000000000000000, reread:0x0000000000000000 expected:0x4a4a4a4a4a4a4a4a
Report Error: miscompare : DIMM Unknown : 1 : 157s
Hardware Error: miscompare on CPU 2(0x2) at 0x7fcc0726e038(0xb0d18:DIMM Unknown): read:0x0000000000000000, reread:0x0000000000000000 expected:0x4a4a4a4a4a4a4a4a
Sospetto in qualche modo che la colpa di questi errori sia la configurazione di Ubuntu combinata con l'hardware del mio laptop. Quasi sempre in confezioni da otto.
Informazioni non importanti e vagamente correlate di seguito
Informazioni sugli errori btrfs; Stavo usando 17.04. Ho chiesto in giro in irc di btrfs. Mi è stato detto che potrebbe essere un errore hardware o in qualche modo un errore di gestione della memoria. Una parte della pagina dei metadati di btrfs si è riempita di zeri, proprio come ho sperimentato ora. Ho eseguito memtester solo pochi passaggi, sono passato a ext4 e ho dato la colpa al driver binario nvidia.
I comandi e i loro parametri che utilizzo:
# stressapptest -M 10000 -s 1800
10000 è la memoria disponibile che posso testare. Lo capisco via free -m
-s` è secondi.
# memtester 4096
La CPU del laptop ha 2 core, quindi di solito avvio due istanze. 4096 è la metà della memoria disponibile corrente viafree -m
memtest86+
da qualsiasi LiveCD di installazione di Ubuntu.