Due sistemi si bloccano: probabilmente un errore del controller sata RAID / MB?


1

Ho due sistemi con approssimativamente la stessa età con problemi simili:

Primo sistema:

ASUS P8h67-m-le mother r3 versione i7 2600 (3,4ghz) 8 gb di
ram ddr 3 (2x4 gb doppio canale) RAID 1 via Intel RST con 2 hd 1TB WD Green Coolermaster 600W psu Windows 7 64 bit edizione professionale (licenza originale). sistema protetto da sovratensione tramite UPS da 10kva

Sintomi:

Il sistema funzionava bene da quasi 3 anni. Il mese scorso il RAID si è degradato e ricostruito a causa di un cattivo spegnimento da un blocco app. Dopodiché si è degradato e ricostruito più volte al momento dello spegnimento mediante spegnimento e accensione normali. Passate due settimane, il sistema ha iniziato a uscire (si blocca completamente, a volte anche il puntatore del mouse si blocca mentre gli altri mouse si muovono ancora). [apparentemente sta aumentando la frequenza dei blocchi]
Dopo di che ho dovuto ripristinare il sistema. Ogni volta che ha iniziato a rigenerare RAID 1 (ci vogliono quattro ore per ricostruire RAID) e ora si congela circa una volta al giorno.

Cose che ho testato:

  • Nuovo ram e nuovo PSU danno lo stesso problema.
  • Apparentemente senza RAID (rimozione di 1 hdd) sembra risolvere il problema.
  • L'HDD va bene (testato in altri sistemi con stress test, autotest breve e autotest lungo). Anche visualizzare i log intelligenti sembra OK.
  • Processore del test di stress superato.
  • Le temperature controllate sono OK, il sistema non si surriscalda.
  • Spostare un hdd su un altro sistema con Intel RST e non è possibile accedervi (Bios vede l'unità, il controller non lo mostra, ma Windows Hardware Manager lo mostra), spostare quella stessa unità su un altro sistema senza Intel RST e PUO 'ACCEDARLO? ??
  • Lo spostamento dell'app server su un altro sistema simile risolve il problema, quindi non si tratta di un problema con l'app che deve essere correlato all'hardware.

Problema: quando il sistema si è bloccato, non ho ricevuto nulla dal registro eventi di Windows. Nessuna sospensione dell'app, nessun problema RAID, niente. Il registro RST su Windows non trae alcun dettaglio su quale hdd sia uscito dalla sincronizzazione solo in uno stato degradato (almeno nel mio sistema).

Una cosa strana che ho notato: l'aggiunta di un altro HDD interno al sistema (esterno al RAID per eseguire il backup) sembra innescare il degrado del RAID e iniziare a rigenerare il RAID 1.

Immagino che il MB stia fallendo

Secondo sistema:

Il processore I5 ​​non è in grado di richiamare le specifiche ora Asus MB h81m-k RAID tramite software Windows 7 64 bit. 8 GB di ram 2x HDD da 1 TB Caviale blu

Sintomi: il server funziona correttamente per circa 2 anni. Un mese fa: il server Windows RAID non è più sincronizzato, tenta di risincronizzarsi mai terminato (quattro giorni di attesa) L'
applicazione server ha iniziato a bloccarsi frequentemente (non è necessario riavviare solo la riapertura dell'app) o chiude le connessioni dei terminali. Lo spostamento dell'app server su un altro sistema simile ha risolto il problema in modo che non si tratti di un problema con l'app.

Test che ho condotto:

Formatta un disco fisso nel sistema (il formato ha richiesto un giorno e non è mai terminato). Quindi rimuovo hdd (quello che va fuori sincrono e lo provo su un altro sistema). Il formato è terminato all'ora normale. Sembrava intelligente e sembra OK. Spostato quel disco fisso sul sistema e prova a risincronizzare nuovamente Soft RAID: non ho mai concluso la risincronizzazione delle unità. La modifica di PSU e RAM non ha risolto il problema La rimozione dell'HDD non sincronizzato non ha risolto il problema poiché l'app si blocca comunque.


Cosa hanno in comune entrambi i sistemi:

  • due anni di utilizzo circa
  • lettura / scrittura di HDD pesanti
  • le app del server sono diverse
  • stessa marca di hdd.
  • L'HDD sembra andare bene su altri sistemi.
  • Stesso sistema operativo sia copia legale
  • memoria e psu non sono la causa.
  • Nessun segno di danno visivo su MB
  • Nessuno ha toccato i sistemi interni.

La mia ipotesi è che in qualche modo le porte / controller sata non siano in grado di gestire un'intensa attività dell'HDD e degradarsi / rompersi nel tempo generando guasti che sembrano diversi su entrambi i sistemi a causa della natura dei diversi tipi di raid.

Risposte:


0

Non limitarti a ricostruire il tuo raid ancora e ancora! Scopri perché la scheda ha guastato l'unità e (molto probabilmente) ha sostituito l'unità. È possibile utilizzare un'utilità della riga di comando chiamata smartctl per controllare l'unità: se qualcosa presenta più di 500-1000 errori o presenta un numero di errori che continua ad aumentare, probabilmente è il momento di sostituire l'unità.

Se devi ricostruire un'unità incursione dopo averla ancorata a qualcos'altro è perché le informazioni specifiche sull'incursione sono state un po 'confuse (le schede perc dell / LSI hanno questo pezzo di dati in più sull'unità, ma non ho mai attivato una ricostruzione montando manualmente l'unità). Infine, tutti i tipi di problemi hardware possono causare il blocco di un sistema. Una scheda raid difettosa può causare un congelamento, così come problemi elettrici con i dischi rigidi o problemi del controller sul disco rigido. Occasionalmente i problemi di corruzione del filesystem innescheranno un crashdump del kernel, ma ciò dovrebbe essere davvero visibile e ovvio se questa è la causa del problema. Qualcosa di strano che ho visto una volta era che il calore di un cuscinetto usurato su un disco rigido causava problemi di temperatura con un computer (i laptop sono inclini a questo) - come un disco rigido usurato potrebbe causare problemi di temperatura con la scheda video che potrebbe congelare totalmente tutto . Non fa male controllare i messaggi del kernel prima che la macchina si blocchi, / var / log / kern su Debian / Ubuntu. Avere un alimentatore non sufficientemente potente può causare crash. In generale, provare a disabilitare l'hardware non necessario fino a quando il sistema non smette di bloccarsi :).


Grazie per l'aiuto Le mie unità non funzionano correttamente in modalità RAID 1. Se ho rimosso l'unità e l'ho messa in altre unità di sistema funziona bene !. "... probabilmente è il momento di sostituire l'unità." Sono sembrato intelligente nei dischi n ° di errori è costante . ** Il problema è intel RST non mostra quale unità non sta funzionando né nel visualizzatore eventi del sistema operativo (niente qui tranne quando rimuovo un disco di avvio da un sistema di avvio che lascia un registro) né quando la ROM RAID si avvia al di fuori del sistema operativo. Mostra solo uno stato degradato su entrambi gli HDD. ** "... corruzione del filesystem ..."
Hai

I dati intelligenti per un controller raid di solito non sono troppo utili. Se riesci a collegare in modo sicuro un'unità a un altro computer senza la scheda (se non l'hai ancora fatto), puoi ottenere le informazioni sull'errore intelligente reale. È strano, quindi la carta del raid dice che la fs è corrotta e Windows dice che è ok? ummmmmmm / me scrolla le spalle
Alcuni nerd Linux il

Solitamente contrassegna le unità come guaste perché tenta di scrivere in un settore e il settore è danneggiato o altrimenti non funziona.
Alcuni nerd Linux il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.