Abbiamo un server Linux che è stato utilizzato pesantemente per 3 anni. Stiamo eseguendo un numero di server virtualizzati su di esso, alcuni che non sono stati ben educati, e per un tempo significativo la capacità di io del server è stata superata portando a un cattivo interesse. Dispone di 4 unità Barracuda sata da 500 GB collegate a un controller raid 3com. 1 Drive ha il sistema operativo e gli altri 3 sono setup raid-5.
Ora abbiamo un dibattito sulla condizione delle unità e se stanno attivamente fallendo.
Ecco una parte dell'output per 1 dei 4 dischi. Tutti hanno statistiche relativamente simili:
Numero di revisione della struttura dati SMART Attributes: 10 Attributi SMART specifici del fornitore con soglie: ID # ATTRIBUTE_NAME FLAG VALUE PEGGIORE TIPO SUCCESSO AGGIORNATO QUANDO_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 118 099 006 Pre-fail Always - 169074425 3 Spin_Up_Time 0x0003 095 092 000 Pre-fail Sempre - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Sempre - 26 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Sempre - 0 7 Seek_Error_Rate 0x000f 077 060 030 Pre-fail Always - 200009354607 9 Power_On_Hours 0x0032 069 069 000 Old_age Always - 27856 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Sempre - 1 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Sempre - 26 184 Unknown_Attribute 0x0032 100 100 099 Old_age Sempre - 0 187 Segnalato_ Non corretto 0x0032 100 100 000 Old_age Sempre - 0 188 Unknown_Attribute 0x0032 100 100 000 Old_age Sempre - 1 189 High_Fly_Writes 0x003a 100 100 000 Old_age Sempre - 0 190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age Always - 29 (Durata min / max 26/37) 194 Temperatura_Celsius 0x0022 029 040 000 Old_age Sempre - 29 (0 21 0 0) 195 Hardware_ECC_Ricuperato 0x001a 046 033 000 Old_age Always - 169074425 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Sempre - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 Versione registro errori SMART: 1 Nessun errore registrato
La mia interpretazione di questo è che non abbiamo avuto settori danneggiati o altre indicazioni del fatto che uno dei drive non funziona correttamente.
Tuttavia, Raw_Read_Error_Rate e Seek_Error_Rate elevati vengono indicati come indicazioni che le unità stanno morendo.