ZFS - Impatto dell'errore del dispositivo cache L2ARC (Nexenta)


10

Ho un server HP ProLiant DL380 G7 in esecuzione come unità di archiviazione NexentaStor . Il server ha 36 GB di RAM, 2 controller SAS LSI 9211-8i (senza espansori SAS), 2 unità di sistema SAS, 12 unità dati SAS, un disco hot-spare, una cache L2ARC Intel X25-M e un acceleratore DDRdrive PCI ZIL. Questo sistema serve NFS a più host VMWare. Ho anche circa 90-100 GB di dati deduplicati sull'array.

Ho avuto due incidenti in cui le prestazioni sono aumentate improvvisamente, lasciando gli ospiti VM e le console Nexenta SSH / Web inaccessibili e richiedendo un riavvio completo dell'array per ripristinare la funzionalità. In entrambi i casi, è stato l'SSD Intel X-25M L2ARC a non funzionare o è stato "disattivato". NexentaStor non è stato in grado di avvisarmi dell'errore della cache, tuttavia l'avviso FMA ZFS generale era visibile nella schermata della console (non risponde).

inserisci qui la descrizione dell'immagine

L' zpool statusoutput ha mostrato:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

Ciò non ha attivato alcun avviso all'interno di Nexenta.

Avevo l'impressione che un errore L2ARC non avrebbe avuto un impatto sul sistema. Ma in questo caso, era sicuramente il colpevole. Non ho mai visto alcun consiglio su RAID L2ARC. Rimuovere completamente l'SSD difettoso dal server mi ha riportato in esecuzione, ma sono preoccupato per l'impatto dell'errore del dispositivo (e forse anche per la mancanza di notifica da NexentaStor).

Modifica : qual è l'attuale SSD di scelta migliore per le applicazioni cache L2ARC in questi giorni?


È possibile che la tua porta SSD o SATA abbia problemi hardware?
tegbains,

È un backplane HP SAS. Non ne ho mai visto uno fallire o avere problemi in molte distribuzioni (Linux), ma sono abbastanza sicuro che l'errore sia una funzione dell'SSD di classe consumer in atto. Posso accettare l'errore, ma il problema maggiore è l'impatto sui dischi rimanenti e sul sistema di archiviazione generale.
ewwhite,

In particolare, Pogo Linux (che intendo essere il più grande integratore / rivenditore di Nexenta) non offre più i dispositivi Intel X25 come opzione per L2ARC o ZIL a causa di problemi con le versioni successive del firmware Intel.
Skyhawk,

E la sostituzione consigliata è (marca, modello, prezzo)?
ewwhite,

1
A proposito, la nuova serie Intel 320 potrebbe essere interessante da provare come dispositivo L2ARC o persino ZIL: è supportato da un condensatore e sebbene la resistenza in scrittura sia limitata (fino a 60 terabyte a seconda del modello), la percentuale di usura rimanente può essere tracciato utilizzando l'attributo SMART E9 (inizia da 100 e conta fino a 1). Sospetto che molti utenti ZFS possano sostituire questo dispositivo tutte le volte che è necessario per impedire a E9 di avvicinarsi a 1, senza che la spesa cumulativa si avvicini nemmeno al costo di un'unità SLC di dimensioni comparabili.
Skyhawk,

Risposte:


10

ZFS non esegue l'I / O su disco, i driver di dispositivo sotto ZFS eseguono l'I / O su disco. Se il dispositivo non risponde in modo tempestivo o, come in questo caso, interrompe tutti gli altri dispositivi sull'espansore, non è visibile come errore a ZFS. Tutto ciò che ZFS vede è un I / O lento.

Esiste un bug nel firmware Intel X-25M che influisce sul loro comportamento durante i carichi pesanti e può causare tempeste di ripristino. Questo problema riguarda tutti i sistemi operativi e non può essere risolto a livello di sistema operativo. Si prega di contattare il proprio fornitore di hardware per correzioni o correzioni.

Se l'L2ARC dovrebbe soddisfare una lettura, la lettura verrà tentata lì. ZFS si affida quindi ai driver di livello inferiore per segnalare un errore. In questo caso, l'unità continua a reimpostare e riprovare per almeno 5 minuti prima di dichiarare che l'I / O non funziona, a seconda del driver, del dispositivo e delle impostazioni di timeout predefinite. Solo dopo che i driver del livello inferiore hanno dichiarato che l'I / O non è riuscito, ZFS riprova nel pool.

I corridori di controllo volume e controllo disco di NexentaStor cercano ulteriori messaggi di errore e avvisano l'utente tramite e-mail e registrazione degli errori. Il corridore di controllo del disco è stato migliorato nella versione 3.1 per avvisare l'utente in merito alle condizioni esposte dal firmware rotto negli SSD.

In conclusione: l'hardware è difettoso e dovrà essere riparato o sostituito.


2
Grazie. Quindi non userò più l'Intel X-25. Vorrei una raccomandazione testata per un nuovo dispositivo SSD L2ARC per sostituirlo.
ewwhite,

3

Stai collegando l'SSD X25-M al backplane? C'è un problema noto con Nexenta e l'accesso a L2ARC su un backplane. La soluzione migliore è connettere l'SSD direttamente a una porta SATA sulla scheda madre. Assicurati che sia configurato per utilizzare anche AHCI.

Se stai eseguendo qualcosa di mission critical su questo server, passerei a un SSD SLC (come l'X25-E o un SSD STEC). Detto questo, probabilmente starai bene con l'X25-M se non lo è.


Sì, mi sto collegando attraverso un normale vano unità. Ho altre installazioni con lo stesso SSD Intel in esecuzione come L2ARC (in hardware Sun e HP). Questo particolare mi ha dato problemi, però. La mia ricerca sembrava indicare che L2ARC non aveva bisogno di essere robusto come lo ZIL (da qui l'uso di soluzioni ZIL basate su SLC e PCI e un drive consumer per L2ARC). È cambiato?
ewwhite,

Vorrei provare a collegare l'SSD direttamente alla scheda madre e vedere se funziona. Se hai un X25-M funzionante di riserva potresti provare a sostituire quello attuale e vedere se lo stesso SSD è difettoso. Su SSD SLC: dipende dal livello di rischio. Se stai eseguendo software su uno SLA che non può mai andare giù e deve funzionare velocemente, potrebbe essere più economico acquistare un SSD di fascia alta.
zippy

Sto cercando di dire che l'Intel X25-M è stato raccomandato per L2ARC nella maggior parte degli articoli e discussioni che ho visto online. Se non è più così, qual è il dispositivo preferito?
ewwhite,

1
@ewwhite: In teoria un guasto di un dispositivo L2ARC dovrebbe essere senza interruzioni perché ZFS può semplicemente tornare alla lettura del disco (ovviamente le prestazioni avrebbero un impatto). In pratica ... beh, sembra che tu abbia colpito un bug del driver ZFS o scsi che viene attivato dal comportamento SSD.
Tom Shaw,

1
@ewwhite: probabilmente dovrei darti qualche consiglio più pratico. Se desideri generare un dump di arresto anomalo del sistema la volta successiva che il sistema si incunea, segui le istruzioni qui . Questo tipo di dump può essere utile per gli sviluppatori Illumos.
Tom Shaw,

0

Ed, ce ne sono molti che puoi usare che vanno da un prezzo relativamente ragionevole a un prezzo dannatamente costoso. Preferisco distribuire SSD SAS in tutti i casi e ho fatto molto bene sia con STEC che con Pliant. Entrambi ora offrono un'unità MLC che funzionerà notoriamente con un dispositivo L2ARC. Non ancora testato, ma in arrivo l'offerta SSD di Seagate che è SLC SAS 2.0 e si dice che sia "non costosa". Rimanete sintonizzati....

-PB

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.