Ho eseguito filesystem XFS come partizioni di crescita / dati per quasi 10 anni su vari server Linux.
Ho notato uno strano fenomeno con i recenti server CentOS / RHEL che eseguono la versione 6.2+.
L'utilizzo stabile del filesystem è diventato molto variabile a seguito del passaggio alla nuova versione del sistema operativo da EL6.0 e EL6.1. I sistemi inizialmente installati con EL6.2 + presentano lo stesso comportamento; mostrando oscillazioni selvagge nell'utilizzo del disco sulle partizioni XFS (Vedi la linea blu nel grafico sotto).
Prima e dopo. L'aggiornamento dalla 6.1 alla 6.2 è avvenuto sabato.
Il grafico sull'utilizzo del disco dello scorso trimestre dello stesso sistema, che mostra le fluttuazioni dell'ultima settimana.
Ho iniziato a controllare i filesystem per file di grandi dimensioni e processi in fuga (file di registro, forse?). Ho scoperto che i miei file più grandi riportavano valori diversi da du
e ls
. Correre du
con e senza l' --apparent-size
interruttore mostra la differenza.
# du -skh SOD0005.TXT
29G SOD0005.TXT
# du -skh --apparent-size SOD0005.TXT
21G SOD0005.TXT
Un rapido controllo usando l' utilità ncdu nell'intero filesystem ha prodotto:
Total disk usage: 436.8GiB Apparent size: 365.2GiB Items: 863258
Il filesystem è pieno di file sparsi , con quasi 70 GB di spazio perso rispetto alla versione precedente del sistema operativo / kernel!
Ho esaminato il Red Hat Bugzilla e ho modificato i log per vedere se c'erano segnalazioni dello stesso comportamento o nuovi annunci riguardanti XFS.
Nada.
Sono andato da kernel versione 2.6.32-131.17.1.el6 al 2.6.32-220.23.1.el6 durante l'aggiornamento; nessuna modifica nel numero di versione secondario.
Ho controllato la frammentazione dei file con lo filefrag
strumento. Alcuni dei file più grandi sulla partizione XFS avevano migliaia di estensioni. L'esecuzione della deframmentazione online con xfs_fsr -v
durante un periodo di attività lento ha contribuito a ridurre temporaneamente l'utilizzo del disco (vedere Mercoledì nel primo grafico sopra). Tuttavia, l'utilizzo è aumentato rapidamente non appena è stata ripristinata l'attività pesante del sistema.
Cosa sta succedendo qui?