Ho notato un comportamento strano su un cluster HA a 2 server e speravo che qualcuno potesse confermare il mio sospetto o forse offrire qualche altra spiegazione ... Ecco la mia configurazione:
- Un'installazione di SQL 2012 SP1 a 2 server
- SQL AlwaysOn HA è stato abilitato per alcuni database
- Le CPU sono 2,4 GHz, 4 core
- La RAM è di 34 GB (è un'istanza AWS, quindi il numero dispari)
- L'utilizzo delle risorse è relativamente basso: ogni server ha 14+ GB di memoria libera e SQL non è limitato alla quantità di memoria da utilizzare
- Il tempo di accesso al disco va bene - raramente supera i 15ms / Leggi o Scrivi
- I database non sono grandi: 1 GB, 1,5 GB, 7,5 GB
- Il processo del server SQL utilizza 16 GB Private Bytes, 15 GB Working Set
Nel complesso, non vengono rilevati problemi di risorse. Ora per la parte dispari. SQL non viene riavviato (il processo è in esecuzione da quasi 6 mesi) ma sembra che ogni ~ 50 giorni, il contatore dell'aspettativa di vita della pagina scenda a (quasi) 0. Fino a quel punto si arrampica costantemente, senza cadere. Ecco un grafico perfetto:
Quando guardo i dati del contatore (non ho il numero esatto, solo un'aggregazione oraria) sembra che il valore del contatore PLE raggiunga circa 4.295.000 sec (circa 50 giorni) ogni volta (almeno ogni volta che ho dati per).
La mia folle teoria è che il numero PLE è tenuto come millisecondi come un long int senza segno (che ha un limite di 4.294.967.295) e a 49.71 giorni si reimposta, sia in base alla progettazione, sia a causa di un bug. Ciò spiegherebbe il comportamento dei due server e lo stesso modello che hanno. Oppure potrebbe essere qualcosa di completamente diverso e non ho proprio alcun senso. :)
Qualcuno ha visto qualcosa del genere o può spiegare questo comportamento?
PS Ho visto questo post, ma il mio caso sembra leggermente diverso.
PPS Questo è un repost - inizialmente l'ho pubblicato qui , ma mi è stato consigliato che il pubblico qui è più appropriato.
Grazie!