Dopo un avvio a freddo di un server Debian 6.0.8 (HP ProLiant), si è ntpd
creato il caos con il tempo di sistema: offset e jitter rispetto ai soliti e affidabili server di riferimento che crescono senza limiti. (Si noti che un server gemello identico non ha avuto alcun problema.) Dopo molti tentativi falliti di risolvere il problema sul ntpd
lato ho deciso di provare a riavviare e tutto è andato bene.
Per indagare sul problema ho riscontrato questa discrepanza, che potrebbe spiegare i miei problemi di clock:
root@n1:~# zgrep Detected /var/log/dmesg*
/var/log/dmesg:[ 0.004000] Detected 2400.110 MHz processor.
/var/log/dmesg.0:[ 0.004000] Detected 2383.579 MHz processor.
/var/log/dmesg.1.gz:[ 0.004000] Detected 2400.036 MHz processor.
/var/log/dmesg.2.gz:[ 0.004000] Detected 2400.298 MHz processor.
/var/log/dmesg.3.gz:[ 0.004000] Detected 2400.165 MHz processor.
/var/log/dmesg.4.gz:[ 0.004000] Detected 2400.410 MHz processor.
Si noti che nel secondo ultimo avvio (quello problematico) la frequenza di CPU rilevata è chiaramente un valore anomalo. Senza il valore anomalo, l'errore e la deviazione standard della frequenza rilevata rispetto a quella nominale è +0,15 MHz ± 0,25 MHz. Per l'avvio problematico ho un errore di -16,4 Mhz, che è circa 100 volte maggiore del previsto.
Le mie domande:
Un errore di questo tipo può rendere
ntp
instabile / inutilizzabile la disciplina del tempo? È questo il motivo dei miei problemi di orologio?Questo tipo di comportamento è un sintomo di hardware flacky? Il server dovrebbe andare in manutenzione hw?
Aggiornare
Alcuni dati utili:
- il kernel è 2.6.32-5-amd64 (Debian 2.6.32-48squeeze4)
current_clocksource
ètsc
- l'errore per
lpj
(ovviamente) è coerente con l'errore sulla frequenza CPU
Alcune linee di contesto per quanto sopra grep
[ 0.000000] hpet clockevent registered
[ 0.000000] Fast TSC calibration using PIT
[ 0.004000] Detected 2400.110 MHz processor.
[ 0.000008] Calibrating delay loop (skipped), value calculated using timer frequency.. 4800.22 BogoMIPS (lpj=9600440)
ntpdc -c loopinfo
non mi ha mai dato un valore di deriva della frequenza. Ora dopo il riavvio tutto sembra essere in ordine, con un valore di deriva stabile ... A proposito, il tuo suggerimento è corretto, sto monitorandolog/loopstats
un comportamento anomalo.