Quanto tempo / quanto duro dovrei sottoporre a stress test CPU e memoria prima di dichiararlo OK?


0

Uno dei nostri LCD Dell PowerEdge mostrava "Errore controllo macchina CPU 2", ma non sono riuscito a trovare nulla nei log relativi a MCE o "Errore hardware". Ho cancellato il messaggio, ma volevo far funzionare la macchina attraverso alcune cose pesanti per vedere se potevo farlo inciampare di nuovo.

Ho usato uno script bash a ciclo infinito eseguito 64 volte (una volta per ogni core) per alcuni minuti. Quindi ho usato un programma chiamato "stress" per fare la stessa cosa con CPU e memoria. La mia domanda è: qual è l'importo sufficiente prima che sia generalmente OK dire "ok, questa macchina è buona per andare"? Pochi minuti? Un'ora? Finché le temperature della CPU rimangono OK?


5
Non appena hai sostituito l'hardware difettoso.
Michael Hampton

Risposte:


5

Se il server è in garanzia, chiedere al fornitore di sostituire la parte.

Se il server non è coperto da garanzia e la parte non può essere sostituita, la risposta completa sarà soggettiva.

Si tratta di un server che NON PU fail fallire (es .: esecuzione del supporto vitale, gestione delle transazioni finanziarie in tempo reale)? O è solo un server web per un sito di fan dei cuccioli?

Ad ogni modo, basta eseguire il server attraverso qualsiasi processo di "burn in" che hai per il nuovo hardware.


Aggiungerò: se sei venuto qui nella speranza di trovare qualcuno che approvasse il rischio legato all'abbandono di questo server nelle produzioni, nessuna delle nostre risposte dovrebbe essere interpretata in modo tale da ritenere accettabile lasciare il server in produzione così com'è . CHE è qualcosa che si dovrà inviare attraverso il processo di valutazione del rischio che è interno alla vostra azienda. Nessuno qui può dare un definitivo "Esegui memtest e prime per x giorni senza errori e ti viene garantito un server stabile" ...


0

Per la memoria: almeno alcune ore usando memtest86. Più tempo ci puoi dedicare, meglio è. Tutto sotto le 3 ore non è affatto affidabile dalla mia esperienza. Direi che dovrebbe funzionare almeno 12-24 ore per essere certi.

Per testare la CPU è possibile eseguire programmi di crunching primenumber ovvero mprimealtri stress test come la compilazione di enormi quantità di codice per verificare che i calcoli siano corretti. Più a lungo funzionano meglio.

Questi ben funzionanti non ti danno ancora alcuna garanzia. Se uno di questi test fallisce, almeno hai un modo di riprodurlo.

L'errore di controllo macchina invece sembra qualcosa che dovresti davvero segnalare al venditore, anche se non riesci a riprodurlo. La tua macchina potrebbe funzionare bene per settimane e mesi anche con i test ma nel momento più sfortunato si bloccherà di nuovo.


Un'altra cosa "migliore" delle 24 ore è un "fine settimana semplice". Attiva i test venerdì, vedi se funziona lunedì;) può essere eseguito sulla tua scrivania se necessario - nessuno in ufficio comunque;)
TomTom

Non so che un "weekend" è tecnicamente migliore di 24 ore. Mentre un fine settimana è statisticamente più probabile che trovi un errore rispetto a un singolo intervallo di 24 ore, non affronta alcuna soggettività del problema. C'è una grande differenza tra il server utilizzato dai liceali per ospitare Minecraft e un server che supporta i ticker di borsa sul pavimento @wallstreet.
Daniel Widrick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.