Abbiamo gestito un paio di siti Web dall'infrastruttura AWS di Amazzoni ormai da circa due anni e da circa due giorni fa il server web ha iniziato a fallire una o due volte al giorno con l'unico errore che riesco a trovare:
HTTP/1.1 503 Service Unavailable: Back-end server is at capacity
CloudWatch non attiva alcun allarme (CPU / Disk IO / DB Conn). Ho provato ad andare sul sito tramite l'IP elastico per saltare l'ELB e ho ottenuto questo:
HTTP request sent, awaiting response... Read error (Connection reset by peer) in headers. Retrying.
Non vedo nulla di straordinario nei registri di Apache e ho verificato che venivano ruotati correttamente. Non ho problemi ad accedere alla macchina quando è "inattivo" tramite SSH e guardando l'elenco dei processi vedo 151 processi apache2 che mi sembrano normali. Il riavvio di apache risolve temporaneamente il problema. Questa macchina funziona solo come un server web dietro un ELB. Ogni suggerimento sarà molto apprezzato.
Media utilizzo CPU: 7,45%, Minimo: 0,00%, Massimo: 25,82%
Media utilizzo memoria: 11,04%, minimo: 8,76%, massimo: 13,84%
Media utilizzo swap: N / A, Minimo: N / A, Massimo: N / A
Utilizzo spazio su disco per / dev / xvda1 montato su / Media: 62,18%, Minimo: 53,39%, Massimo: 65,49%
Consentitemi di chiarire che penso che il problema riguardi la singola istanza EC2 e non l'ELB. Non volevo escluderlo anche se non ero in grado di raggiungere l'IP elastico. Sospetto che ELB stia solo restituendo i risultati del colpire l'istanza EC2 effettiva.
Aggiornamento: 2014-08-26 Avrei dovuto aggiornarlo prima, ma la "correzione" consisteva nel fare un'istantanea dell'istanza "errata" e avviare l'AMI risultante. Non è andato giù da allora. Ho esaminato il controllo dello stato quando stavo ancora riscontrando problemi e potevo accedere alla pagina del controllo dello stato ( curl http://localhost/page.html
) anche quando stavo riscontrando problemi di capacità dal bilanciamento del carico. Non sono convinto che si sia trattato di un problema di controllo dello stato, ma poiché nessuno, incluso Amazon, può fornire una risposta migliore, lo sto contrassegnando come risposta. Grazie.
Aggiornamento: 2015-05-06 Ho pensato di tornare qui e dire che parte del problema ora credo fermamente nelle impostazioni del controllo dello stato. Non voglio escludere che si tratti di un problema con l'AMI perché sicuramente è migliorato dopo il lancio dell'AMI sostitutivo, ma ho scoperto che i nostri controlli di integrità erano diversi per ciascun bilanciamento del carico e che quello che stava avendo più problemi aveva una soglia malsana molto aggressiva e un timeout di risposta. Il nostro traffico tende a impennare in modo imprevedibile e penso che tra le impostazioni di controllo sanitario aggressivo e i picchi di traffico sia stata una tempesta perfetta.