Delle persone che gestiscono i propri cluster (ovvero non utilizzano / pagano per Amazon Autoscale, Rightscale, Scalr, ecc.), Come gestite le vostre istanze su EC2 e gestite (es.) Il failover? Mi chiedo se la maggior parte delle persone finisca per scrivere i propri carichi di script contro l'API EC2, come sospetto.
Questo è certamente il nostro approccio: montare il nostro demone di monitoraggio / riavvio basato su Python Boto che viene eseguito fuori sede, ascoltando i keep-alive UDP dalle nostre istanze. In caso di errore, eseguiamo l'istantanea dei volumi, registriamo le immagini, avviamo nuove istanze, eliminiamo i vecchi volumi e così via.
Ogni tanto, quando hackero i nostri script, penso che ci debbano essere alcuni strumenti open source là fuori che affrontano già questi problemi e che non hanno i vincoli di (diciamo) Scalr, ma torno sempre da Google a mani vuote. (Cose come Scalr sono piuttosto limitate nei set / versioni / configurazioni supportate del software e hanno modi specializzati e ingombranti per manipolare queste configurazioni.)
Inoltre, l'ecosistema Linux-HA / Pacemaker (Heartbeat, ldirectord, ecc.) Suona come se non fosse davvero adatto per EC2 . (Ma poi ho trovato questo - anche se non sono sicuro che questo è davvero una soluzione di alta qualità).