Ok, la nostra nuova build prevede picchi di CPU del 100% su ciascun server a intervalli casuali. Per lunghi periodi di tempo, il sito non risponde completamente: ciò avverrà nelle ore di punta, poiché persone di diversi paesi accedono al sito, ecc.
Abbiamo esaminato perfmom, profiler di memoria, profiler CLR, profiler sql, profiler Red gate ants, provato i test di carico in UAT, ma non siamo nemmeno riusciti a riprodurre il problema. Ciò potrebbe significare che solo migliaia di utenti che colpiscono il sito live lo fanno accadere.
Un modello che abbiamo notato è che il nuovo codice - la build non funzionante - utilizza effettivamente notevolmente meno thread.
Stiamo anche usando la molla per IOC - ha una reputazione da letto?
A peggiorare le cose, non possiamo implementare per vivere a causa dell'impatto sul business, quindi non possiamo restringere il problema al sottoinsieme delle nuove funzionalità che abbiamo aggiunto.
Siamo veramente distrutti: qualcuno ha delle cicatrici da battaglia che potrebbero salvarci qualche vita?