Ho incontrato per la prima volta l'ANOVA quando ero uno studente del Master ad Oxford nel 1978. Gli approcci moderni, insegnando variabili continue e categoriche nel modello di regressione multipla, rendono difficile per i giovani statistici capire cosa sta succedendo. Quindi può essere utile tornare a tempi più semplici.
Nella sua forma originale, l'ANOVA è un esercizio di aritmetica in base al quale si suddivide la somma totale dei quadrati in pezzi associati a trattamenti, blocchi, interazioni, qualunque cosa. In un ambiente equilibrato, le somme di quadrati con un significato intuitivo (come SSB e SST) si sommano alla somma totale dei quadrati corretta. Tutto questo funziona grazie al teorema di Cochran . Usando Cochran, puoi calcolare i valori attesi di questi termini secondo le solite ipotesi nulle e le statistiche F scorrono da lì.
Come bonus, una volta che inizi a pensare a Cochran e alle somme di quadrati, ha senso continuare a tagliare e tagliare a cubetti le somme di quadrati di trattamento usando contrasti ortogonali. Ogni voce nella tabella ANOVA dovrebbe avere un'interpretazione di interesse per lo statistico e produrre un'ipotesi verificabile.
Di recente ho scritto una risposta in cui è emersa la differenza tra i metodi MOM e ML. La domanda si è rivolta alla stima di modelli di effetti casuali. A questo punto, il tradizionale approccio ANOVA separa totalmente la società con la massima stima della probabilità e le stime degli effetti non sono più le stesse. Quando il design è sbilanciato, non si ottengono nemmeno le stesse statistiche F.
σ2pσ2σ2+ n σ2pnσ2B^. L'ANOVA produce un metodo di stimatore dei momenti per la varianza dell'effetto casuale. Ora, tendiamo a risolvere tali problemi con modelli di effetti misti e i componenti di varianza sono ottenuti attraverso la stima della massima verosimiglianza o REML.
L'ANOVA in quanto tale non è un metodo di procedura dei momenti. Si accende dividendo la somma dei quadrati (o più in generale, una forma quadratica della risposta) in componenti che producono ipotesi significative. Dipende fortemente dalla normalità poiché vogliamo che le somme dei quadrati abbiano distribuzioni chi-quadrate affinché i test F funzionino.
Il quadro della massima verosimiglianza è più generale e si applica a situazioni come i modelli lineari generalizzati in cui non si applicano somme di quadrati. Alcuni software (come R) invitano alla confusione specificando i metodi anova ai test del rapporto di verosimiglianza con distribuzioni asintotiche del chi-quadrato. Si può giustificare l'uso del termine "anova", ma a rigor di termini, la teoria alla base è diversa.