Voglio imparare ANOVA. Prima di iniziare a imparare come funziona l'algoritmo (quali calcoli devono essere eseguiti) e perché funziona, vorrei prima sapere quale problema risolviamo effettivamente con ANOVA o quale risposta cerchiamo di rispondere. In altre parole: che cos'è l'input e che cos'è l'output dell'algoritmo?
Capisco cosa usiamo come input. Abbiamo un insieme di numeri. Ogni numero viene fornito con i valori di una o più variabili categoriche (note anche come "fattori"). Per esempio:
+------------+------------+-------+
| factor 1 | factor 2 | value |
+------------+------------+-------+
| "A" | "a" | 1.0 |
| "A" | "a" | 2.4 |
| "A" | "b" | 0.3 |
| "A" | "b" | 7.4 |
| "B" | "a" | 1.2 |
| "B" | "a" | 8.4 |
| "B" | "b" | 0.4 |
| "B" | "b" | 7.2 |
+------------+------------+-------+
È corretto affermare che ANOVA calcola il valore p di un'ipotesi nulla che afferma che non vi è alcun effetto dei fattori sulla media dei valori? In altre parole, forniamo i dati sopra indicati all'algoritmo e di conseguenza otteniamo il valore p dell'ipotesi nulla?
In tal caso, quale misura utilizziamo effettivamente per calcolare il valore p. Ad esempio possiamo dire che, data l'ipotesi nulla, M può essere alto quanto quello osservato (o anche superiore) solo per caso nell'1% dei casi. Che cos'è M?
Non studiamo anche i fattori in ANOVA separatamente? ANOVA può dire che factor_1 ha un effetto ma factor_2 no? ANOVA può dire che per un dato fattore i valori corrispondenti a è il valore "A", "B" e "C" sono statisticamente indistinguibili (hanno la stessa media, ad esempio) ma il valore "D" ha un effetto?