A quale domanda risponde ANOVA?


10

Voglio imparare ANOVA. Prima di iniziare a imparare come funziona l'algoritmo (quali calcoli devono essere eseguiti) e perché funziona, vorrei prima sapere quale problema risolviamo effettivamente con ANOVA o quale risposta cerchiamo di rispondere. In altre parole: che cos'è l'input e che cos'è l'output dell'algoritmo?

Capisco cosa usiamo come input. Abbiamo un insieme di numeri. Ogni numero viene fornito con i valori di una o più variabili categoriche (note anche come "fattori"). Per esempio:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

È corretto affermare che ANOVA calcola il valore p di un'ipotesi nulla che afferma che non vi è alcun effetto dei fattori sulla media dei valori? In altre parole, forniamo i dati sopra indicati all'algoritmo e di conseguenza otteniamo il valore p dell'ipotesi nulla?

In tal caso, quale misura utilizziamo effettivamente per calcolare il valore p. Ad esempio possiamo dire che, data l'ipotesi nulla, M può essere alto quanto quello osservato (o anche superiore) solo per caso nell'1% dei casi. Che cos'è M?

Non studiamo anche i fattori in ANOVA separatamente? ANOVA può dire che factor_1 ha un effetto ma factor_2 no? ANOVA può dire che per un dato fattore i valori corrispondenti a è il valore "A", "B" e "C" sono statisticamente indistinguibili (hanno la stessa media, ad esempio) ma il valore "D" ha un effetto?

Risposte:


6

ANOVA sta per "Analisi della varianza". Piuttosto non sorprende, analizza la varianza.

Siamo un po 'più espliciti. Le tue osservazioni mostreranno qualche varianza. Se raggruppate le vostre osservazioni in base al vostro fattore 1, la varianza all'interno dei gruppi definiti dal fattore 1 sarà minore della varianza complessiva. Il fattore 1 "spiega la varianza".

Tuttavia, questo non è sufficiente per concludere che il fattore 1 in realtà ha una relazione con le tue osservazioni ... perché raggruppare per qualsiasi cosa "spiegherà" la varianza. La cosa buona è che sappiamo quanta varianza verrà spiegata sotto l'ipotesi nulla che il tuo fattore, in realtà, non abbia nulla a che fare con le tue osservazioni. Questa quantità di varianza spiegata sotto il valore nullo è descritta da una distribuzioneF

Pertanto, la strategia in ANOVA è di stimare la varianza complessiva e la varianza all'interno dei gruppi (usando somme di quadrati) e prendere rapporti di queste varianze stimate. Questo rapporto è la statisticaConfrontiamo quindi questa statistica con il valore critico della distribuzione in un test unilaterale, ottenendo il valore . Il numero di livelli di fattore va in un parametro della distribuzione (più livelli di fattore spiegheranno più varianza sotto l'ipotesi nulla), e il numero di osservazioni e il numero di livelli vanno nell'altro. Questa domanda precedente potrebbe essere utile.FFFpF

(Perché un unilaterale test? Perché, come sopra, ogni raggruppamento spiegherà una certa varianza, quindi ha senso solo per verificare se il fattore spiega significativamente grande quantità di varianza.)

La sezione "Esempio motivante" della voce di Wikipedia fornisce alcune belle illustrazioni di fattori che spiegano molto poco, alcuni e molta della varianza complessiva.

ANOVA a due vie e interazioni, come nel tuo esempio, così come ANCOVA, sono solo generalizzazioni su questo tema. In ogni caso, indaghiamo se l'aggiunta di alcune variabili esplicative spieghi una quantità significativamente grande di varianza.

Una volta ottenuto un significativo test complessivo , possiamo esaminare se le osservazioni di determinati livelli di fattore sono significativamente diverse rispetto ad altre nei test post-hoc . Ad esempio, D può essere diverso da A, B e C, ma quelli potrebbero non essere significativamente diversi l'uno dall'altro. In genere userete test per questo. Questa domanda precedente può essere utile, così come questa .Ft


Quindi, usiamo tutto il numero per calcolare la varianza complessiva , quindi calcoliamo le varianze per ciascun gruppo e infine combiniamo tutte queste varianze (probabilmente anche con le dimensioni del gruppo) per ottenere la "misura": . Quindi calcoliamo la probabilità che M sia grande quanto è o anche più grande supponendo che l'ipotesi nulla sia corretta. VvioM=M(V,v1,v2,...,vK,n1,n2,...,nK)
Romano,

Esattamente. M è tuo Fstatistica. Ecco la formula attuale.
Stephan Kolassa,

Ad essere sincero, sono ancora un po 'confuso. Per quanto ti ho preso, ANOVA restituisce il valore p dell'ipotesi nulla. D'altra parte, dall'esempio motivante di Wikipedia si può concludere che ANOVA ci fornisce il fattore migliore (o una combinazione di fattori), che "spiega" i dati nel modo migliore. Quindi, nell'esempio ANOVA afferma che la razza è il miglior fattore per spiegare il peso dei cani.
Romano,

1
Viene caricato "Best". Questo si sposta nel territorio graduale-selezione-modello-basato-su-valori-p, e questo è problematico. Non leggere troppo nell'esempio motivante. La cosa migliore è la rappresentazione della varianza spiegata (zero, un po ', molto). Meglio andare giù e leggere comeFla statistica è calcolata sulla base di somme di quadrati e ricorda che quelle somme di quadrati sono solo stimatori di varianze.
Stephan Kolassa,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.