Come interpretare il valore F e p in ANOVA?


40

Sono nuovo alle statistiche e attualmente mi occupo di ANOVA. Eseguo un test ANOVA in R usando

aov(dependendVar ~ IndependendVar)

Ottengo - tra l'altro - un valore F e un valore p.

La mia ipotesi nulla ( H0 ) è che tutti i mezzi del gruppo sono uguali.

Ci sono molte informazioni disponibili su come viene calcolato F , ma non so come leggere una statistica F e come F e p sono collegati.

Quindi, le mie domande sono:

  1. Come posso determinare il valore F critico per il rifiuto di ?H0
  2. Ogni F ha un valore p corrispondente, quindi entrambi significano sostanzialmente lo stesso? (es. se , allora viene rifiutato)p<0.05H0

1
Hai provato i comandi summary(aov(dependendVar ~ IndependendVar)))o summary(lm(dependendVar ~ IndependendVar))? Vuoi dire che tutti i mezzi del gruppo sono uguali tra loro e uguali a 0 o solo tra loro?
RyanB,

si, ho provato il summary(aov...). Grazie per il lm.*, non lo sapevo :-) Non capisco cosa intendi per uguale a 0. Se questo è l'abbreviazione per la mia ipotesi 0 di quanto l'ipotesi avrebbe bisogno di un valore, e non ho testato su uno specifico, quindi in questo caso: solo gli uni agli altri!
JanD

1
Per una spiegazione intuitiva, consulta il blog Yhat sull'argomento della regressione.
DataTx

Risposte:


14

Per rispondere alle tue domande:

  1. Trovi il valore F critico da una distribuzione F (ecco una tabella ). Vedere un esempio . Bisogna stare attenti ai gradi unidirezionali e bidirezionali, di libertà di numeratore e denominatore.

  2. Sì.


Non è significativo parlare di confronti a una o due vie in un test omnibus come il test F.
Marcus Morrisey,

3
Marcus Morrisey: Penso che tu stia confondendo una contro due code con una contro due. Il test F non ha più "code" tra cui scegliere, ma è necessario prendere in considerazione ANOVA unidirezionale e ANOVA bidirezionale quando si costruisce la statistica del test.
Emiller

29

La statistica F è un rapporto di 2 diverse misure di varianza per i dati. Se l'ipotesi nulla è vera, allora queste sono entrambe stime della stessa cosa e il rapporto sarà intorno a 1.

Il numeratore viene calcolato misurando la varianza dei mezzi e se i mezzi veri dei gruppi sono identici, allora questa è una funzione della varianza complessiva dei dati. Ma se l'ipotesi nulla è falsa e i mezzi non sono tutti uguali, allora questa misura della varianza sarà maggiore.

Il denominatore è una media delle varianze del campione per ciascun gruppo, che è una stima della varianza complessiva della popolazione (supponendo che tutti i gruppi abbiano varianze uguali).

Quindi, quando il valore nullo di tutti i mezzi è uguale a uguale, le 2 misure (con alcuni termini extra per gradi di libertà) saranno simili e il rapporto sarà vicino a 1. Se il valore nullo è falso, il numeratore sarà grande rispetto a il denominatore e il rapporto saranno maggiori di 1. Cercare questo rapporto nella tabella F (o calcolarlo con una funzione come pf in R) darà il valore p.

Se preferisci utilizzare una regione di rifiuto piuttosto che un valore p, puoi utilizzare la tabella F o la funzione qf in R (o altro software). La distribuzione F ha 2 tipi di gradi di libertà. I gradi di libertà del numeratore si basano sul numero di gruppi che si stanno confrontando (per 1 via è il numero di gruppi meno 1) e i gradi di libertà del denominatore si basano sul numero di osservazioni all'interno dei gruppi (per 1- come è il numero di osservazioni meno il numero di gruppi). Per i modelli più complicati i gradi di libertà diventano più complicati, ma seguono idee simili.


Grazie per la spiegazione! Suppongo che se riesco a cercare il valore F su una tabella per vedere il valore p, allora p e F sono solo due modi per esprimere la probabilità che un risultato come quello analizzato possa verificarsi se H0 è giusto?
JanD

2
In tutte le statistiche parametriche esiste un collegamento funzionale diretto tra la statistica del test (F in questo caso) e il valore p. Questi sono stati messi in tabella per comodità, ma possono anche essere calcolati direttamente. Puoi usare l'alfa per trovare il limite per una regione critica per confrontare la statistica del test (che ritengo sia più intuitiva) o usare la statistica del test calcolata per trovare il valore p da confrontare con l'alfa. In entrambi i casi, iniziamo con un livello alfa e una formula statistica di test che segue una determinata distribuzione quando il valore nullo è vero.
Greg Snow,

20

Fp

inserisci qui la descrizione dell'immagine

FFFpFFpFp

Dovresti notare un paio di altre cose sulla distribuzione sotto ipotesi nulla:

F valori che si avvicinano a zero sono altamente improbabili (questo non è sempre vero, ma è vero per la curva in questo esempio)

F

CCFCpp=0.175 , ma avresti bisogno di un righello per calcolarlo a mano :-)

FFdf1=3df1=2

inserisci qui la descrizione dell'immagine

Fχ2χ2Fχ2zFtt

È molto più di quanto volessi scrivere, ma spero che copra le tue domande!

(Se ti stai chiedendo da dove provengono i diagrammi, sono stati generati automaticamente dal mio pacchetto di statistiche desktop, Wizard .)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.