Differenza tra test ANOVA e Kruskal-Wallis


20

Sto imparando R e ho sperimentato l'analisi della varianza. Ho corso entrambi

kruskal.test(depVar ~ indepVar, data=df)

e

anova(lm(depVar ~ indepVar, data=dF))

C'è una differenza pratica tra questi due test? La mia comprensione è che entrambi valutano l'ipotesi nulla che le popolazioni abbiano la stessa media.

Risposte:


28

Ci sono differenze nelle ipotesi e nelle ipotesi che sono state testate.

L'ANOVA (e il test t) è esplicitamente un test di uguaglianza di mezzi di valori. Il Kruskal-Wallis (e Mann-Whitney) può essere visto tecnicamente come un confronto dei ranghi medi .

Quindi, in termini di valori originali, il Kruskal-Wallis è più generale di un confronto di mezzi: verifica se la probabilità che un'osservazione casuale da ciascun gruppo sia ugualmente sopra o sotto un'osservazione casuale da un altro gruppo. La vera quantità di dati che sta alla base di tale confronto non è né la differenza nelle medie né la differenza nelle mediane (nel caso dei due campioni) è in realtà la mediana di tutte le differenze a coppie - la differenza tra Hodges-Lehmann tra campioni.

Tuttavia, se si sceglie di fare alcune ipotesi restrittive, allora Kruskal-Wallis può essere visto come un test di uguaglianza dei mezzi della popolazione, così come i quantili (ad esempio le mediane), e in effetti un'ampia varietà di altre misure. Cioè, se si assume che le distribuzioni di gruppo sotto l'ipotesi nulla siano le stesse e che in alternativa, l'unico cambiamento sia uno spostamento distributivo (una cosiddetta " alternativa allo spostamento di posizione "), allora è anche un test di uguaglianza dei mezzi della popolazione (e, contemporaneamente, di mediane, quartili inferiori, ecc.).

[Se lo fai, puoi ottenere stime e intervalli per i relativi turni, proprio come puoi fare con ANOVA. Bene, è anche possibile ottenere intervalli senza tale presupposto, ma sono più difficili da interpretare.]

Se guardi la risposta qui , specialmente verso la fine, discute il confronto tra il test t e il Wilcoxon-Mann-Whitney, che (quando si eseguono almeno test a due code) sono l'equivalente di ANOVA e Kruskal-Wallis applicato a un confronto di soli due campioni; fornisce un po 'più di dettaglio, e gran parte di quella discussione passa al Kruskal-Wallis contro l'ANOVA.

Non è del tutto chiaro cosa intendi per differenza pratica. Li usi in generale in modo simile. Quando si applicano entrambe le serie di ipotesi, di solito tendono a fornire risultati abbastanza simili, ma in alcune situazioni possono certamente fornire valori p abbastanza diversi.

Modifica: ecco un esempio della somiglianza di inferenza anche a piccoli campioni - ecco la regione di accettazione congiunta per i cambiamenti di posizione tra tre gruppi (il secondo e il terzo ciascuno rispetto al primo) campionati da distribuzioni normali (con campioni di piccole dimensioni) per un determinato set di dati, a livello del 5%:

Regioni di accettazione delle differenze di posizione in Kruskal-Wallis e Anova

Numerose caratteristiche interessanti possono essere individuate: in questo caso la regione di accettazione leggermente più grande per il KW, con il suo confine costituito da segmenti di linea retta verticali, orizzontali e diagonali (non è difficile capire perché). Le due regioni ci dicono cose molto simili sui parametri di interesse qui.


2
+1. Ho avuto il coraggio di modificarlo leggermente solo per aggiungere enfasi dove lo ritenevo necessario. Si prega di vedere ora, sia che siate d'accordo o meno.
ttnphns,

@ttnphns grazie per la modifica. Ci sono alcuni motivi particolari per cui alcune delle cose che hai cambiato erano lì dentro, quindi potrei modificare alcune delle parti originali. Tuttavia, forse dovrei chiarire il motivo per cui l' ho scritto come prima. Ma prima voglio riflettere attentamente sul modo migliore per mantenere il maggior numero possibile di modifiche.
Glen_b -Restinata Monica,

4

Si C'è. Il anovaè un approccio parametrico, mentre kruskal.testè un approccio non parametrico. Quindi kruskal.testnon ha bisogno di alcun presupposto distributivo.
Da un punto di vista pratico, quando i tuoi dati sono distorti, anovanon sarebbe un buon approccio da usare. Dai un'occhiata a questa domanda per esempio.


4
Direi che Kruskal-Wallis ANOVA fa ipotesi rilassate riguardo alle distribuzioni rispetto all'ANOVA parametrico: le osservazioni in ciascun gruppo provengono da popolazioni con forma simile . L'eteroschedasticità o le distribuzioni fortemente distorte rimangono problematiche come con i test tradizionali.
chl

2
Come, @chl? I gradi non sono cambiati per inclinazione e KW è basato sui gradi. Cosa mi sto perdendo?
Peter Flom - Ripristina Monica

6
3/π

H0

1
@ StéphaneLaurent Se le forme non sono identiche può portare a una cattiva inferenza. vedi il mio esempio qui
Flask,

3

Δinserisci qui la descrizione dell'immagine

(*)H0:{Δ=0}H1:{Δ0}(*)H0H0)(*)H0:{le distribuzioni sono uguali}

(*)Δ>0Δ

Xyn=1000H0

set.seed(666)
n <- 1000
x <- rnorm(n)
y <- (2*rbinom(n,1,1/2)-1)*rnorm(n,3)
plot(density(x, from=min(y), to=max(y)))
lines(density(y), col="blue")

inserisci qui la descrizione dell'immagine

> kruskal.test(list(x,y))

    Kruskal-Wallis rank sum test

data:  list(x, y)
Kruskal-Wallis chi-squared = 2.482, df = 1, p-value = 0.1152

Come ho affermato all'inizio, non sono sicuro della costruzione precisa di KW. Forse la mia risposta è più corretta per un altro test non parametrico (Mann-Whitney? ..), ma l'approccio dovrebbe essere simile.


1
Kruskal-Wallis test is constructed in order to detect a difference between two distributions having the same shape and the same dispersionCome menzionato nella risposta di Glen, nei commenti e in molti altri luoghi di questo sito, è vero, ma è la lettura ristretta di ciò che fa il test. same shape/dispersionnon è in realtà un intrinseco ma è un presupposto aggiuntivo che viene utilizzato in alcuni e non utilizzato in altre situazioni.
ttnphns,

PS Il tuo secondo esempio non contraddice o confuta il test KW. L'H0 del test non distributions are equal lo è, è un errore pensarlo. L'H0 è solo che, in senso figurato, i due punti di "condensazione delle gravità" non si discostano l'uno dall'altro.
ttnphns,

H0

1
krusal.test()H0

1
Si. the equality of the location parameters of the distributionè la formulazione giusta (anche se "location" non dovrebbe essere considerata solo una media o una mediana, in generale). Se si assumono le stesse forme, quindi, naturalmente, questo stesso H0 diventa "distribuzione identica".
ttnphns,

0

Kruskal-Wallis è basato sul rango, piuttosto che sul valore. Questo può fare una grande differenza se ci sono distribuzioni distorte o se ci sono casi estremi

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.