Verifica delle ipotesi ANOVA


16

Alcuni mesi fa ho pubblicato una domanda sui test di omoscedasticità in R su SO, e Ian Fellows ha risposto che (parafraserò la sua risposta molto liberamente):

I test di omoscedasticità non sono un buon strumento per testare la bontà di adattamento del modello. Con campioni piccoli, non hai abbastanza potenza per rilevare le deviazioni dall'omoscedasticità, mentre con i campioni grandi hai "molta potenza", quindi è più probabile che tu controlli anche partenze banali dall'uguaglianza.

La sua grande risposta è arrivata come uno schiaffo in faccia. Ho controllato le ipotesi di normalità e omoscedasticità ogni volta che ho eseguito ANOVA.

Qual è, secondo te, la migliore pratica nel verificare le ipotesi ANOVA?

Risposte:


11

Nelle impostazioni applicate è in genere più importante sapere se qualsiasi violazione di ipotesi è problematica per l'inferenza.

I test di assunzione basati su test di significatività raramente interessano campioni di grandi dimensioni, poiché la maggior parte dei test inferenziali sono robusti per lievi violazioni delle ipotesi.

Una delle belle caratteristiche delle valutazioni grafiche delle ipotesi è che focalizzano l'attenzione sul grado di violazione e non sul significato statistico di qualsiasi violazione.

Tuttavia, è anche possibile concentrarsi sui riepiloghi numerici dei dati che quantificano il grado di violazione delle ipotesi e non sul significato statistico (ad es. Valori di asimmetria, valori di curtosi, rapporto tra le variazioni di gruppo più grandi e più piccole, ecc.). È inoltre possibile ottenere errori standard o intervalli di confidenza su questi valori, che si ridurranno con campioni più grandi. Questa prospettiva è coerente con l'idea generale che il significato statistico non è equivalente all'importanza pratica.


1
+1 per l'ottima risposta che avvolge tutto. Come applicare le citate procedure numeriche è ben descritto e applicabile in Uso delle statistiche multivariate di Tabachnik e Fidell (per SPSS e SAS): amazon.com/Using-Multivariate-Statistics-Barbara-Tabachnick/dp/… (Ma vedi le Erratas sul pagina web accompagnata)
Henrik,

Beh, penso che la maggior parte delle volte i riassunti come l'asimmetria e la curtosi abbiano poco valore, la loro variazione di campionamento è troppo grande. Si potrebbe considerare di sostituirli con L_skewness e L-kurtosis, però.
kjetil b halvorsen,

@kjetilbhalvorsen Immagino che dipenda dal tipo di dimensioni del campione con cui lavori in genere. Nella mia esperienza, le trame e le statistiche di asimmetria sono molto utili per comprendere la distribuzione dei dati.
Jeromy Anglim,

@Jeromy Anglim: OK. Quindi suppongo che di solito hai campioni di dimensioni molto grandi! Hai provato ad avviare i tuoi coefficienti di asimmetria / curtosi?
kjetil b halvorsen,

9

Un paio di grafici saranno di solito molto più illuminanti del valore p di un test di normalità o omoschedasticità. Tracciare variabili dipendenti osservate rispetto a variabili indipendenti. Traccia osservazioni contro attacchi. Traccia i residui rispetto a variabili indipendenti. Indaga su tutto ciò che sembra strano su queste trame. Se qualcosa non sembra strano, non mi preoccuperei di un test significativo di un'ipotesi.


Un buon consiglio la maggior parte delle volte, ma per quanto riguarda il caso di set di dati di grandi dimensioni, in cui non è possibile esaminare manualmente tutti i dati manualmente?
dsimcha,

1
@dsimcha Dipende anche dalle dimensioni del campione per gruppo. È noto, ad esempio, che quando i campioni hanno le stesse dimensioni, il test t è solido contro la partenza dall'ipotesi di omoscedasticità; Sen1n2, quindi sarà la probabilità di un errore di tipo I. <α se il più grande σ2è associato al campione più grande e viceversa . Vedi Zar, JH Biostatistical Analysis (4th Ed., Prentice Hall, 1998) per ulteriori riferimenti.
chl

2
@dsimcha re set di dati di grandi dimensioni: dipende da cosa intendi per "grande". Molte osservazioni? Usa una buona grafica (boxplot, dotplot jittered, girasoli). Molte variabili indipendenti? Sì, hai un punto lì ... Ma se hai così tanti IV che non puoi tracciare il DV contro ogni IV, metterei in dubbio l'uso di un ANOVA - sembra che possa essere difficile da interpretare in qualsiasi Astuccio. Alcuni approcci di apprendimento automatico intelligente potrebbero essere migliori (Brian D. Ripley: "Per parafrasare in modo provocatorio, 'l'apprendimento automatico è una statistica meno qualsiasi controllo di modelli e ipotesi'.")
S. Kolassa - Ripristina Monica il

Buon commento, +1. Anche se questa domanda specifica riguarda ANOVA, stavo pensando a un livello più generale sulla questione delle trame rispetto ai test quando ho scritto la mia risposta.
dsimcha,

4

Ecco alcune ottime guide web per verificare le ipotesi di ANOVA e cosa fare in caso di fallimento. Eccone uno. Questo è un altro.

In sostanza il tuo occhio è il miglior giudice, quindi fai qualche analisi dei dati esplorativi . Ciò significa che tracciare i dati: istogrammi e grafici a scatole sono un buon modo per valutare la normalità e l'omoscedascità. E ricorda ANOVA è robusto per le violazioni minori di questi.


4

I grafici QQ sono modi piuttosto validi per rilevare la non normalità.

Per l'omoscedasticità, prova il test di Levene o un test Brown-Forsythe. Entrambi sono simili, sebbene BF sia un po 'più robusto. Sono meno sensibili alla non normalità rispetto al test di Bartlett, ma ancora non li ho trovati più affidabili con campioni di piccole dimensioni.

Trama QQ

Test di Brown-Forsythe

Il test di Levene


I diagrammi di distribuzione relativa (o istanza, rispetto alla distribuzione normale) potrebbero essere un buon sostituto, poiché la loro interpretazione potrebbe essere più chiara per i principianti.
kjetil b halvorsen,

3

Concordo con gli altri sul fatto che test di significatività per ipotesi è problematico.

Mi piace affrontare questo problema realizzando un singolo diagramma che espone tutti i presupposti del modello necessari per avere un errore di tipo I accurato e un errore di tipo II basso (alta potenza). Nel caso di ANOVA con 2 gruppi (due test t-test) questo diagramma è l'inverso normale della funzione di distribuzione cumulativa empirica (ECDF) stratificata per gruppo (vedere il commento del diagramma QQ in un post precedente). Affinché il test t funzioni bene, le due curve devono essere linee rette parallele. Per ilK-per esempio problema di ANOVA in generale avresti K rette parallele.

Metodi semi-parametrici (rango) come i test di Wilcoxon e Kruskal-Wallis fanno molte meno ipotesi. Il logit dell'ECDF dovrebbe essere parallelo affinché i test di Wilcoxon-Kruskal-Wallis abbiano la massima potenza (l'errore di tipo I non è mai un problema per loro). La linearità non è richiesta. I test di classificazione fanno ipotesi su come le distribuzioni di diversi gruppi sono correlate ad altre, ma non fanno ipotesi sulla forma di una qualsiasi distribuzione.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.