Abbandono del presupposto della normalità in ANOVA: la curtosi o l'asimmetria sono più importanti?


12

Modelli statistici lineari applicati di Kutner et al. afferma quanto segue in merito alle deviazioni dall'assunzione della normalità dei modelli ANOVA: la curtosi della distribuzione dell'errore (più o meno al di sopra di una distribuzione normale) è più importante dell'asimmetria della distribuzione in termini di effetti sulle inferenze .

Sono un po 'perplesso da questa affermazione e non sono riuscito a trovare alcuna informazione correlata, né nel libro né online. Sono confuso perché ho anche appreso che i diagrammi QQ con code pesanti sono un'indicazione che il presupposto della normalità è "abbastanza buono" per i modelli di regressione lineare, mentre i diagrammi QQ distorti sono più preoccupanti (cioè una trasformazione potrebbe essere appropriata) .

Ho ragione a dire che lo stesso ragionamento vale per ANOVA e che la loro scelta delle parole ( più importante in termini di effetti sulle inferenze ) è stata appena scelta male? Vale a dire una distribuzione distorta ha conseguenze più gravi e dovrebbe essere evitata, mentre una piccola quantità di curtosi può essere accettabile.

EDIT: Come affrontato da rolando2, è difficile affermare che uno è più importante dell'altro in tutti i casi, ma sto semplicemente cercando una visione d'insieme. Il mio problema principale è che mi è stato insegnato che nella semplice regressione lineare, i diagrammi QQ con code più pesanti (= curtosi?) Sono OK, poiché il test F è abbastanza robusto contro questo. D'altra parte, i diagrammi QQ inclinati (a forma di parabola) sono di solito una preoccupazione maggiore. Questo sembra andare direttamente contro le linee guida fornite dal mio libro di testo per ANOVA, anche se i modelli ANOVA possono essere convertiti in modelli di regressione e dovrebbero avere gli stessi presupposti.

Sono convinto di trascurare qualcosa o ho un falso presupposto, ma non riesco a capire quale potrebbe essere.


3
Nella sua revisione della curtosi, DeCarlo (1997) ha suggerito l'esatto contrario, che l'inclinazione era più importante in ANOVA e in altri test sull'uguaglianza dei mezzi. Potresti trovare utili le citazioni a pagina 297: columbia.edu/~ld208/psymeth97.pdf
Anthony

1
Troverei la domanda più produttiva se potesse essere risolta in un'affermazione come "L'asimmetria è molto più importante per le inferenze della curtosi che l'asimmetria a livello di ___ tipicamente distorcerebbe i risultati tanto quanto la curtosi a livello di ___ ". Senza una tale quantificazione, dire semplicemente che l'uno o l'altro è più importante non ci aiuta molto.
rolando2,

Questa simulazione emis.de/journals/HOA/ADS/Volume7_4/206.pdf di Khan e Rayner (2003) in JOURNAL OF MATEMATICA APPLICATA E SCIENZE DELLA DECISIONE afferma che "Sia i test ANOVA che Kruskal-Wallis sono notevolmente più colpiti dalla curtosi della distribuzione dell'errore piuttosto che dalla sua asimmetria "(p. 204).
bsbk,

Una domanda strettamente correlata relativa al test t a due campioni - in effetti un ANOVA a senso unico con due livelli nel fattore - è stats.stackexchange.com/questions/38967/… ... Al momento è disponibile un premio per l'aggiunta riferimenti poiché nessuna delle risposte esistenti contiene citazioni, quindi i rispondenti a questa domanda potrebbero voler dare un'occhiata.
Silverfish

Sono d'accordo con @ rolando2: "L'asimmetria è peggio della curtosi" o viceversa è un'affermazione piuttosto vacua senza menzionare il grado di asimmetria / curtosi. Ma bisogna considerare anche di più! Ad esempio, la solidità a questi tipi di violazioni della normalità dipende in parte dal fatto che le dimensioni del gruppo siano uguali e la solidità all'asimmetria può dipendere dalla direzione dell'asimmetria : è peggio se un gruppo è uno inclinato in un modo e l'altro gruppo inclina il al contrario, che se entrambi i gruppi fossero inclinati nella stessa direzione. (Questo è dalla memoria e ri-test ma questo è un tipo di ANOVA.)
Silverfish

Risposte:


6

La difficoltà è che l'asimmetria e la curtosi sono dipendenti; i loro effetti non possono essere completamente separati.

Il problema è che se si desidera esaminare l'effetto di una distribuzione fortemente distorta, è necessario disporre anche di una distribuzione con elevata curtosi.

2+1

* (ordinaria kurtosi al quarto momento in scala, non eccessiva kurtosi)

Khan e Rayner (che è menzionato nella risposta precedente) lavorano con una famiglia che consente di esplorare l'impatto dell'incertezza e della curtosi, ma non possono evitare questo problema, quindi il loro tentativo di separarli limita fortemente la misura in cui l'effetto di l'asimmetria può essere esplorata.

β2β2-1

Ad esempio, se vuoi vedere l'effetto dell'elevata asimmetria, ad esempio l'asimmetria> 5, non puoi ottenere una distribuzione con curtosi inferiore a 26!

Quindi, se si desidera studiare l'impatto dell'alta asimmetria, non si è in grado di evitare di investigare l'impatto dell'alta curtosi. Di conseguenza, se provi a separarli, in effetti ti senti incapace di valutare l'effetto dell'aumento dell'asimmetria ad alti livelli.

Detto questo, almeno per la famiglia di distribuzione che hanno preso in considerazione, e nei limiti che la relazione tra loro pone, l'indagine di Khan e Rayner sembra suggerire che la curtosi sia il problema principale.

>2


11

Questo problema è stato affrontato in "Robustezza rispetto alla non normalità dei test comuni per il problema della posizione a molti campioni" di Khan e Rayner.

Hanno scoperto che i test ANOVA sono notevolmente più colpiti dalla curtosi che dall'asimmetria, e l'effetto dell'asimmetria non è correlato alla sua direzione.

Se si sospettano deviazioni dalla normalità, il test di Kruskal-Wallis potrebbe essere una scelta migliore. Il test di Kruskal-Wallis è più robusto rispetto alle deviazioni dalla normalità perché esamina l'ipotesi che le mediane del trattamento siano identiche. ANOVA esamina l'ipotesi che i mezzi di trattamento siano identici.


Questo indica anche che dovrei interpretare i diagrammi QQ in modo diverso per regressione lineare e ANOVA? La maggior parte delle trasformazioni che ho fatto ha ridotto l'asimmetria, ma ha lasciato code leggermente pesanti (= curtosi?). Avevo l'impressione che il test F fosse abbastanza robusto da gestire il secondo ma non il primo. O questo "code pesanti vanno bene" è un malinteso da parte mia? Non posso immaginare che esista una differenza così fondamentale tra i due, dal momento che i modelli ANOVA possono anche essere riscritti come modelli di regressione lineare.
Zenit,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.