Perché sono importanti le ipotesi ANOVA (uguaglianza di varianza, normalità dei residui)?


15

Quando si esegue un ANOVA ci viene detto che alcuni presupposti del test devono essere presenti affinché sia ​​applicabile ai dati. Non ho mai capito il motivo per cui i seguenti presupposti erano necessari per il funzionamento del test:

  1. La varianza della variabile dipendente (residui) dovrebbe essere uguale in ogni cella del disegno

  2. La variabile dipendente (residui) dovrebbe essere distribuita approssimativamente normalmente per ogni cella del progetto

Comprendo che esiste un po 'di una zona grigia per stabilire se questi presupposti debbano essere soddisfatti, ma per ragioni di argomento, se questi presupposti non fossero assolutamente soddisfatti in un determinato set di dati, quale sarebbe il problema con l'utilizzo di un ANOVA ?


qual è l'obiettivo del tuo studio?
Subhash C. Davar

Risposte:


8

Le assunzioni sono importanti nella misura in cui incidono sulle proprietà dei test di ipotesi (e sugli intervalli) che è possibile utilizzare le cui proprietà distributive sotto il valore nullo vengono calcolate basandosi su tali assunzioni.

In particolare, per i test di ipotesi, le cose che potrebbero interessarci sono quanto lontano potrebbe essere il vero livello di significatività da ciò che vogliamo che sia, e se il potere contro le alternative di interesse è buono.

In relazione alle ipotesi che chiedi:

1. Parità di varianza

La varianza della variabile dipendente (residui) dovrebbe essere uguale in ogni cella del disegno

Ciò può sicuramente influire sul livello di significatività, almeno quando le dimensioni del campione sono disuguali.

(Modifica :) Una statistica F ANOVA è il rapporto tra due stime di varianza (il partizionamento e il confronto delle varianze è il motivo per cui si chiama analisi della varianza). Il denominatore è una stima della varianza dell'errore apparentemente comune a tutte le cellule (calcolata dai residui), mentre il numeratore, basato sulla variazione dei mezzi del gruppo, avrà due componenti, uno dalla variazione dei mezzi della popolazione e uno a causa della varianza dell'errore. Se il valore nullo è vero, le due varianze stimate saranno le stesse (due stime della varianza dell'errore comune); questo valore comune ma sconosciuto si annulla (perché abbiamo preso un rapporto), lasciando una statistica F che dipende solo dalle distribuzioni degli errori (che sotto i presupposti che possiamo mostrare ha una distribuzione F. (Commenti simili si applicano alla t- test che ho usato per l'illustrazione.)

[C'è qualche dettaglio in più su alcune di quelle informazioni nella mia risposta qui ]

Tuttavia, qui le due varianze di popolazione differiscono tra i due campioni di dimensioni diverse. Considera il denominatore (della statistica F in ANOVA e della statistica t in un test t) - è composto da due diverse stime di varianza, non una, quindi non avrà la distribuzione "giusta" (un chi in scala -quadrato per la F e la sua radice quadrata nel caso di at - sia la forma che la scala sono problemi).

Di conseguenza, la statistica F o la statistica t non avranno più la distribuzione F o t, ma il modo in cui è influenzato è diverso a seconda che il campione grande o più piccolo sia stato prelevato dalla popolazione con la varianza maggiore. Questo a sua volta influenza la distribuzione dei valori di p.

Sotto il valore nullo (cioè quando la media della popolazione è uguale), la distribuzione dei valori di p dovrebbe essere distribuita uniformemente. Tuttavia, se le varianze e le dimensioni del campione sono disuguali ma i mezzi sono uguali (quindi non vogliamo rifiutare il valore nullo), i valori p non vengono distribuiti uniformemente. Ho fatto una piccola simulazione per mostrarti cosa succede. In questo caso, ho usato solo 2 gruppi, quindi ANOVA equivale a un test t a due campioni con la stessa ipotesi di varianza. Quindi ho simulato campioni da due distribuzioni normali, una con deviazione standard dieci volte più grande dell'altra, ma mezzi uguali.

Per il grafico a sinistra, la deviazione standard ( popolazione ) maggiore era per n = 5 e la deviazione standard più piccola era per n = 30. Per la trama del lato destro la deviazione standard più grande è andata con n = 30 e la più piccola con n = 5. Ho simulato ciascuno 10000 volte e ho trovato il valore p ogni volta. In ogni caso si desidera che l'istogramma sia completamente piatto (rettangolare), poiché ciò significa che tutti i test condotti ad un certo livello di significatività con effettivamente ottengono quel tasso di errore di tipo I. In particolare è molto importante che le parti più a sinistra dell'istogramma rimangano vicine alla linea grigia:α

Istogrammi di valori p per campioni simulati

Come vediamo, la trama del lato sinistro (varianza maggiore nel campione più piccolo) i valori p tendono ad essere molto piccoli - rifiuteremmo l'ipotesi nulla molto spesso (quasi la metà del tempo in questo esempio) anche se il valore null è vero . Cioè, i nostri livelli di significatività sono molto più grandi di quanto abbiamo chiesto. Nel grafico a destra vediamo che i valori di p sono per lo più grandi (e quindi il nostro livello di significatività è molto più piccolo di quello che abbiamo chiesto) - infatti non una volta su diecimila simulazioni abbiamo rifiutato al livello del 5% (il più piccolo il valore p qui era 0,055). [Potrebbe non sembrare una cosa così brutta, finché non ricordiamo che avremo anche un potere molto basso per andare con il nostro livello di significatività molto basso.]

Questa è una conseguenza. Questo è il motivo per cui è una buona idea usare un test di tipo Welch-Satterthwaite o ANOVA quando non abbiamo una buona ragione per presumere che le varianze saranno quasi uguali - al confronto è appena influenzato in queste situazioni (I simulato anche questo caso; le due distribuzioni di valori p simulati - che non ho mostrato qui - sono risultate abbastanza vicine al flat).

2. Distribuzione condizionale della risposta (DV)

La variabile dipendente (residui) dovrebbe essere distribuita approssimativamente normalmente per ogni cella del progetto

Questo è un po 'meno direttamente critico: per deviazioni moderate dalla normalità, il livello di significatività non è molto influenzato in campioni più grandi (sebbene il potere possa esserlo!).

Ecco un esempio, in cui i valori sono distribuiti in modo esponenziale (con distribuzioni e dimensioni del campione identiche), in cui possiamo vedere che questo problema di livello di significatività è sostanziale in piccoli ma che si riduce con n grande .nn

istogrammi di valori p quando H0 è vero ma le distribuzioni in ciascun gruppo sono esponenziali

Vediamo che a n = 5 ci sono sostanzialmente troppi piccoli valori p (il livello di significatività per un test del 5% sarebbe circa la metà di quello che dovrebbe essere), ma a n = 50 il problema è ridotto - per un 5% test in questo caso il livello di significatività reale è di circa il 4,5%.

Quindi potremmo essere tentati di dire "bene, va bene, se n è abbastanza grande da rendere il livello di significatività abbastanza vicino", ma potremmo anche dare una buona dose di potere. In particolare, è noto che l'efficienza relativa asintotica del test t rispetto alle alternative ampiamente utilizzate può andare a 0. Ciò significa che scelte di test migliori possono ottenere la stessa potenza con una frazione evanescente della dimensione del campione richiesta per ottenerlo con il test t. Non hai bisogno di nulla di straordinario per continuare ad avere bisogno di più del doppio dei dati per avere la stessa potenza con la t di cui avresti bisogno con un test alternativo - code moderatamente più pesanti del normale nella distribuzione della popolazione e campioni moderatamente grandi possono essere sufficienti per farlo.

(Altre scelte di distribuzione possono rendere il livello di significatività più alto di quanto dovrebbe essere o sostanzialmente inferiore a quello che abbiamo visto qui.)


Grazie Glen per la risposta dettagliata. Sono curioso di sapere perché gli errori che hai descritto si verificherebbero se le ipotesi non fossero soddisfatte. In termini di uguaglianza di varianza, ho ragione nel prendere dalla tua scrittura quanto segue? la varianza maggiore è (così come il numero di punti dati essendo generalmente piccolo, ovvero n = 5) che la varianza maggiore osservata nel campione più piccolo viene calcolata come rappresentativa della varianza a livello di popolazione.
PaperRockBazooka,

(parte 2) Si tratta essenzialmente di un confronto sleale tra un campione rappresentativo e un campione sottorappresentante (relativamente parlando) che può portare a un errore di tipo 1 a causa del modo in cui ANOVA viene elaborato.
PaperRockBazooka,

@Caper Non penso che questo sia il problema qui. Non è la rappresentatività della varianza del campione nel campione più piccolo (ad es. Se entrambi i campioni fossero ugualmente piccoli, avresti il ​​doppio del problema con la rappresentatività, ma questo problema sarebbe assente). Ho aggiunto alcuni paragrafi alla mia risposta per spiegare come si presenta il problema in modo più dettagliato.
Glen_b

4

In breve, ANOVA sta aggiungendo , quadrando e facendo la media dei residui . I residui indicano quanto bene il tuo modello si adatta ai dati. Per questo esempio, ho usato il PlantGrowthset di dati in R:

Risultati di un esperimento per confrontare i raccolti (misurati dal peso secco delle piante) ottenuti sotto controllo e due diverse condizioni di trattamento.

Questa prima trama mostra la media dei tre livelli di trattamento:

inserisci qui la descrizione dell'immagine

Le linee rosse sono i residui . Ora quadrando e aggiungendo la lunghezza di quelle singole linee, otterrai un valore che ti dice quanto bene la media (il nostro modello) descriva i dati. Un piccolo numero, ti dice che la media descrive bene i tuoi punti dati, un numero più grande ti dice che la media descrive i tuoi dati non così bene. Questo numero è chiamato la somma totale dei quadrati :

SStotun'l=Σ(Xio-X¯grun'nd)2XioX¯grun'nd

Ora fai la stessa cosa per i residui nel trattamento ( Somma residua dei quadrati , che è anche nota come rumore nei livelli di trattamento):

inserisci qui la descrizione dell'immagine

E la formula:

SSreSioduun'lS=Σ(XioK-X¯K)2XioKioKX¯K

Infine, dobbiamo determinare il segnale nei dati, che è noto come la somma dei modelli dei quadrati , che verrà successivamente utilizzato per calcolare se i mezzi di trattamento sono diversi dalla media generale:

inserisci qui la descrizione dell'immagine

E la formula:

SSmodel=ΣnK(X¯K-X¯grun'nd)2nKnKX¯KX¯grun'nd

Ora lo svantaggio delle somme dei quadrati è che diventano più grandi all'aumentare della dimensione del campione. Per esprimere quelle somme di quadrati relative al numero di osservazioni nel set di dati, le dividi per i loro gradi di libertà trasformandole in varianze. Quindi, dopo aver squadrato e aggiunto i tuoi punti dati, ora li fai mediando usando i loro gradi di libertà:

dftotun'l=(n-1)

dfreSioduun'l=(n-K)

dfmodel=(K-1)

nK

Ciò si traduce nel quadrato medio del modello e nel quadrato medio residuo (entrambi sono varianze) o nel rapporto segnale-rumore, noto come valore F:

MSmodel=SSmodeldfmodel

MSreSioduun'l=SSreSioduun'ldfreSioduun'l

F=MSmodelMSreSioduun'l

Il valore F descrive il rapporto segnale-rumore o se i mezzi di trattamento sono diversi dalla media generale. Il valore F viene ora utilizzato per calcolare i valori p e questi decideranno se almeno uno dei mezzi di trattamento sarà significativamente diverso dalla media generale o meno.

Ora spero che tu possa vedere che le ipotesi si basano su calcoli con residui e perché sono importanti. Poiché aggiungiamo , quadriamo e calcoliamo la media dei residui, dovremmo assicurarci che prima di farlo, i dati in quei gruppi di trattamento si comportino in modo simile , altrimenti il ​​valore F potrebbe essere distorto in una certa misura e le inferenze tratte da questo valore F potrebbero non essere valido.

Modifica: ho aggiunto due paragrafi per affrontare in modo più specifico la domanda 2 e 1 del PO .

Assunzione della normalità : la media (o il valore atteso) viene spesso utilizzata nelle statistiche per descrivere il centro di una distribuzione, tuttavia non è molto solida e facilmente influenzata dai valori anomali. La media è il modello più semplice che possiamo adattare ai dati. Poiché in ANOVA stiamo usando la media per calcolare i residui e le somme dei quadrati (vedere le formule sopra), i dati dovrebbero essere approssimativamente distribuiti normalmente (ipotesi di normalità). In caso contrario, la media potrebbe non essere il modello appropriato per i dati poiché non ci fornirebbe una posizione corretta del centro della distribuzione del campione. Invece una volta potrebbe usare la mediana per esempio (vedi procedure di test non parametriche).

Omogeneità dell'ipotesi di varianza : successivamente, quando calcoliamo i quadrati medi (modello e residuo), stiamo raggruppando le singole somme di quadrati dai livelli di trattamento e calcolandone la media (vedere le formule sopra). Raggruppando e calcolando la media stiamo perdendo le informazioni sulle variazioni dei livelli di trattamento individuali e il loro contributo ai quadrati medi. Pertanto, dovremmo avere approssimativamente la stessa varianza tra tutti i livelli di trattamento in modo che il contributo ai quadrati medi sia simile. Se le varianze tra questi livelli di trattamento fossero diverse, i quadrati medi e il valore F risultanti sarebbero distorti e influenzerebbero il calcolo dei valori p rendendo discutibili le inferenze tratte da questi valori p (vedere anche il commento di @whuber e La risposta di @Glen_b).

Questo è come lo vedo da solo. Potrebbe non essere preciso al 100% (non sono uno statistico) ma mi aiuta a capire perché è importante soddisfare i presupposti per ANOVA.


FFFFF

FF

Grazie Stefan. Voglio vedere se ti sto capendo correttamente. L'ANOVA crea essenzialmente una media grande tra tutti i punti di dati dell'insieme e confronta quanto lontano ogni gruppo differisce da questa media media per capire se la loro è una differenza statisticamente significativa tra loro. Se le ipotesi discusse non vengono soddisfatte, la media non riflette molto i gruppi confrontati e porta a una difficoltà di confronto
PaperRockBazooka,

SStotun'lSSreSioduun'lSSmodel) per determinare il rapporto segnale-rumore. Prova a calcolare manualmente un semplice ANOVA a una via. Questo mi ha aiutato a capirlo meglio.
Stefan

0

ANOVA è solo un metodo, calcola il test F dai tuoi campioni e lo confronta con la distribuzione F. Sono necessari alcuni presupposti per decidere cosa si desidera confrontare e calcolare i valori p.

Se non si soddisfano tali presupposti è possibile calcolare altre cose ma non sarà un ANOVA.

La distribuzione più utile è quella normale (a causa del CLT), ecco perché è la più comunemente usata. Se i tuoi dati non sono normalmente distribuiti devi almeno sapere qual è la loro distribuzione per calcolare qualcosa.

L'omoscedasticità è un presupposto comune anche nell'analisi di regressione, semplifica le cose. Abbiamo bisogno di alcuni presupposti per iniziare.

Se non hai l'omoscedasticità puoi provare a trasformare i tuoi dati per ottenerli.

Il test F ANOVA è noto per essere quasi ottimale, nel senso di minimizzare gli errori falsi negativi per un tasso fisso di errori falsi positivi


"ANOVA" si riferisce al processo di decomposizione di somme di quadrati in componenti interpretabili. Indipendentemente dalle ipotesi distributive, quindi, un ANOVA è un ANOVA.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.