Come interpretare il tipo I, il tipo II e il tipo III ANOVA e MANOVA?


45

La mia domanda principale è come interpretare l'output (coefficienti, F, P) quando si esegue un ANOVA di tipo I (sequenziale)?

Il mio problema di ricerca specifico è un po 'più complesso, quindi spezzerò il mio esempio in parti. Innanzitutto, se sono interessato all'effetto della densità del ragno (X1) sulla crescita delle piante (Y1) e ho piantato piantine in recinti e densità del ragno manipolata, allora posso analizzare i dati con un semplice ANOVA o regressione lineare. Quindi non importa se ho usato la somma dei quadrati di tipo I, II o III (SS) per il mio ANOVA. Nel mio caso, ho 4 replicati di 5 livelli di densità, quindi posso usare la densità come fattore o come variabile continua. In questo caso, preferisco interpretarlo come una variabile indipendente (predittore) continua. Nel RI potrebbe essere eseguito il seguente:

lm1 <- lm(y1 ~ density, data = Ena)
summary(lm1)
anova(lm1)

L'esecuzione della funzione anova avrà senso per un confronto più avanti, si spera, quindi per favore ignora la stranezza qui. L'output è:

Response: y1
          Df  Sum Sq Mean Sq F value  Pr(>F)  
density    1 0.48357 0.48357  3.4279 0.08058 .
Residuals 18 2.53920 0.14107 

Ora, supponiamo che sospetti che il livello iniziale di azoto inorganico nel suolo, che non sono riuscito a controllare, possa aver influito in modo significativo sulla crescita delle piante. Non sono particolarmente interessato a questo effetto, ma vorrei potenzialmente spiegare la variazione che provoca. In realtà, il mio interesse principale è per gli effetti della densità del ragno (ipotesi: l'aumento della densità del ragno provoca un aumento della crescita delle piante - presumibilmente attraverso la riduzione degli insetti erbivori ma sto solo testando l'effetto e non il meccanismo). Potrei aggiungere l'effetto della N inorganica alla mia analisi.

Per il bene della mia domanda, facciamo finta di testare la densità di interazione * inorganica e non è significativa, quindi la rimuovo dall'analisi ed eseguo i seguenti effetti principali:

> lm2 <- lm(y1 ~ density + inorganicN, data = Ena)
> anova(lm2)
Analysis of Variance Table

Response: y1
           Df  Sum Sq Mean Sq F value  Pr(>F)  
density     1 0.48357 0.48357  3.4113 0.08223 .
inorganicN  1 0.12936 0.12936  0.9126 0.35282  
Residuals  17 2.40983 0.14175 

Ora, fa la differenza se uso Tipo I o Tipo II SS (so che alcune persone si oppongono ai termini Tipo I e II ecc., Ma data la popolarità di SAS è facile da usare). R anova {stats} utilizza il Tipo I per impostazione predefinita. Posso calcolare il tipo II SS, F e P per densità invertendo l'ordine dei miei effetti principali oppure posso usare il pacchetto "auto" del Dr. John Fox (compagno della regressione applicata). Preferisco quest'ultimo metodo poiché è più facile per problemi più complessi.

library(car)
Anova(lm2)
            Sum Sq Df F value  Pr(>F)  
density    0.58425  1  4.1216 0.05829 .
inorganicN 0.12936  1  0.9126 0.35282  
Residuals  2.40983 17  

La mia comprensione è che le ipotesi di tipo II sarebbero: "Non esiste alcun effetto lineare di x1 su y1 dato l'effetto di (mantenendo costante?) X2" e lo stesso per x2 dato x1. Immagino che sia qui che mi confondo. Qual è l'ipotesi testata dall'ANOVA usando il metodo di tipo I (sequenziale) sopra rispetto all'ipotesi usando il metodo di tipo II?

In realtà, i miei dati sono un po 'più complessi perché ho misurato numerose metriche di crescita delle piante, nonché dinamica dei nutrienti e decomposizione dei rifiuti. La mia analisi effettiva è qualcosa del tipo:

Y <- cbind(y1 + y2 + y3 + y4 + y5)
# Type II
mlm1 <- lm(Y ~ density + nitrate + Npred, data = Ena)
Manova(mlm1)

Type II MANOVA Tests: Pillai test statistic
        Df test stat approx F num Df den Df  Pr(>F)    
density  1   0.34397        1      5     12 0.34269    
nitrate  1   0.99994    40337      5     12 < 2e-16 ***
Npred    1   0.65582        5      5     12 0.01445 * 


# Type I
maov1 <- manova(Y ~ density + nitrate + Npred, data = Ena)
summary(maov1)

          Df  Pillai approx F num Df den Df  Pr(>F)    
density    1 0.99950     4762      5     12 < 2e-16 ***
nitrate    1 0.99995    46248      5     12 < 2e-16 ***
Npred      1 0.65582        5      5     12 0.01445 *  
Residuals 16                                           

Risposte:


71

Quello che chiami SS di tipo II, chiamerei SS di tipo III. Immaginiamo che ci siano solo due fattori A e B (e lanceremo l'interazione A * B in seguito per distinguere le SS di tipo II). Inoltre, immaginiamo che ci siano differenti nelle quattro celle (ad es. = 11, = 9, = 9 e = 11). Ora i tuoi due fattori sono correlati tra loro. (Provalo tu stesso, crea 2 colonne di 1 e 0 e correlale, ; nb non importa se è 'significativo', questa è l'intera popolazione a cui tieni). Il problema con i tuoi fattori correlati è che ci sono somme di quadrati associati ad entrambin 11 n 12 n 21 n 22 r = .1 rnn11n12n21n22r=.1rA e B. Nel calcolare un ANOVA (o qualsiasi altra regressione lineare), vogliamo suddividere le somme dei quadrati. Una partizione mette tutte le somme di quadrati in uno e solo unodi diversi sottoinsiemi. (Ad esempio, potremmo voler dividere le SS in A, B ed errore.) Tuttavia, poiché i tuoi fattori (ancora solo A e B qui) non sono ortogonali non esiste una partizione univoca di queste SS. In effetti, ci possono essere molte partizioni e se sei disposto a dividere le tue SS in frazioni (ad esempio, "Metterò .5 in questo cestino e .5 in quello"), ci sono infinite partizioni. Un modo per visualizzarlo è immaginare il simbolo MasterCard: il rettangolo rappresenta le SS totali, e ciascuno dei cerchi rappresenta le SS attribuibili a quel fattore, ma si noti la sovrapposizione tra i cerchi al centro, quelle SS potrebbero essere date a entrambi i cerchi.

inserisci qui la descrizione dell'immagine

La domanda è: come possiamo scegliere la partizione "giusta" tra tutte queste possibilità? Riportiamo l'interazione e discutiamo alcune possibilità:

Tipo I SS:

  • SS (A)
  • SS (B | A)
  • SS (A * B | A, B)

Tipo II SS:

  • SS (A | B)
  • SS (B | A)
  • SS (A * B | A, B)

Tipo III SS:

  • SS (A | B, A * B)
  • SS (B | A, A * B)
  • SS (A * B | A, B)

Nota come funzionano queste diverse possibilità. Solo SS di tipo I utilizza effettivamente quelle SS nella parte sovrapposta tra i cerchi nel simbolo MasterCard. Cioè, le SS che potrebbero essere attribuite a A o B, sono effettivamente attribuite a una di esse quando si utilizza SS di tipo I (in particolare, quella immessa per prima nel modello). In entrambi gli altri approcci, le SS sovrapposte non vengono utilizzate affatto . Pertanto, il tipo I SS dà ad A tutte le SS attribuibili ad A (comprese quelle che potrebbero anche essere state attribuite altrove), quindi dà a B tutte le SS rimanenti che sono attribuibili a B, quindi dà all'interazione A * B tutte dei restantiSS che sono attribuibili ad A * B e lascia gli avanzi che non potevano essere attribuiti a nulla al termine dell'errore.

Le SS di tipo III danno solo a quelle SS che sono attribuibili in modo univoco ad A, allo stesso modo danno solo a B e all'interazione quelle SS che sono attribuibili in modo univoco a loro. Il termine di errore ottiene solo quelle SS che non potevano essere attribuite a nessuno dei fattori. Pertanto, non vengono utilizzate quelle SS "ambigue" che potrebbero essere attribuite a 2 o più possibilità. Se sommi la SS di tipo III in una tabella ANOVA, noterai che non equivalgono alla SS totale. In altre parole, questa analisi deve essere sbagliata, ma sbaglia in un modo epistemicamente conservativo. Molti statistici trovano questo approccio egregio, tuttavia le agenzie di finanziamento del governo (credo che la FDA) ne richieda l'uso.

L'approccio di tipo II ha lo scopo di catturare ciò che potrebbe valere la pena dell'idea alla base del tipo III, ma attenuare i suoi eccessi. In particolare, regola solo le SS per A e B l'una per l'altra, non per l'interazione. Tuttavia, in pratica il tipo II SS non viene praticamente mai utilizzato. Dovresti conoscere tutto questo ed essere abbastanza esperto con il tuo software per ottenere queste stime e gli analisti che in genere pensano che sia a castello.

Esistono più tipi di SS (credo IV e V). Alla fine degli anni '60 fu loro suggerito di affrontare alcune situazioni, ma in seguito fu dimostrato che non facevano ciò che si pensava. Pertanto, a questo punto sono solo una nota storica.

Per quanto riguarda le domande a cui stanno rispondendo, praticamente hai già questo diritto nella tua domanda:

  • Le stime che utilizzano il tipo I SS indicano quanto della variabilità in Y può essere spiegata da A, quanta parte della variabilità residua può essere spiegata da B, quanta parte della variabilità residua residua può essere spiegata dall'interazione e così via, in ordine .
  • Le stime basate su SS di tipo III indicano quanto della variabilità residua in Y può essere contabilizzata da A dopo aver contabilizzato tutto il resto e quanta parte della variabilità residua in Y può essere spiegata da B dopo aver contabilizzato tutto il resto anche e così via. (Nota che entrambi vanno sia il primo che l'ultimo contemporaneamente; se questo ha senso per te e riflette accuratamente la tua domanda di ricerca, usa il SS di tipo III.)

2
grazie per la risposta molto utile. L'altra area in cui mi confondo è che se "Le stime usando il tipo I SS ti dicono quanta parte della variabilità in Y può essere spiegata da A, quanta parte della variabilità residua può essere spiegata da B, quanta parte residua residua la variabilità può essere spiegata dall'interazione, e così via, in ordine ", allora perché le statistiche si associano a una modifica quando vengono aggiunte ulteriori variabili? È perché i test si basano su SS (A) / SS (errore) e l'errore è una funzione di tutti i termini nel modello? Sto pensando a questo correttamente?
djhocking

1
Per "stats associate ad A", ti interpreto nel senso dei valori F e p per l'effetto principale di A. Il valore F per A è il rapporto del quadrato medio per A (cioè SSA / dfA) rispetto al Errore MS. Quando si aggiungono più fattori, le SS vengono prese dal termine di errore e assegnate a tali fattori. In generale, ciò significa che l'errore della SM diminuisce e quindi il rapporto aumenta. Di conseguenza, il valore F per A aumenta e il valore p diminuisce. Poiché anche i gradi di libertà cambiano, può essere più complicato di così, ma questo è il senso.
gung - Ripristina Monica

Oops, volevo dire MS (A) / MSE per la statistica F. Ad ogni modo, la tua risposta è perfetta, grazie ancora per tutto il tuo aiuto!
djhocking il

Sono curioso, riguardo ai dettagli dell'interpretazione quando si usa un tipo I. Nel mio caso, la densità è la mia unica variabile di interesse e l'unica che ho manipolato sperimentalmente. Per quanto sfortunata, la densità è insignificante da sola o dopo aver tenuto conto delle mie altre due variabili di interesse (Npredator, inorganico N di tipo II o III). Ma poiché apparentemente inorganicN spiega gran parte della variazione di alcune delle variabili dipendenti quando la aggiungo come terza variabile, rende le altre 2 estremamente significative. Pertanto, la densità ha davvero un effetto significativo su Y? È ragionevole?
djhocking del

2
@JonBonJovi, l'analogia con MasterCard ha solo 2 fattori. Se vuoi 2 fattori più un'interazione, allora avresti bisogno di 3 aree che si sovrappongono in qualche modo. È certamente possibile disegnare un diagramma di Eulero con 3 aree, ma ho semplicemente usato il simbolo MasterCard per semplicità. Per un'interazione, immagina un terzo cerchio che si sovrappone ai primi 2 (ad esempio, potrebbe essere centrato da destra a sinistra, ma soprattutto sopra gli altri); allora tutto il cerchio A (SS) andrebbe in A, tutto in B che non si sovrappone A va in B, e tutto in A B che non si sovrappone * o A o B vanno all'interazione.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.