Qual è la relazione tra ANOVA per confrontare i mezzi di diversi gruppi e ANOVA per confrontare i modelli nidificati?


12

Finora ho visto ANOVA usato in due modi:

Innanzitutto , nel mio testo introduttivo sulle statistiche, ANOVA è stato introdotto come un modo per confrontare i mezzi di tre o più gruppi, come un miglioramento rispetto al confronto a coppie, al fine di determinare se uno dei mezzi presenta una differenza statisticamente significativa.

In secondo luogo , nel mio testo di apprendimento statistico, ho visto ANOVA usato per confrontare due (o più) modelli annidati al fine di determinare se il Modello 1, che utilizza un sottoinsieme dei predittori del Modello 2, si adatta ugualmente bene ai dati o se il Il modello 2 è superiore.

Ora suppongo che in un modo o nell'altro queste due cose siano in realtà molto simili perché utilizzano entrambe il test ANOVA, ma in superficie sembrano abbastanza diverse da me. Per uno, il primo utilizzo confronta tre o più gruppi, mentre il secondo metodo può essere utilizzato per confrontare solo due modelli. Qualcuno potrebbe dispiacersi chiarire la connessione tra questi due usi?


3
In breve, penso che la seconda "anova" non sia affatto un'ANOVA (se leggi en.wikipedia.org/wiki/Analysis_of_variance non vedrai alcuna menzione del confronto tra modelli nidificati). È un en.wikipedia.org/wiki/F-test ed è implementato in R come anova()funzione, perché anche il primo, vero, ANOVA sta usando un F-test. Ciò porta alla confusione terminologica.
ameba dice Ripristina Monica il

Grazie penso che tu abbia colpito l'unghia sulla testa! Non avevo considerato che la anova()funzione potesse fare di più che solo ANOVA. Questo post supporta le tue conclusioni: stackoverflow.com/questions/20128781/f-test-for-two-models-in-r
Austin,

1
Un esperto di statistica mi ha insegnato che ANOVA come test multisample è la stessa cosa per ANOVA come test di supremazia modello nidificato. La stessa cosa significa, per la mia comprensione, che confrontiamo una somma (o media) di residui risultanti da nessun modello o modello più semplice con i residui risultanti da un modello, e il test F è applicabile ad entrambe le situazioni dato che le ipotesi sono soddisfatte. La risposta che ho provato è assolutamente al riguardo. Io stesso sarei interessato a capire la connessione tra almeno un coefficiente lm diverso da zero (statistiche F a un modello) e la somma dei residui.
Alexey Burnakov,

Risposte:


11

Nella mia comprensione, l'intuizione astratta di ANOVA è la seguente: si decompone le fonti di varianza della variabile osservata in varie direzioni e si studiano i rispettivi contributi. Per essere più precisi, si decompone la mappa dell'identità in una somma di proiezioni e si indaga su quali proiezioni / direzioni danno un contributo importante alla spiegazione della varianza e quali no. La base teorica è il teorema di Cochran .

Per essere meno astratto, ho inserito la seconda forma menzionata dall'OP nel framework appena descritto. Successivamente, interpreto la prima forma come un caso speciale della seconda.

Consideriamo un modello di regressione con le variabili esplicative (il modello completo) e confrontiamolo con il modello limitato con le variabili K - J. WLOG, le ultime J variabili del modello completo non sono incluse nel modello limitato. La domanda a cui ANOVA ha risposto èKK-JJ

"Possiamo spiegare una varianza significativamente maggiore nella variabile osservata se includiamo variabili aggiuntive"J ?

A questa domanda si risponde confrontando i contributi di varianza delle prime variabili , le successive variabili J e la parte rimanente / inspiegabile (la somma residua dei quadrati). Questa decomposizione (ottenuta ad esempio dal teorema di Cochran) viene utilizzata per costruire il test F. Pertanto, si analizza la riduzione (includendo più variabili) nella somma residua dei quadrati del modello limitato (corrispondente a H 0 : tutti i coefficienti relativi alle ultime variabili J sono zero ) includendo più variabili e si ottiene la statistica F R S S r e s t r - RK-JJH0: J Se il valore è abbastanza grande, la varianza spiegata dallevariabiliJaggiuntiveè significativa.

RSSreStr-RSSfullJRSSfullN-K
J

Ora, la prima forma menzionata dall'OP viene interpretata come un caso speciale della seconda forma . Considerare tre differenti gruppi A, B, e C con mezzi , μ B , e μ C . L' H 0 : μ A = μ B = μ C viene testato confrontando la varianza spiegata dalla regressione su un'intercetta (il modello limitato) con la varianza spiegata dal modello completo contenente un'intercetta, un manichino per il gruppo A e un fittizio per il gruppo B. Il risultante statistica F R S S i n tμUNμBμCH0:μUN=μB=μC equivale al test ANOVA suWikipedia. Il denominatore è uguale alla variazione all'interno dei gruppi, il numeratore è uguale alla variazione tra i gruppi. Se la variazione tra i gruppi è maggiore della variazione all'interno dei gruppi, si rifiuta l'ipotesi che tutti i mezzi siano uguali.

RSSiontercept-RSSdummioeS2RSSdummioeSN-3

+1. Mi chiedo se saresti d'accordo con la mia osservazione sulla terminologia nel commento qui: stats.stackexchange.com/questions/315979/#comment602611_315979 .
ameba dice di reintegrare Monica il

Sono assolutamente d'accordo che c'è molta confusione nella terminologia ;-). Coloquialmente, associo ANOVA solo alla prima forma di OP. Ho appena dato un'occhiata al libro di Scheffé "L'analisi della varianza" in cui sono menzionati "disegni nidificati".
bmbb,

@bmbb, aggiungerei al tuo ultimo commento questo: un semplice caso in cui confrontiamo modelli lm nidificati, uno dei quali è solo l'intercettazione. Il fatto che mi aveva colpito del modello con l'intercettazione è che quando ci riferiamo ai suoi residui ci riferiamo effettivamente alla sua varianza, poiché i residui sono calcolati in relazione a una media variabile (che è l'intercetta del modello) e sono deviazioni da campione medio. Quindi facciamo ancora l'analisi della varianza nel caso di modelli nidificati, anche se analizziamo formalmente i residui.
Alexey Burnakov,

6

Se stai eseguendo ANOVA a una via per verificare se esiste una differenza significativa tra i gruppi, implicitamente stai confrontando due modelli nidificati (quindi esiste solo un livello di annidamento, ma è ancora annidato).

Questi due modelli sono:

  • yiojiojβ^0
    yioj=β^0+εio
  • Modello 1: i valori sono modellati dalla media stimata dei gruppi.

    βj^

    yio=β^0+β^j+εio

Un esempio di confronto tra mezzi ed equivalenza ai modelli nidificati: prendiamo la lunghezza sepal (cm) dal set di dati dell'iride (se usiamo tutte e quattro le variabili potremmo effettivamente fare LDA o MANOVA come Fisher nel 1936)

I mezzi totali e di gruppo osservati sono:

μtotun'l=5.83μSetoSun'=5.01μverSiocolor=5.94μviorgioniocun'=6.59

Che è in forma di modello:

modello 1: yioj=5.83+εiomodello 2: yioj=5.01+[00.931.58]j+εio

Σεio2=102.1683

Σεio2=38,9562

E la tabella ANOVA sarà simile (e calcolerà implicitamente la differenza che è la somma dei quadrati tra i gruppi che è il 63.212 nella tabella con 2 gradi di libertà):

> model1 <- lm(Sepal.Length ~ 1 + Species, data=iris)
> model0 <- lm(Sepal.Length ~ 1, data=iris)
> anova(model0, model1)
Analysis of Variance Table

Model 1: Sepal.Length ~ 1
Model 2: Sepal.Length ~ 1 + Species
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1    149 102.168                                  
2    147  38.956  2    63.212 119.26 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F=RSSdiofferenceDFdiofferenceRSSnewDFnew=63,212238,956147=119.26

set di dati utilizzato nell'esempio:

lunghezza del petalo (cm) per tre diverse specie di fiori di iris

Iris setosa            Iris versicolor      Iris virginica
5.1                    7.0                    6.3
4.9                    6.4                    5.8
4.7                    6.9                    7.1
4.6                    5.5                    6.3
5.0                    6.5                    6.5
5.4                    5.7                    7.6
4.6                    6.3                    4.9
5.0                    4.9                    7.3
4.4                    6.6                    6.7
4.9                    5.2                    7.2
5.4                    5.0                    6.5
4.8                    5.9                    6.4
4.8                    6.0                    6.8
4.3                    6.1                    5.7
5.8                    5.6                    5.8
5.7                    6.7                    6.4
5.4                    5.6                    6.5
5.1                    5.8                    7.7
5.7                    6.2                    7.7
5.1                    5.6                    6.0
5.4                    5.9                    6.9
5.1                    6.1                    5.6
4.6                    6.3                    7.7
5.1                    6.1                    6.3
4.8                    6.4                    6.7
5.0                    6.6                    7.2
5.0                    6.8                    6.2
5.2                    6.7                    6.1
5.2                    6.0                    6.4
4.7                    5.7                    7.2
4.8                    5.5                    7.4
5.4                    5.5                    7.9
5.2                    5.8                    6.4
5.5                    6.0                    6.3
4.9                    5.4                    6.1
5.0                    6.0                    7.7
5.5                    6.7                    6.3
4.9                    6.3                    6.4
4.4                    5.6                    6.0
5.1                    5.5                    6.9
5.0                    5.5                    6.7
4.5                    6.1                    6.9
4.4                    5.8                    5.8
5.0                    5.0                    6.8
5.1                    5.6                    6.7
4.8                    5.7                    6.7
5.1                    5.7                    6.3
4.6                    6.2                    6.5
5.3                    5.1                    6.2
5.0                    5.7                    5.9

1
+1 ma la formattazione della tabella di dati come tabella di lattice è una pratica davvero negativa !! Non è possibile copiarlo e incollarlo da nessuna parte! Se vuoi davvero includere i dati, perché non formattarli come blocchi di codice? Ma in questo caso puoi anche collegare l'articolo di Wikipedia Fisher Iris che contiene i dati.
ameba dice Ripristina Monica il

A parte ciò, qual è la tua opinione sulla questione terminologica che ho citato in questo commento stats.stackexchange.com/questions/315979/#comment602611_315979 ?
ameba dice Ripristina Monica il

1
Non credo che la terminologia fuzzy sia un grosso problema. Nella mia mente, in realtà non considero mai l'ANOVA come un paragone della varianza all'interno e tra i gruppi e faccio sempre la proiezione mentale a un confronto di due modelli. Non credo che sia un grosso problema poiché la distribuzione f, un rapporto di due variabili distribuite chi-quadrate indipendenti, è in un certo senso un rapporto di variazioni. Applicare il test f per studiare modelli nidificati è una sorta di confronto tra variazioni, analisi delle variazioni, quindi ANOVA mi sembra ok (al momento sto cercando di cercare alcuni riferimenti storici).
Sesto Empirico

Non sto dicendo che questo è un problema. Ma mi chiedo se il termine "ANOVA" si riferisce al test F che confronta i modelli nidificati solo in R (come ho suggerito nel mio commento collegato) o se si tratta di una terminologia accettata più ampia. Non ho controllato i libri di testo, quindi le mie prove provengono solo da Wikipedia.
ameba dice di reintegrare Monica il

Nei metodi statistici di Fisher del 1925 per i ricercatori, quando spiega "l'analisi della varianza", include esempi che applicano la tecnica alle linee di regressione (ma nessun modello nidificato).
Sesto Empirico

1

L'uso di ANOVA in confronto tra diversi modelli significa verificare se almeno uno dei coefficienti utilizzati nel modello con ordine superiore (e assente nel modello con ordine inferiore) è significativamente diverso da zero.

Ciò equivale a dire che la somma dei residui per il modello di ordine superiore è significativamente inferiore a quella del modello di ordine inferiore.

Si tratta di due modelli poiché l'equazione di base utilizzata è

MSM/MSE

Dove MSM è la media dei residui quadrati del modello di ordine inferiore (dove l'ordine più basso è la media della variabile target, ovvero intercetta).

( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )

Puoi leggere argomenti simili su CV, come

Come usare anova per il confronto tra due modelli?


IMHO questo non risponde alla domanda.
ameba dice di reintegrare Monica il

1

Da quello che ho imparato,

È possibile utilizzare le tabelle ANOVA per determinare se le variabili esplicative hanno effettivamente un effetto significativo sulla variabile di risposta e quindi adattarsi al modello appropriato.

X1X2X2

y=β0+β1X1+β2X2+ε
y=β0+β1X1+ε

X1

Ecco un esempio di output ANOVA per un progetto a cui sto lavorando in R, in cui collaudo due modelli (uno con i giorni variabili e uno senza i giorni variabili):

inserisci qui la descrizione dell'immagine

Come puoi vedere, il corrispondente valore p dal test F è 0,13, che è maggiore di 0,05. Pertanto, non possiamo rifiutare l'ipotesi nulla che Days non abbia alcun effetto su Y. Quindi, scelgo il modello 1 rispetto al modello 2.


IMHO questo non risponde alla domanda.
ameba dice di reintegrare Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.