Perché queste tabelle di regressione anova sono identiche?


11

Ho due regressioni della stessa Y e tre livelli X. Complessivamente n = 15, con n = 5 in ciascun gruppo o livello di X. La prima regressione considera la X come categoriale, assegnando le variabili indicatore ai livelli 2 e 3 con livello uno è il riferimento. Gli indicatori / manichini sono così: X1 = 1 se livello = 2, 0 se altrimenti X2 = 1 se livello = 3, 0 se altrimenti

Di conseguenza il mio modello montato ha un aspetto simile al seguente: y = b0 + b1 (x1) + b2 (x2)

Eseguo la regressione e l'output include questa tabella Analisi della varianza:

tavolo

Il resto dell'output è irrilevante qui.

Bene, ora eseguo una regressione diversa sugli stessi dati. Abbandono l'analisi categorica e tratto X come continuo, ma aggiungo una variabile all'equazione: X ^ 2, il quadrato di X. Quindi ora ho il seguente modello: y = b0 + b1 (X) + b2 (X) ^ 2

Se lo eseguo, sputa la stessa identica tabella di Analisi della varianza che ti ho mostrato sopra. Perché queste due regressioni danno origine alle stesse tabelle?

[Il merito di questo piccolo enigma va a Thomas Belin nel Dipartimento di Biostatistica dell'Università della California a Los Angeles.]


Penso che dovrai mostrarci il codice che "fa la regressione" e possibilmente il passaggio dei dati (mi sembra l'output di SAS) che usi per creare il tabel di dati su cui stai operando.
Brad S.

1
@Brad Non credo sia necessario: la situazione è chiaramente descritta e non sono necessarie ulteriori informazioni per spiegare cosa sta succedendo.
whuber

@whuber Forse. Immagino, se lo dici tu, ma mi sembra un errore di programmazione. Aspetto la tua risposta.
Brad S.

1
@Brad Non è un errore di programmazione: ho pubblicato la mia spiegazione. È una buona domanda, con autentico interesse statistico (e applicabilità).
whuber

Ehi Brad, in realtà proviene da una serie di problemi: la situazione mi è stata data più o meno allo stesso modo in cui l'ho data a voi ragazzi, e la domanda in qualche modo si è posta allo stesso modo: "perché dovrebbero essere uguali?". È proprio come lo espongo: due modelli, le stesse tabelle ANOVA, il resto delle uscite non sono state nemmeno fornite (avrei dovuto chiarirlo invece di dire "irrilevante").
logjammin,

Risposte:


22

In termini di matrice i tuoi modelli sono nella solita forma . E[Y]=Xβ

Il primo modello rappresenta un elemento del primo gruppo per la riga in , corrispondente all'intercetta, l'indicatore per la categoria 2 e l'indicatore per la categoria 3. Rappresenta un elemento del secondo gruppo per la riga e un elemento del terzo gruppo per .(1,0,0)X(1,1,0)(1,0,1)

Il secondo modello utilizza invece le righe , e , rispettivamente.(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

Chiamiamo le matrici del modello risultante e . Sono semplicemente correlati: le colonne di una sono combinazioni lineari delle colonne dell'altra. Ad esempio, lasciaX1X2

V=(111013028).

Quindi da allora

(100110101)V=(111124139),

ne consegue che

X1V=X2.

I modelli stessi sono pertanto correlati

X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).

Cioè, i coefficienti per il secondo modello devono essere correlati a quelli del primo viaβ2

β1=Vβ2.

La stessa relazione vale quindi per le stime dei minimi quadrati. Ciò dimostra che i modelli hanno attacchi identici : li esprimono semplicemente diversamente.

Poiché le prime colonne delle due matrici del modello sono uguali, qualsiasi tabella ANOVA che decompone la varianza tra la prima colonna e le colonne rimanenti non cambierà. Una tabella ANOVA che distingue tra la seconda e la terza colonna, tuttavia, dipenderà dalla modalità di codifica dei dati.

Dal punto di vista geometrico (e un po 'più astratto), il sottospazio tridimensionale di generato dalle colonne di coincide con il sottospazio generato dalle colonne di . Pertanto i modelli avranno accoppiamenti identici. Gli adattamenti sono espressi in modo diverso solo perché gli spazi sono descritti con due basi diverse. X 1 X 2R15X1X2


Per illustrare, qui ci sono dati come i tuoi (ma con risposte diverse) e le analisi corrispondenti come generate in R.

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

Montare i due modelli:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

Mostra le loro tabelle ANOVA:

anova(fit.1)
anova(fit.2)

L'output per il primo modello è

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

Per il secondo modello lo è

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

Puoi vedere che le somme residue dei quadrati sono le stesse. Aggiungendo le prime due righe nel secondo modello otterrete lo stesso DF e la somma dei quadrati, da cui è possibile calcolare lo stesso quadrato medio, valore F e valore p.

Infine, confrontiamo le stime dei coefficienti.

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

L'output è

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

Anche le intercettazioni sono completamente diverse. Questo perché le stime di qualsiasi variabile in una regressione multipla dipendono dalle stime di tutte le altre variabili (a meno che non siano tutte reciprocamente ortogonali, il che non è il caso di nessuno dei due modelli). Tuttavia, guarda cosa compie la moltiplicazione per :V

(111013028)(3.46273854.46673710.5531225)=(0.45087622.80736974.5084944).

Gli accoppiamenti sono davvero gli stessi dichiarati.


6
Santo fuma, amico. Non ho mai avuto una considerazione più approfondita, una risposta approfondita dal porre una domanda a Internet. Grazie x1000, sul serio.
logjammin,

Benvenuti nel nostro sito! Spero che tu continui ad usarlo e attendo i tuoi contributi.
whuber

1
Ho imparato qualcosa oggi! (votato)
Brad S.

Risposta incredibile. Sbalordire!
kedarps,

5

In breve, entrambi i modelli sono saturi nel senso che forniscono previsioni empiriche uniche della risposta a tutti e 3 i livelli di X. Potrebbe essere ovvio per la codifica variabile dei fattori nel modello 1. Per una tendenza quadratica, è interessante notare che un la formula quadratica può interpolare qualsiasi 3 punti. Mentre i contrasti sono diversi, in entrambi i modelli il test globale rispetto a un modello null di una sola intercettazione fornisce inferenza identica.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.