Sarebbe interessante apprezzare che la divergenza sta nel tipo di variabili , e in particolare nei tipi di variabili esplicative . Nella tipica ANOVA abbiamo una variabile categoriale con diversi gruppi e proviamo a determinare se la misurazione di una variabile continua differisce tra i gruppi. D'altra parte, OLS tende a essere percepito principalmente come un tentativo di valutare la relazione tra un regresso continuo o una variabile di risposta e uno o più regressori o variabili esplicative . In questo senso la regressione può essere vista come una tecnica diversa, prestandosi a predire valori basati su una linea di regressione.
Tuttavia , questa differenza non regge l'estensione di ANOVA al resto dell'analisi della zuppa dell'alfabeto di varianza (ANCOVA, MANOVA, MANCOVA); o l'inclusione di variabili con codice fittizio nella regressione OLS. Non sono chiaro i punti di riferimento storici specifici, ma è come se entrambe le tecniche abbiano sviluppato adattamenti paralleli per affrontare modelli sempre più complessi.
Ad esempio, possiamo vedere che le differenze tra ANCOVA e OLS con variabili fittizie (o categoriche) (in entrambi i casi con interazioni) sono al massimo estetiche. Per favore, scusa la mia partenza dai confini nel titolo della tua domanda, riguardo alla regressione lineare multipla.
In entrambi i casi, il modello è sostanzialmente identico al punto che in R la lm
funzione viene utilizzata per eseguire ANCOVA . Tuttavia, può essere presentato come diverso per quanto riguarda l'inclusione di un'intercetta corrispondente al primo livello (o gruppo) della variabile fattore (o categorica) nel modello di regressione.
In un modello bilanciato ( gruppi di uguali dimensioni , n 1 , 2 , ⋯io ) e solo una covariata (per semplificare la presentazione della matrice), la matrice del modello in ANCOVA può essere riscontrata come una variazione di:n1 , 2 , ⋯io
X= ⎡⎣⎢1n10001n20001n3Xn1000Xn2000Xn3⎤⎦⎥
per gruppi della variabile fattore, espressi come matrici a blocchi.3
Ciò corrisponde al modello lineare:
con α i equivalenti al diverso gruppo significa in un modello ANOVA, mentre i diversi β sono le pendenze della covariata per ciascuno dei gruppi.
y= αio+ β1Xn1+ β2Xn2+ β3Xn3+ ϵio
αioβ
La presentazione dello stesso modello nel campo della regressione, e in particolare in R, considera un'intercettazione generale, corrispondente a uno dei gruppi, e la matrice del modello potrebbe essere presentata come:
X= ⎡⎣⎢⎢⎢⋮J3 n , 1⋮01n20001n3⋮X⋮0000Xn2000Xn3⎤⎦⎥⎥⎥
dell'equazione OLS:
y= β0+ μio+ β1Xn1+ β2Xn2+ β3Xn3+ ϵio
β0μio
Come puoi vedere dalle matrici del modello, la presentazione cela l'identità effettiva tra regressione e analisi della varianza.
Mi piace questo tipo di verifica con alcune righe di codice e miei dati preferiti impostati mtcars
in R . Sto usando lm
per ANCOVA secondo il documento di Ben Bolker disponibile qui .
mtcars$cyl <- as.factor(mtcars$cyl) # Cylinders variable into factor w 3 levels
D <- mtcars # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),] # Ordering obs. for block matrices.
model.matrix(lm(mpg ~ wt * cyl, D)) # This is the model matrix for ANCOVA
Per quanto riguarda la parte della domanda su quale metodo usare (regressione con R!) Potresti trovare divertente questo commento online che mi sono imbattuto mentre scrivevo questo post.