Differenza tra t-test e ANOVA nella regressione lineare


12

Mi chiedo quali differenze ci siano tra t-test e ANOVA nella regressione lineare?

  1. Un test t per verificare se una qualsiasi delle pendenze e l'intercetta ha zero medio, mentre ANOVA verifica se tutte le pendenze hanno zero medio? Questa è l'unica differenza tra loro?
  2. Nella regressione lineare semplice, ovvero laddove esiste una sola variabile predittore, è necessario stimare solo una pendenza. Quindi t-test e ANOVA sono equivalenti, e se sì, come, dato che stanno usando statistiche diverse (t-test sta usando t-statistica e ANOVA sta usando F-statistica)?

Ad 1) Nella regressione lineare, normalmente capisco ANOVA come una misura della bontà di adattamento del modello, vale a dire per decidere se il modello (linea di regressione) spiega una parte sostanziale della variabilità totale. La domanda, se è equivalente a zero di tutte le pendenze, è davvero molto interessante. Ad 2) sembra che stia ottenendo quasi gli stessi valori di p per t-test e regressione ANOVA in questo caso. Teorema davvero interessante!
Curioso

Risposte:


18

Il modello lineare generale ci consente di scrivere un modello ANOVA come modello di regressione. Supponiamo di avere due gruppi con due osservazioni ciascuno, cioè quattro osservazioni in un vettore . Quindi il modello originale, sovra-parametrizzato è , dove è la matrice dei predittori, ovvero variabili di indicatore con codice fittizio: E ( y ) = X β X ( μ 1 μ 1 μ 2 μ 2 ) = ( 1 1 0 1 1 0 1 0 1 1 0 1 ) ( β 0 β 1 β 2 )yE(y)=XβX

(μ1μ1μ2μ2)=(110110101101)(β0β1β2)

I parametri non sono identificabili come perché ha rango 2 ( non è invertibile). Per cambiarlo, introduciamo il vincolo (contrasti del trattamento), che ci dà il nuovo modello : ((X)X)1(X)E(y)X(X)Xβ1=0E(y)=Xβ

(μ1μ1μ2μ2)=(10101111)(β0β2)

Quindi , ovvero assume il significato del valore atteso dalla nostra categoria di riferimento (gruppo 1). , ovvero assume il significato della differenza nella categoria di riferimento. Poiché con due gruppi, esiste solo un parametro associato all'effetto gruppo, l'ipotesi nulla ANOVA (tutti i parametri effetto gruppo sono 0) è uguale all'ipotesi nulla peso di regressione (il parametro pendenza è 0).μ1=β0β0μ2=β0+β2β2μ2μ1

Un test nel modello lineare generale verifica una combinazione lineare dei parametri rispetto a un valore ipotizzato sotto l'ipotesi nulla. Scegliendo , possiamo quindi verificare l'ipotesi che (il solito test per il parametro di pendenza), cioè qui, . Lo stimatore è , dove sono i Stime OLS per i parametri. La statistica generale del test per tale è: ψ = Σ c j β j ψ 0 c = ( 0 , 1 ) ' β 2 = 0 μ 2 - μ 1 = 0 ψ = Σ ctψ=cjβjψ0c=(0,1)β2=0μ2μ1=0ψ^=cjβ^jβ^=(XX)1Xyψ

t=ψ^ψ0σ^c(XX)1c

e2Rank(X)=2σ^2=e2/(nRank(X)) è uno stimatore imparziale per la varianza dell'errore, dove è la somma dei residui quadrati. Nel caso di due gruppi , , e quindi gli stimatori sono e . Con nel nostro caso 1, la statistica del test diventa: e2Rank(X)=2(XX)1X=(.5.500.5.5.5.5)β^0=0.5y1+0.5y2=M1β^2=0.5y10.5y2+0.5y3+0.5y4=M2M1c(XX)1c

t=M2M10σ^=M2M1e2/(n2)

t n - R a n k ( X ) n - 2 tt IS -distributed con df (qui ). Quando si piazza , si ottiene , la statistica del test ANOVA -test per due gruppi ( tra, per i gruppi) che segue una - distribuzione con 1 e df.tnRank(X)n2t(M2M1)2/1e2/(n2)=SSb/dfbSSw/dfw=FFbwFnRank(X)

Con più di due gruppi, le ipotesi ANOVA (tutte sono contemporaneamente 0, con ) si riferiscono a più di un parametro e non possono essere espresse come una combinazione lineare , quindi i test non sono equivalenti . 1 j ψβj1jψ


3

In 1, ANOVA testerà di solito le variabili dei fattori e se la varianza tra i gruppi è significativa o meno. Vedrai chiaramente la differenza se il tuo software consente le variabili degli indicatori in una regressione: per ogni manichino otterrai un valore p che indica se questo gruppo ha un punteggio significativamente diverso da 0 e di conseguenza significativamente diverso dal gruppo di riferimento o dal valore di riferimento applicabile . Di solito, non vedrai fino a che punto l'indicatore stesso è importante fino a quando non esegui un test ANOVA.

Un test F è un test t quadrato. Pertanto, in 2, è lo stesso.


Grazie! (1) Cosa significano le variabili indicatore qui? (2) In generale, un test t è equivalente all'ANOVA solo quando ci sono solo due gruppi. Ma nella regressione lineare semplice possono esserci più di due gruppi, in cui il numero di gruppi è il numero di valori che la variabile predittore accetta nel set di dati.
Tim

(1) Indicatore o variabile categorica o fattore ... tutti uguali. (2) In effetti, ma potresti voler sapere quanto un set di manichini / categorie segna da ANOVA.
Lavoro

Grazie! (2) Quindi nella semplice regressione lineare, in che modo il test t equivale all'ANOVA, dato che ci sono più di due gruppi? Che cosa significa "quanto bene un set di punteggi di manichini / categorie di ANOVA", e perché voglio saperlo?
Tim

Nella regressione OLS, R² (varianza spiegata) sarà uguale a eta² o MSS / TSS di ANOVA, indipendentemente dal numero di gruppi definiti. Successivamente, potresti voler conoscere il contributo di un insieme di manichini (ovvero una variabile indicatore) per dire se l'insieme stesso è pertinente e in quale misura, che è diverso dal significato della differenza tra una singola categoria con la categoria di riferimento .
Lavoro
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.