R: Anova e regressione lineare


9

Sono nuovo nelle statistiche e sto cercando di capire la differenza tra ANOVA e regressione lineare. Sto usando R per esplorare questo. Ho letto vari articoli sul perché ANOVA e la regressione sono diversi ma sempre uguali e come possono essere visualizzati ecc. Penso di essere abbastanza lì, ma manca ancora un po '.

Comprendo che ANOVA confronta la varianza all'interno dei gruppi con la varianza tra i gruppi per determinare se esiste o meno una differenza tra i gruppi testati. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )

Per la regressione lineare, ho trovato un post in questo forum in cui si afferma che lo stesso può essere testato quando si verifica se b (pendenza) = 0. ( Perché ANOVA viene insegnato / utilizzato come se si trattasse di una metodologia di ricerca diversa rispetto alla regressione lineare? )

Per più di due gruppi ho trovato un sito Web in cui si afferma:

L'ipotesi nulla è:H0:µ1=µ2=µ3

Il modello di regressione lineare è: y=b0+b1X1+b2X2+e

L'output della regressione lineare è, tuttavia, quindi l'intercettazione per un gruppo e la differenza rispetto a questa intercettazione per gli altri due gruppi. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )

Per me, sembra che in realtà le intercettazioni vengano confrontate e non le pendenze?

Un altro esempio in cui si confrontano le intercettazioni piuttosto che le pendenze può essere trovato qui: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )

Ora sto lottando per capire cosa viene effettivamente confrontato nella regressione lineare? le piste, le intercettazioni o entrambe?


Risposte:


16

sembra che in realtà le intercettazioni vengano confrontate e non le pendenze?

La tua confusione si riferisce al fatto che devi stare molto attento a essere chiaro su quali intercettazioni e pendenze intendi (intercettazione di quale? Pendenza di cosa?).

Il ruolo di un coefficiente di un manichino 0-1 in una regressione può essere considerato sia come una pendenza che come una differenza di intercettazioni.

Semplifichiamo il più possibile le cose, considerando un caso a due campioni.

Possiamo ancora fare ANOVA unidirezionale con due campioni, ma risulta sostanzialmente lo stesso di un test t a due code a due code (il caso della varianza uguale).

Ecco un diagramma della situazione della popolazione:

due gruppi significa come regressione, situazione della popolazione

Se , il modello lineare della popolazione èδ=μ2μ1

y=μ1+δx+e

in modo che quando (come nel caso del gruppo 1), la media di sia e quando (quando siamo nel gruppo 2) , la media di è .y μ 1 + δ × 0 = μ 1 x = 1 y μ 1 + δ × 1 = μ 1 + μ 2 - μ 1 = μ 2x=0yμ1+δ×0=μ1x=1yμ1+δ×1=μ1+μ2μ1=μ2

Questo è il coefficiente della pendenza ( in questo caso) e la differenza nei mezzi (e potresti pensare a quei mezzi come intercetti) è la stessa quantità.δ

Per aiutare con concretezza, ecco due esempi:

Group1:  9.5  9.8 11.8
Group2: 11.0 13.4 12.5 13.9

Come sembrano?

trama di esempio

Come si presenta il test della differenza nei mezzi?

Come test t:

    Two Sample t-test

data:  values by group
t = -5.0375, df = 5, p-value = 0.003976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.530882 -1.469118
sample estimates:
mean in group g1 mean in group g2 
             9.9             12.9 

Come regressione:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.9000     0.4502  21.991 3.61e-06 ***
groupg2       3.0000     0.5955   5.037  0.00398 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.7797 on 5 degrees of freedom
Multiple R-squared:  0.8354,    Adjusted R-squared:  0.8025 
F-statistic: 25.38 on 1 and 5 DF,  p-value: 0.003976

Possiamo vedere nella regressione che il termine di intercettazione è la media del gruppo 1 e che il coefficiente groupg2 (coefficiente di "pendenza") è la differenza nelle medie del gruppo. Nel frattempo, il valore p per la regressione è uguale al valore p per il test t (0,003976)


Grazie mille per questo esempio estremamente utile. Ho appena capito che c'è ancora una domanda aperta. Non capisco perché la pendenza sia indicata come μ2-μ1? La pendenza non è definita come m = delta Y / delta X ??
Paolo,

2
Esso è; ma e e così . In breve, quando si codifica come 0/1, la pendenza è la differenza. Δ y = ( μ 1 + δ × 1 ) - ( μ 1 + δ × 0 ) = δ = μ 2 - μ 1 Δ y / Δ x = ( μ 2 - μ 1 ) / 1 = μ 2 - μ 1Δx=10=1Δy=(μ1+δ×1)(μ1+δ×0)=δ=μ2μ1Δy/Δx=(μ2μ1)/1=μ2μ1
Glen_b

+1 l'illustrazione grafica sul perché la pendenza è uguale alla differenza sui mezzi mi ha aiutato molto !!
Haitao Du,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.