Apprendimento dei concetti statistici attraverso esercizi di analisi dei dati

18

Trovo che semplici esercizi di analisi dei dati possano spesso aiutare a illustrare e chiarire concetti statistici. Quali esercizi di analisi dei dati usi per insegnare concetti statistici?

teaching

— Brett Magill
fonte

9

Dato che devo spiegare abbastanza spesso i metodi di selezione delle variabili, non in un contesto di insegnamento, ma per i non statistici che richiedono aiuto con le loro ricerche, adoro questo esempio estremamente semplice che illustra perché la selezione di singole variabili non è necessariamente una buona idea.

Se si dispone di questo set di dati:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

Non ci vuole molto a rendersi conto che sia X1 che X2 singolarmente sono completamente non informativi per y (quando sono uguali, y è 'certo' essere 1 - sto ignorando i problemi di dimensione del campione qui, supponiamo solo che queste quattro osservazioni essere l'intero universo). Tuttavia, la combinazione delle due variabili è completamente informativa. Come tale, è più facile per le persone capire perché non è una buona idea (ad esempio) controllare solo il valore p per i modelli con ogni singola variabile come regressore.

Nella mia esperienza, questo trasmette davvero il messaggio.

— Nick Sabbe
fonte

5

Coefficienti di regressione multipli e fallacia del segno previsto

Una delle mie illustrazioni preferite di un concetto statistico attraverso un esercizio di analisi dei dati è la decostruzione di una regressione multipla in regressioni multiple bivariate.

obiettivi

Chiarire il significato dei coefficienti di regressione in presenza di più predittori.
Per illustrare perché non è corretto "aspettarsi" che un coefficiente di regressione multipla abbia un segno particolare basato sulla sua relazione bivariata con Y quando i predittori sono correlati.

Concetto

I coefficienti di regressione in un modello di regressione multipla rappresentano la relazione tra a) la parte di una determinata variabile predittore (x1) che non è correlata a tutte le altre variabili predittive (x2 ... xN) nel modello; e 2) la parte della variabile di risposta (Y) che non è correlata a tutte le altre variabili predittive (x2 ... xN) nel modello. Quando esiste una correlazione tra i predittori, i segni associati ai coefficienti del predittore rappresentano le relazioni tra tali residui.

Esercizio

Genera alcuni dati casuali per due predittori (x1, x2) e una risposta (y).
Regress y su x2 e conservare i residui.
Regress x1 su x2 e conservare i residui.
Ripristinare i residui del passaggio 2 (r1) sui residui del passaggio 3 (r2).

Il coefficiente per il passaggio 4 per r2 sarà il coefficiente di x1 per il modello di regressione multipla con x1 e x2. Puoi fare lo stesso per x2 parzializzando x1 sia per y che per x2.

Ecco un po 'di codice R per questo esercizio.

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

Ecco gli output e i risultati rilevanti.

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00***

— Brett Magill
fonte