Trovo che semplici esercizi di analisi dei dati possano spesso aiutare a illustrare e chiarire concetti statistici. Quali esercizi di analisi dei dati usi per insegnare concetti statistici?
Trovo che semplici esercizi di analisi dei dati possano spesso aiutare a illustrare e chiarire concetti statistici. Quali esercizi di analisi dei dati usi per insegnare concetti statistici?
Risposte:
Dato che devo spiegare abbastanza spesso i metodi di selezione delle variabili, non in un contesto di insegnamento, ma per i non statistici che richiedono aiuto con le loro ricerche, adoro questo esempio estremamente semplice che illustra perché la selezione di singole variabili non è necessariamente una buona idea.
Se si dispone di questo set di dati:
y X1 x2
1 1 1
1 0 0
0 1 0
0 0 1
Non ci vuole molto a rendersi conto che sia X1 che X2 singolarmente sono completamente non informativi per y (quando sono uguali, y è 'certo' essere 1 - sto ignorando i problemi di dimensione del campione qui, supponiamo solo che queste quattro osservazioni essere l'intero universo). Tuttavia, la combinazione delle due variabili è completamente informativa. Come tale, è più facile per le persone capire perché non è una buona idea (ad esempio) controllare solo il valore p per i modelli con ogni singola variabile come regressore.
Nella mia esperienza, questo trasmette davvero il messaggio.
Coefficienti di regressione multipli e fallacia del segno previsto
Una delle mie illustrazioni preferite di un concetto statistico attraverso un esercizio di analisi dei dati è la decostruzione di una regressione multipla in regressioni multiple bivariate.
obiettivi
Concetto
I coefficienti di regressione in un modello di regressione multipla rappresentano la relazione tra a) la parte di una determinata variabile predittore (x1) che non è correlata a tutte le altre variabili predittive (x2 ... xN) nel modello; e 2) la parte della variabile di risposta (Y) che non è correlata a tutte le altre variabili predittive (x2 ... xN) nel modello. Quando esiste una correlazione tra i predittori, i segni associati ai coefficienti del predittore rappresentano le relazioni tra tali residui.
Esercizio
Il coefficiente per il passaggio 4 per r2 sarà il coefficiente di x1 per il modello di regressione multipla con x1 e x2. Puoi fare lo stesso per x2 parzializzando x1 sia per y che per x2.
Ecco un po 'di codice R per questo esercizio.
set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2) # Multiple regression Model
ry1 <- residuals( lm( y ~ x2) ) # The part of y not related to x2
rx1 <- residuals( lm(x1 ~ x2) ) # The part of x1 not related to x2
lm( ry1 ~ rx1)
ry2 <- residuals( lm( y ~ x1) ) # The part of y not related to x1
rx2 <- residuals( lm(x2 ~ x1) ) # The part of x2 not related to x1
lm( ry2 ~ rx2)
Ecco gli output e i risultati rilevanti.
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) ***x1*** ***x2***
-0.02410 ***1.89527*** ***5.07549***
Call:
lm(formula = ry1 ~ rx1)
Coefficients:
(Intercept) ***rx1***
-2.854e-17 ***1.895e+00***
Call:
lm(formula = ry2 ~ rx2)
Coefficients:
(Intercept) ***rx2***
3.406e-17 ***5.075e+00***