Spiegare la regolazione del modello, in un inglese semplice

14

Leggendo su metodi e risultati dell'analisi statistica, specialmente in epidemiologia, molto spesso sento parlare di aggiustamento o controllo dei modelli.

Come spiegheresti, a un non statistico, lo scopo di questo? Come si interpretano i risultati dopo aver controllato una determinata variabile?

Un piccolo walk-through in Stata o R, o un puntatore a uno online, sarebbe un vero gioiello.

regression modeling epidemiology

— Radek
fonte

29

Più semplice da spiegare a titolo di esempio:

Immagina che lo studio ritenga che le persone che hanno assistito alla finale della Coppa del Mondo abbiano maggiori probabilità di subire un infarto durante la partita o nelle successive 24 ore rispetto a coloro che non l'hanno vista. Il governo dovrebbe vietare il calcio dalla TV? Ma gli uomini hanno maggiori probabilità di guardare il calcio rispetto alle donne e anche gli uomini hanno maggiori probabilità di avere un infarto rispetto alle donne. Quindi l' associazione tra guardare il calcio e gli attacchi di cuore potrebbe essere spiegata da un terzo fattore come il sesso che influenza entrambi. (I sociologi distinguerebbero qui tra genere , un costrutto culturale associato al guardare il calcio e il sesso , una categoria biologica che è associata all'incidenza di infarto, ma i due sono chiaramente fortemente correlati, quindi ignorerò questa distinzione per semplicità.)

Gli statistici, e in particolare gli epidemiologi, definiscono questo terzo fattore un fattore di confondimento e il fenomeno confonde . Il modo più ovvio per rimuovere il problema è quello di esaminare l'associazione tra guardare il calcio e l'incidenza di infarto negli uomini e nelle donne separatamente, o nel gergo, per stratificarsi per sesso. Se scopriamo che l'associazione (se ce n'è ancora una) è simile in entrambi i sessi, potremmo quindi scegliere di combinare le due stime dell'associazione tra i due sessi. La stima risultante dell'associazione tra guardare il calcio e l'incidenza di infarto si dice quindi aggiustata o controllata per il sesso.

Probabilmente vorremmo anche controllare altri fattori allo stesso modo. L'età è un'altra ovvia (in effetti gli epidemiologi stratificano o adeguano / controllano quasi tutte le associazioni per età e sesso). La classe socio-economica è probabilmente un'altra. Altri possono diventare più complicati, ad esempio dovremmo adeguarci al consumo di birra mentre guardiamo la partita? Forse sì, se siamo interessati all'effetto dello stress di guardare la partita da solo; ma forse no, se stiamo considerando di vietare le trasmissioni di calcio della Coppa del mondo e ciò ridurrebbe anche il consumo di birra. Il fatto che una determinata variabile sia un fattore di confondimento o meno dipende esattamente dalla domanda che vogliamo affrontare, e questo può richiedere un pensiero molto attento e diventare piuttosto complicato e persino controverso.

Chiaramente, potremmo voler regolare / controllare diversi fattori, alcuni dei quali possono essere misurati in diverse categorie (ad esempio classe sociale) mentre altri possono essere continui (ad esempio età). Potremmo gestire quelli continui suddividendoli in gruppi (di età), trasformandoli in categorie categoriche. Quindi diciamo che abbiamo 2 sessi, 5 gruppi di classi sociali e 7 gruppi di età. Ora possiamo esaminare l'associazione tra guardare il calcio e l'incidenza di infarto in 2 × 5 × 7 = 70 strati. Ma se il nostro studio è abbastanza piccolo, quindi alcuni di questi strati contengono pochissime persone, avremo problemi con questo approccio. E in pratica potremmo voler aggiustare per una dozzina o più variabili. Un metodo alternativo per regolare / controllare le variabili che è particolarmente utile quando ce ne sono molte è fornito dall'analisi di regressionecon più variabili dipendenti, a volte noto come analisi di regressione multivariabile . (Esistono diversi tipi di modelli di regressione a seconda del tipo di variabile di risultato: regressione dei minimi quadrati, regressione logistica, regressione dei rischi proporzionali (Cox) ...). Negli studi osservazionali, al contrario degli esperimenti, vogliamo quasi sempre adattarci a molti potenziali confondenti, quindi nella pratica l'adeguamento / controllo per i confondenti viene spesso fatto mediante analisi di regressione, sebbene ci siano anche altre alternative, come standardizzazione, ponderazione, propensione punteggio corrispondente ...

— una fermata
fonte

3

+1 (anche se merita almeno 3) - molto approfondito e completo. Ha reso l'intera questione molto più chiara per me. Grazie!

— Radek,

"Un modo alternativo di regolare / controllare le variabili che è particolarmente utile quando ce ne sono molte è fornito dall'analisi di regressione con più variabili dipendenti, a volte noto come analisi di regressione multivariabile." dovrebbe essere "indipendente" o sto fraintendendo? ed è un gergo più comune per questo "regressione multipla"? (So che è discutibile)

— Richard DiSalvo,

10

Onestop lo ha spiegato abbastanza bene, darò solo un semplice esempio R con i dati inventati. Supponiamo che x sia peso e y altezza, e vogliamo scoprire se c'è una differenza tra maschi e femmine:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

Puoi vedere che senza controllare il peso (in anova (lm1)) c'è una differenza molto piccola tra i sessi, ma quando il peso è incluso come covariata (controllato in in mm2) la differenza diventa più evidente.

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)

— Matt Albrecht
fonte