Qual è la differenza tra il controllo di una variabile in un modello di regressione rispetto al controllo di una variabile nel progetto di studio?

Immagino che il controllo di una variabile nel progetto dello studio sia più efficace nel ridurre gli errori rispetto al controllo post-hoc nel modello di regressione.

Qualcuno potrebbe spiegare formalmente in che modo differiscono questi due casi di "controllo"? Quanto sono relativamente efficaci nel ridurre l'errore e produrre previsioni più precise?

regression experiment-design controlling-for-a-variable

— MRT
fonte

"Controllando una variabile nel tuo progetto di studio", presumo tu intenda far sì che una variabile sia costante in tutte le unità di studio o manipolare una variabile in modo che il livello di quella variabile sia impostato indipendentemente per ciascuna unità di studio. Cioè, il controllo di una variabile nel progetto dello studio significa che stai conducendo un vero esperimento . Il vantaggio di ciò è che può aiutare a dedurre la causalità .

In teoria, controllare una variabile nel modello di regressione può anche aiutare a dedurre la causalità. Tuttavia, questo è solo il caso se controlli per ogni variabile che ha una connessione causale diretta alla risposta. Se ometti una tale variabile (forse non sapevi di includerla), ed è correlata con una qualsiasi delle altre variabili, le tue inferenze causali saranno distorte e errate. In pratica, non conosciamo tutte le variabili rilevanti, quindi il controllo statistico è uno sforzo abbastanza rischioso che si basa su grandi ipotesi che non è possibile verificare.

Tuttavia, la tua domanda riguarda "ridurre l'errore e produrre previsioni più precise", non inferire la causalità. Questo è un problema diverso. Se dovessi rendere costante una determinata variabile attraverso il tuo progetto di studio, tutta la variabilità nella risposta dovuta a quella variabile verrebbe eliminata. D'altra parte, se controlli semplicemente per una variabile, stai valutando il suo effetto, che è soggetto almeno all'errore di campionamento . In altre parole, il controllo statistico non sarebbe altrettanto buono, a lungo termine, nel ridurre la varianza residua nel campione.

Ma se sei interessato a ridurre l'errore e ottenere previsioni più precise, presumibilmente ti preoccupi principalmente delle proprietà del campione, non della precisione all'interno del campione. E qui sta il problema. Quando controlli una variabile manipolandola in qualche forma (mantenendola costante, ecc.), Crei una situazione più artificiale dell'osservazione naturale originale. Cioè, gli esperimenti tendono ad avere meno validità / generalizzabilità esterne rispetto agli studi osservazionali.

Nel caso in cui non sia chiaro, un esempio di un vero esperimento che trattiene qualcosa di costante potrebbe essere la valutazione di un trattamento in un modello murino usando topi innati che sono tutti geneticamente identici. D'altra parte, un esempio di controllo per una variabile potrebbe essere la rappresentazione della storia familiare della malattia con un codice fittizio e l'inclusione di quella variabile in un modello di regressione multipla (cfr. Come si fa esattamente "il controllo per altre variabili"? E come l'aggiunta di un secondo IV può rendere significativo il primo IV? ).

— gung - Ripristina Monica
fonte

Grandi spiegazioni! @gung

— Aaron Zeng,