Dobbiamo davvero includere "tutti i predittori rilevanti?"


15

Un presupposto di base dell'uso dei modelli di regressione per deduzione è che "tutti i predittori rilevanti" sono stati inclusi nell'equazione di predizione. La logica è che la mancata inclusione di un importante fattore del mondo reale porta a coefficienti distorti e quindi a inferenze imprecise (ovvero omissione di distorsioni variabili).

Ma nella pratica della ricerca, non ho mai visto nessuno, incluso qualcosa di simile a "tutti i predittori rilevanti". Molti fenomeni hanno una miriade di cause importanti e sarebbe molto difficile, se non impossibile, includerle tutte. Un esempio immediato è la modellazione della depressione come risultato: nessuno ha costruito qualcosa di simile a un modello che includa "tutte le variabili rilevanti": ad es. Storia dei genitori, tratti della personalità, supporto sociale, reddito, loro interazioni, ecc., eccetera...

Inoltre, l'adattamento di un modello così complesso porterebbe a stime altamente instabili a meno che non esistessero campioni di dimensioni molto grandi.

La mia domanda è molto semplice: il presupposto / il consiglio di "includere tutti i predittori rilevanti" è solo qualcosa che "diciamo" ma che in realtà non intendiamo mai? In caso contrario, perché lo diamo come vero consiglio di modellazione?

E questo significa che la maggior parte dei coefficienti sono probabilmente fuorvianti? (ad esempio, uno studio sui fattori di personalità e depressione che utilizza solo diversi predittori). In altre parole, quanto è grave questo problema per le conclusioni delle nostre scienze?


6
Una versione di questo argomento imperversò in psicologia, economia e scienze sociali per tutto il diciannovesimo secolo. Gli scienziati hanno sostenuto che i metodi statistici erano inapplicabili alle persone e ai sistemi sociali perché le persone sono troppo varie e complesse. Alla fine di quel secolo, l'utilità ha conquistato la filosofia: anche quando non includiamo tutti i predittori, possiamo ancora imparare molto. C'è saggezza nell'inclusione di "rilevante" nella frase del titolo.
whuber

Risposte:


18

Hai ragione - raramente siamo realistici nel dire "tutti i predittori rilevanti". In pratica possiamo essere soddisfatti compresi i predittori che spiegano le principali fonti di variazione in . Nel caso speciale di dedurre un'inferenza su un fattore di rischio o trattamento in uno studio osservazionale, questo raramente è abbastanza buono. Per questo, l'aggiustamento per il confondimento deve essere altamente aggressivo, comprese le variabili che potrebbero essere correlate al risultato e potrebbero essere correlate alla scelta del trattamento o al fattore di rischio che si sta tentando di pubblicizzare.Y

È interessante notare che con il normale modello lineare, le covariate omesse, specialmente se ortogonali alle covariate incluse, possono essere pensate come un semplice ingrandimento del termine di errore. Nei modelli non lineari (logistici, Cox, molti altri) l'omissione delle variabili può influenzare gli effetti di tutte le variabili incluse nel modello (ad esempio a causa della non collassabilità del rapporto di probabilità).


Grazie per le informazioni utili. Mettendo da parte la valutazione degli effetti del trattamento, vorrei chiedere di più sulle implicazioni pragmatiche di questo problema. Se hai esaminato un documento e sono stati omessi chiaramente importanti predittori, potrebbero essere motivi di rifiuto? Lo chiedo perché a.) Non ho mai sentito parlare di questo accadimento e b.) Gli scienziati sociali spesso includono SOLO i predittori che desiderano sapere di più su (cioè l'argomento dello studio) e trascurano i fattori "già noti" ( basato sulla necessità di una misurazione più efficiente).
ATJ,

Ad esempio, non è raro vedere un modello di variabile latente con solo un predittore SINGOLO per una variabile endogena. Parla del divario tra il campo statistico e la sua attuazione in aree tematiche reali?
ATJ,

6
Probabilmente lo fa. Alla domanda precedente i motivi del rifiuto includevano l'omissione di variabili importanti la cui inclusione avrebbe dato una diversa interpretazione delle variabili incluse o che avrebbe cambiato drasticamente il modello. Una volta ho rivisto un documento sul rischio di cancro ai polmoni che era disponibile solo se un soggetto aveva mai fumato o meno, e gli autori non hanno tentato di valutare la dose di fumo (ad esempio, anni di confezione). Ho raccomandato il rifiuto definitivo.
Frank Harrell,

9

Sì, devi includere tutte le "variabili rilevanti", ma devi essere intelligente. Devi pensare ai modi per costruire gli esperimenti che isolerebbero l'impatto del tuo fenomeno da cose non correlate, che è molto nella ricerca nel mondo reale (al contrario di una classe). Prima di entrare nelle statistiche, devi fare un duro lavoro nel tuo dominio, non nelle statistiche.

Ti incoraggio a non essere cinico nell'includere tutte le variabili rilevanti, perché non è solo un obiettivo nobile ma anche perché spesso è possibile. Non lo diciamo solo per il gusto di dirlo. Lo intendiamo davvero. In effetti, la progettazione di esperimenti e studi in grado di includere tutte le variabili rilevanti è ciò che rende la scienza davvero interessante e diversa dagli "esperimenti" meccanici sulla piastra della caldaia.

Per motivare la mia affermazione, ti darò un esempio di come Galileo ha studiato l'accelerazione. Ecco la sua descrizione di un esperimento reale (da questa pagina Web ):

Fu preso un pezzo di legno modellato o sottile, lungo circa 12 cubiti, largo mezzo cubo e spesso largo tre dita; sul bordo era tagliato un canale poco più di un dito di larghezza; avendo reso questo solco molto dritto, liscio e lucido, e averlo rivestito con pergamena, anche il più liscio e lucido possibile, ci siamo fatti rotolare lungo una sfera di bronzo dura, liscia e molto rotonda. Avendo posto questa tavola in posizione inclinata, sollevando un'estremità di uno o due cubiti sopra l'altra, abbiamo fatto rotolare la palla, come stavo solo dicendo, lungo il canale, notando, in un modo che sarà attualmente descritto, il tempo richiesto per fare la discesa. Abbiamo ripetuto questo esperimento più di una volta per misurare il tempo con una precisione tale che la deviazione tra due osservazioni non ha mai superato un decimo di battito. Avendo eseguito questa operazione e assicurandoci della sua affidabilità, ora abbiamo fatto rotolare la palla solo per un quarto della lunghezza del canale; e avendo misurato il tempo della sua discesa, l'abbiamo trovato esattamente la metà del primo. Successivamente abbiamo provato altre distanze, confrontando il tempo per l'intera lunghezza con quello per la metà, o con quello per i due terzi, o i tre quarti, o addirittura per qualsiasi frazione; in tali esperimenti, ripetuti cento volte, abbiamo sempre scoperto che gli spazi attraversati erano l'un l'altro come i quadrati dei tempi, e questo era vero per tutte le inclinazioni del piano, cioè del canale, lungo il quale abbiamo rotolato il palla. Abbiamo anche osservato che i tempi di discesa, per varie inclinazioni del piano, si annoiavano esattamente quel rapporto che, come vedremo più avanti,

Per la misurazione del tempo, abbiamo impiegato una grande nave d'acqua posta in una posizione elevata; sul fondo di questa nave era saldato un tubo di piccolo diametro che dava un sottile getto d'acqua che raccoglievamo in un piccolo bicchiere durante il tempo di ogni discesa, sia per l'intera lunghezza del canale sia per parte della sua lunghezza; l'acqua così raccolta veniva pesata, dopo ogni discesa, su una bilancia molto accurata; le differenze e i rapporti di questi pesi ci davano le differenze e i rapporti dei tempi, e questo con una precisione tale che sebbene l'operazione fosse ripetuta molte, molte volte, non vi era alcuna discrepanza apprezzabile nei risultati.

d=gt2,
dgtd0=1t0diotiod0/diot02/tio2
d0dio=t02tio2

Presta attenzione a come ha misurato il tempo. È così rozzo che mi ricorda come in questi giorni le scienze innaturali misurino le loro variabili, pensino alla "soddisfazione del cliente" o "utilità". Egli menziona che l'errore di misurazione era entro il decimo di un'unità di tempo, a proposito.

Includeva tutte le variabili rilevanti? Sì ha fatto. Ora, devi capire che tutti i corpi sono attratti l'uno dall'altro dalla gravità. Quindi, in teoria per calcolare la forza esatta sulla palla devi aggiungere ogni corpo nell'universo all'equazione. Inoltre, cosa ancora più importante, non ha incluso la resistenza superficiale, la resistenza dell'aria, il momento angolare, ecc. Tutto ciò ha influito sulle sue misurazioni? Sì. Tuttavia, non erano rilevanti per ciò che stava studiando perché era in grado di ridurre o eliminare il loro impatto isolando l'impatto della proprietà che stava studiando.

t2


Cosa c'è di così rozzo nel suo metodo di misurazione del tempo? L'impostazione avrà una velocità specifica alla quale l'acqua lascerà la grande nave ed entrerà nella tazza; supponendo che la nave contenga una grande quantità di acqua, tale tasso cambierà minimamente. Ancora più importante, rimarrà coerente tra gli esperimenti. In realtà è un metodo molto elegante dato che non avevano cronometri e timer automatici fantasiosi.
JAB

@JAB, è rozzo solo in confronto al cronometro o ai modi moderni per misurare il tempo, ovviamente. Hai perfettamente ragione sul fatto che sia molto elegante, considerato lo stato dell'arte della misurazione del tempo ai tempi di Galileo. Tuttavia, il punto che stavo sottolineando era che anche una precisione apparentemente così bassa (1/10 di un intervallo) era ancora abbastanza per osservare la relazione tra tempo e distanza
Aksakal

@JAB, uno dei miei esempi preferiti di metodi di misurazione ridicoli in fisica è il modo in cui Cherenkov ha scoperto la sua radiazione . Si sarebbe seduto in una stanza buia fino a quando i suoi occhi non fossero stati adattati all'oscurità, quindi avrebbe aperto o chiuso il buco con la luce proveniente da esso fino a quando la luce non scompare. Stava registrando quanto era aperto un buco per rilevare il livello di radiazione. Apparentemente, l'occhio umano può rilevare la differenza di luce misurata in una manciata di fotoni! Il documento è lungo 3 pagine.
Aksakal,

6

Affinché le ipotesi del modello di regressione siano perfettamente valide, è necessario includere tutti i predittori rilevanti. Ma nessuna delle ipotesi in nessuna analisi statistica è perfettamente valida e gran parte della pratica statistica si basa su "Abbastanza vicino".

Con la progettazione di esperimenti e la corretta randomizzazione, l'effetto di termini non inclusi nei modelli può spesso essere ignorato (assunto uguale dalla possibilità di randomizzazione). Tuttavia, la regressione viene in genere utilizzata quando non è possibile la completa randomizzazione per tenere conto di tutte le possibili variabili non incluse nel modello, quindi la domanda diventa importante.

Praticamente ogni modello di regressione mai adattato probabilmente manca di alcuni potenziali predittori, ma "Non lo so" senza ulteriori chiarimenti non permetterebbe agli statistici che lavorano di continuare a lavorare, quindi facciamo del nostro meglio e quindi proviamo a capire quanto la differenza tra i presupposti e la realtà influenzeranno i nostri risultati. In alcuni casi la differenza rispetto alle ipotesi fa una differenza minima e non ci preoccupiamo molto della differenza, ma in altri casi può essere molto grave.

Un'opzione quando sai che potrebbero esserci dei predittori che non sono stati inclusi nel modello che sarebbe rilevante è fare un'analisi di sensibilità. Questo misura quanta distorsione sarebbe possibile sulla base di potenziali relazioni con le variabili non misurate. Questo articolo:

Lin, DY e Psaty, BM e Kronmal, RA. (1998): Valutare la sensibilità dei risultati della regressione ai confonditori non misurati negli studi osservazionali. Biometria, 54 (3), settembre, pagg. 948-963.

fornisce alcuni strumenti (ed esempi) di un'analisi di sensibilità.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.