In che modo la regressione multipla può davvero “controllare” le covariate?


45

Conosciamo tutti gli studi osservazionali che tentano di stabilire un legame causale tra un predittore non randomizzato X e un risultato includendo ogni potenziale confondente immaginabile in un modello di regressione multipla. Così "controllando" tutti i confonditori, sostiene l'argomento, isoliamo l'effetto del predittore di interesse.

Sto sviluppando un crescente disagio con questa idea, basata principalmente su osservazioni fuori mano fatte da vari professori delle mie lezioni di statistica. Cadono in alcune categorie principali:

1. Puoi controllare solo le covariate che pensi e misuri.
Questo è ovvio, ma mi chiedo se sia effettivamente il più pernicioso e insormontabile di tutti.

2. L'approccio ha portato a brutti errori in passato.

Ad esempio, Petitti & Freedman (2005) discutono di come decenni di studi osservazionali statisticamente adeguati siano giunti a conclusioni disastrosamente errate sugli effetti della terapia ormonale sostitutiva sul rischio di malattie cardiache. Gli RCT successivi hanno riscontrato effetti quasi opposti.

3. La relazione predittore-risultato può comportarsi in modo strano quando controlli le covariate.

Yu-Kang Tu, Gunnell e Gilthorpe (2008) discutono di diverse manifestazioni, tra cui il paradosso di Lord, il paradosso di Simpson e le variabili soppressori.

4. È difficile per un singolo modello (regressione multipla) adattarsi adeguatamente alle covariate e modellare contemporaneamente la relazione predittore-risultato.

Ho sentito questo dato come una ragione per la superiorità di metodi come i punteggi di propensione e la stratificazione sui confondenti, ma non sono sicuro di capirlo davvero.

5. Il modello ANCOVA richiede che la covariata e il predittore di interesse siano indipendenti.

Ovviamente, ci adeguiamo ai confonditori proprio perché PERICOLI sono correlati con il predittore di interesse, quindi, a quanto pare, il modello non avrà esito positivo nei casi esatti in cui lo desideriamo di più. L'argomento sostiene che l'adattamento è appropriato solo per la riduzione del rumore negli studi randomizzati. Miller & Chapman, 2001 danno un'ottima recensione.

Quindi le mie domande sono:

  1. Quanto sono gravi questi problemi e altri che potrei non conoscere?
  2. Quanto dovrei avere paura quando vedo uno studio che "controlla tutto"?

(Spero che questa domanda non si stia avventurando troppo nel territorio della discussione e che inviti felicemente qualche suggerimento per migliorarla.)

EDIT : ho aggiunto il punto 5 dopo aver trovato un nuovo riferimento.


1
Per la domanda 2, penso che i "controlli per tutto" siano un problema più generale di specifica. Ho difficoltà a pensare a una situazione in cui un modello parametrico è correttamente specificato. Detto questo, un modello semplifica la realtà, ed è qui che risiede l'arte di questo tipo di studio. Il ricercatore deve decidere cosa è e non è importante nel modello.
Kirk,

4
Con questa domanda mi hai reso un fan.
rolando2,

1
Penso che ciò sollevi alcuni punti molto positivi; ma penso che le risposte siano al di fuori del campo strettamente statistico. Pertanto, qualsiasi risultato statistico è più prezioso se 1) viene replicato 2) è sostanzialmente fattibile, ecc. Vedi anche i criteri MAGIC e l'argomento generale che Abelson fa.
Peter Flom - Ripristina Monica

1
Il punto 5 è assolutamente falso. Il documento di Miller & Chapman è completamente sbagliato, punto e basta.
Jake Westfall,

1
@ half-pass Non so cos'altro dire al riguardo se non che l'affermazione centrale del documento - ovvero che il predittore focale X e la covariata C deve essere non correlata - non è vera. Si noti che ANCOVA è solo un modello di regressione, quindi questa stessa linea di ragionamento apparentemente invaliderebbe anche quasi tutti gli usi del mondo reale della regressione multipla! Ho avuto alcune discussioni su Twitter su questo terribile articolo diversi mesi fa: twitter.com/CookieSci/status/902298218494644228
Jake Westfall

Risposte:


4

C'è una risposta ampiamente accettata, forse non statistica, a cui rispondere - quali ipotesi è necessario fare per affermare che si è realmente controllati per le covariate.

Questo può essere fatto con i grafici causali di Judea Pearl e fare il calcolo .

Vedi http://ftp.cs.ucla.edu/pub/stat_ser/r402.pdf e altro materiale sul suo sito web.

Ora come statistici sappiamo che tutti i modelli sono falsi e la vera domanda statistica è che le ipotesi identificate probabilmente non sono troppo sbagliate, quindi la nostra risposta è approssimativamente OK. Pearl ne è consapevole e ne discute nel suo lavoro, ma forse non in modo esplicito e abbastanza spesso da evitare di confondere molti statistici con la sua pretesa di avere una risposta (cosa che credo faccia per le ipotesi che bisogna fare? ).

(Attualmente l'ASA offre un premio per il materiale didattico per includere questi metodi nei corsi statistici vedi qui )


Grande riferimento a un'elegante rappresentazione grafica, grazie.
passaggio

0

Risposta alla domanda 1:

  • L'entità della gravità è meglio valutata in modo contestuale (vale a dire, dovrebbe considerare tutti i fattori che contribuiscono alla validità).
  • L'entità della gravità non dovrebbe essere valutata in modo categorico. Un esempio è la nozione di una gerarchia di inferenza per i progetti di studio (ad esempio, i casi riportati sono più bassi e gli RCT sono categoricamente più alti). Questo tipo di schema viene spesso insegnato nelle scuole di medicina come un'euristica facile per identificare rapidamente prove di alta qualità. Il problema con questo tipo di pensiero è che è algoritmico e eccessivamente deterministico in realtà la risposta è essa stessa sovradeterminata. Quando ciò accade, puoi perdere i modi in cui gli RCT mal progettati possono produrre risultati peggiori di uno studio osservazionale ben progettato.
  • Vedi questa recensione di facile lettura per una discussione completa dei punti di cui sopra dal punto di vista di un epidemiologo (Rothman, 2014) .

Risposta alla domanda 2:

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.