Qual è il legame tra metodi come la corrispondenza e il controllo statistico delle variabili?


10

Spesso negli articoli di ricerca che leggi i ricercatori hanno controllato determinate variabili. Questo può essere fatto con metodi come corrispondenza, blocco, ecc.

Ma ho sempre pensato che il controllo delle variabili fosse qualcosa di statisticamente misurato misurando diverse variabili che potevano essere d'influenza ed eseguire alcune analisi statistiche su quelle che potevano essere fatte sia in esperimenti veri che quasi. Quindi, per esempio, avresti un sondaggio o un altro test in cui misureresti la variabile indipendente e alcune variabili probabilmente confondenti e fare qualche analisi.

  • È possibile controllare le variabili in quasi esperimenti?
  • Qual è il legame tra metodi come la corrispondenza e il controllo statistico delle variabili?

Risposte:


6

Come con AdamO, penso che la chiave per rispondere a questa domanda sia la nozione di inferenza causale e come arrivare "verso" un modello causale usando le configurazioni osservazionali.

In un mondo perfetto, avremmo qualcosa chiamato popolazione controfattuale: la popolazione dello studio, identica sotto tutti gli aspetti ad eccezione della singola cosa a cui siamo interessati. La differenza tra queste due popolazioni, basata su quella differenza, è un vero risultato causale.

Ovviamente, non possiamo averlo.

Ci sono comunque dei modi per provare ad avvicinarti:

  • Randomizzazione: questo teoricamente (se la randomizzazione viene eseguita correttamente) dovrebbe dare due popolazioni identiche, ad eccezione del trattamento post-randomizzazione.

  • Stratificazione: puoi osservare una popolazione all'interno di livelli di covariate, dove stai facendo confronti "simili a simili". Funziona magnificamente per un numero limitato di livelli, ma diventa rapidamente ingombrante.

  • Corrispondenza: la corrispondenza è un tentativo di riunire una popolazione di studio in modo tale che il Gruppo A assomigli al Gruppo B, e quindi è suscettibile di confronto.

  • Adeguamento statistico: l'inclusione delle covariate in un modello di regressione consente di stimare un effetto all'interno dei livelli delle covariate, ancora una volta, confrontando il simile con il simile o almeno tentando di farlo.

Tutti sono un tentativo di avvicinarsi a quella popolazione controfattuale. Il modo migliore per farlo dipende da cosa vuoi uscire e da come appare il tuo studio.


Spiegazione meravigliosa. Molto più conciso e meglio affronta la domanda originale. Consentitemi di aggiungere quello di questi metodi, solo l'adeguamento statistico è impermeabile al problema di avere strati vuoti. In uno studio caso-controllo, se vogliamo stratificare la popolazione in base all'età, la corrispondenza, la stratificazione e la (blocco) randomizzazione per età richiede il coarseing o il binning per confrontare un caso di 50 anni con un controllo di 51 anni.
AdamO,

Nella regressione logistica, tuttavia, è possibile utilizzare le informazioni continue per prendere in prestito implicitamente le informazioni tra i gruppi, come con l'età rettificata lineare o spline di base per effettuare tale confronto. Ciò rende il modello di regressione una delle metodologie statistiche più potenti e utili disponibili.
AdamO,

@AdamO D'accordo - nella mia risposta alla domanda sopra menzionata, menziono che può essere utilizzato per smussare aree prive di informazioni, purché tale mancanza sia dovuta al caso e al binning. Ma sì, c'è una ragione per cui la regressione è fantastica.
Fomite

2

Penso che la modellazione causale sia la chiave per rispondere a questa domanda. All'inizio ci si deve confrontare per identificare il corretto effetto di interesse regolato / stratificato / controllato prima ancora di guardare i dati. Se dovessi stimare la relazione altezza / capacità polmonare negli adulti, mi adeguerei allo stato di fumo poiché il fumo acrobatica la crescita e influenza la capacità polmonare. I confonditori sono variabili che sono causalmente correlate al predittore di interesse e sono associate al risultato di interesse. Vedi la causalità di Judea Pearl, 2a ed. Si dovrebbe specificare e alimentare la loro analisi per le variabili di confondimento corrette prima che il processo di raccolta dei dati inizi anche a usare la logica razionale e le conoscenze precedenti di precedenti studi esplorativi.

R2per i modelli lineari per queste variabili di regolazione. Un altro processo comune in epidemiologia è quello in cui le variabili vengono aggiunte al modello solo se modificano la stima dell'effetto principale (come un odds ratio o hazard ratio) di almeno il 10%. Mentre questo è "più" corretto rispetto alla selezione del modello basato su AIC, penso ancora che ci siano importanti avvertenze in questo approccio.

La mia raccomandazione è prespecificare l'analisi desiderata come parte di un'ipotesi. Il rischio di fumo / cancro aggiustato per età è un parametro diverso e porta a un'inferenza diversa in uno studio controllato rispetto al rischio di fumo / cancro grezzo. L'uso della conoscenza dell'argomento è il modo migliore per selezionare i predittori per l'adeguamento nelle analisi di regressione o come variabili di stratificazione, abbinamento o ponderazione in vari altri tipi di analisi "controllate" del disegno sperimentale e quasiexperimentale.


2

La storia della relazione tra abbinamento e regressione è brevemente riassunta in un post di blog qui . In breve

"Regress su D [un indicatore di trattamento] un set completo di modelli di manichini (ovvero saturi) per X [covariate]. La stima risultante dell'effetto di D è uguale alla corrispondenza su X e alla ponderazione tra le cellule di covariata dalla varianza del trattamento subordinato a X "

Vedere anche la sezione 3.3 di Econometria per lo più innocua o la sezione 5.3 di Controfattuali e inferenza causale per una discussione approfondita, inclusi i pro ei contro della ponderazione X data D che la regressione fornisce implicitamente.

@EpiGrad dà un buon inizio alla tua prima domanda. I libri sopra menzionati lo trattano quasi esclusivamente. Se non hai un background di informatica / matematica potresti trovare difficile Pearl (anche se alla fine ne vale la pena!)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.