Cosa possiamo dire dei modelli sui dati osservativi in ​​assenza di strumenti?


10

Ho avuto in passato una serie di domande su di me riguardanti articoli pubblicati in diverse aree in cui regressioni (e modelli correlati, come modelli di pannelli o GLM) sono utilizzati su dati osservativi (ovvero dati non prodotti da esperimenti controllati , in molti casi - ma non sempre - dati osservati nel tempo) ma in cui non viene fatto alcun tentativo di introdurre variabili strumentali.

In risposta ho espresso una serie di critiche (come la descrizione di problemi con distorsioni quando possono mancare variabili importanti) ma dal momento che altre persone qui saranno senza dubbio molto più consapevoli di me su questo argomento, ho pensato che avrei chiesto:

  1. Quali sono i principali problemi / conseguenze del tentativo di trarre conclusioni sulle relazioni (in particolare, ma non limitato a conclusioni causali) in tali situazioni?

  2. Si può fare qualcosa di utile con studi che si adattano a tali modelli in assenza di strumenti?

  3. Quali sono alcuni buoni riferimenti (libri o documenti) sui problemi con tale modellistica (preferibilmente con chiara motivazione non tecnica delle conseguenze, dal momento che di solito le persone che chiedono hanno una varietà di sfondi, alcuni senza molte statistiche) a cui le persone potrebbero fare riferimento nella critica un documento? Sarebbe utile anche la discussione di precauzioni / problemi con gli strumenti.

(I riferimenti di base sulle variabili strumentali sono qui , anche se se ne hai bisogno, sarebbe utile anche questo.)

Puntare a buoni esempi pratici di ricerca e uso degli strumenti sarebbe un vantaggio, ma non è centrale per questa domanda.

[Probabilmente indicherò altre buone risposte qui quando tali domande mi vengono in mente. Posso aggiungere uno o due esempi man mano che li ottengo.]

Risposte:


8

Quindi la stragrande maggioranza del mio campo (sebbene non la parte in cui lavoro di più) si occupa proprio di questo: l'adattamento di modelli di tipo GLM ai dati osservativi. Per la maggior parte, le variabili strumentali sono una rarità, a causa della mancanza di familiarità con la tecnica o, soprattutto, della mancanza di un buon strumento. Per rispondere alle tue domande in ordine:

  1. Il problema principale è, ovviamente, una sorta di confusione residua da parte di una variabile non osservata, associata sia all'esposizione che al risultato di interesse. La versione in linguaggio semplice è che la tua risposta potrebbe essere sbagliata, ma non sai necessariamente come o perché. Le decisioni prese su tali informazioni (come se usare o meno un particolare trattamento, se la cosa X nell'ambiente è pericolosa, ecc.) Sono decisioni prese usando le informazioni sbagliate.

  2. Affermerei che la risposta a questa domanda è sì perché, per la maggior parte, questi studi stanno cercando di arrivare a qualcosa in cui non c'è necessariamente un buon strumento o dove la randomizzazione è impossibile. Quindi, quando si tratta di esso, l'alternativa è "Indovina". Questi modelli sono, se non altro, una formalizzazione dei nostri pensieri e un solido tentativo di avvicinarsi alla risposta, e sono più facili da affrontare.

Ad esempio, puoi chiedere quanto seria dovrebbe essere la distorsione al fine di cambiare qualitativamente la tua risposta (cioè "Sì, X è male per te ..."), e valutare se pensi che sia ragionevole che ci sia un fattore sconosciuto di quella forza in agguato al di fuori dei tuoi dati.

Ad esempio, la scoperta che l'infezione da HPV è estremamente fortemente associata al cancro cervicale è una scoperta importante e la forza di un fattore non misurato che pregiudicherebbe il fatto che fino al nulla dovrebbe essere incredibilmente forte.

Inoltre, va notato che uno strumento non risolve questo problema: funzionano solo in assenza di alcune associazioni non misurate e anche gli studi randomizzati soffrono di problemi (abbandono differenziale tra trattamento e controlli, qualsiasi cambiamento di comportamento dopo la randomizzazione, generalizzabilità all'attuale popolazione target) che viene anche un po 'sorpreso.

  1. Rothman, Groenlandia e Lash hanno scritto l'ultima edizione di Epidemiologia moderna che è essenzialmente un libro dedicato a cercare di fare queste cose nel miglior modo possibile.

8

Contrariamente alla visione dal lato dell'epidemiologo mostrata da Fomite, le variabili strumentali sono un toolkit essenziale in economia che viene insegnato abbastanza presto. La ragione di ciò è che al giorno d'oggi c'è un'enorme attenzione nel cercare di rispondere alle domande causali nella ricerca economica, il che va fino al punto in cui le semplici correlazioni sono persino considerate poco interessanti. Il limite principale è che l'economia è un campo dove è intrinsecamente difficile fare esperimenti randomizzati. Se voglio sapere qual è l'effetto di una morte precoce dei genitori sui risultati scolastici a lungo termine di un bambino, la maggior parte delle persone obietterebbe a farlo attraverso una pista di controllo randomizzata - e giustamente. Questo volantino di un corso del MIT delinea a pagina 3-5 quali altri problemi ci sono con gli esperimenti.

Per affrontare ogni punto a turno:

  1. A seconda della domanda alla quale si deve rispondere, non sono solo le variabili omesse che possono invalidare le analisi sui dati osservativi senza l'uso di metodi non sperimentali. Problemi di selezione, errore di misurazione, causalità inversa o simultaneità possono essere ugualmente importanti. Il problema principale è che l'analista di dati deve essere consapevole dei limiti di questa impostazione. Ciò si riferisce principalmente al caso aziendale perché in uno scenario accademico questo sarebbe scoperto rapidamente. A volte vedo analisti di mercato che vogliono stimare un'elasticità dei prezzi per informare un cliente (ad es. Di quanto diminuisce la domanda se aumentiamo i prezzi dix%), quindi stimano un'equazione della domanda e dimenticano o ignorano completamente il fatto che la domanda e l'offerta sono determinate simultaneamente e che l'una influisce sull'altra. Quindi le conseguenze dipendono molto di più dalla consapevolezza del ricercatore / analista dei dati rispetto alle limitazioni dei dati piuttosto che ai dati stessi, ma le conseguenze che ne conseguono possono variare da qualcosa di banale a una estensione in cui influenzano negativamente la vita delle persone.
  2. Mostrare correlazioni può essere utile a volte, dipende solo dalla domanda. Quando cerchi un effetto causale è anche sufficiente avere un esperimento naturale. I dati del censimento in Cile possono essere osservativi ma se si desidera sapere in che modo l'ultimo terremoto ha influenzato il rendimento scolastico (dove i terremoti sono probabilmente esogeni), allora anche i dati osservativi vanno bene per rispondere a una domanda causale.
    È anche possibile, in una certa misura, valutare l'endogeneità senza strumenti (si veda a pagina 9 nel volantino sopra, "Stima dell'entità della distorsione da variabili omesse"). Per un trattamento binario non sperimentaleDipuoi calcolare l'effetto di questo trattamento, fare lo stesso per i non osservabili e chiedere quanto deve essere grande il cambiamento nei non osservabili per spiegare l'effetto del trattamento osservato. Se il turno inosservato deve essere molto ampio, allora possiamo essere un po 'più fiduciosi nei confronti dei nostri risultati. Il riferimento per questo è Altonji, Elder and Taber (2000) .
  3. Probabilmente qualsiasi economista applicato consiglierebbe Angrist e Pischke (2009) "Mostly Harmless Econometrics". Anche se questo libro è destinato principalmente a studenti e ricercatori laureati, è possibile saltare le parti matematiche di esso e ottenere solo l'intuizione che è anche ben spiegata. Inizialmente introducono l'idea di un'impostazione sperimentale, quindi tendono all'OLS e ai suoi limiti rispetto all'endogeneità da variabili omesse, simultaneità, selezione, ecc. E quindi discutono ampiamente delle variabili strumentali con una buona parte di esempi tratti dalla letteratura applicata. Discutono anche problemi con variabili strumentali come strumenti deboli o utilizzandone troppi. Angrist and Krueger (2001) forniscono anche una panoramica non tecnica delle variabili strumentali e delle potenziali insidie ​​e hanno anche una tabella che riassume diversi studi e i loro strumenti.

Probabilmente tutto ciò è stato molto più lungo di quanto dovrebbe essere una risposta tipica, ma la domanda è molto ampia. Vorrei solo sottolineare il fatto che le variabili strumentali (che spesso sono difficili da trovare) non sono l'unico proiettile in tasca. Esistono altri metodi non sperimentali per scoprire effetti causali da dati osservazionali come differenze nelle differenze, disegni di discontinuità di regressione, adattamento o regressione di effetti fissi (se i nostri confondenti sono invarianti nel tempo). Tutti questi sono discussi in Angrist e Pischke (2009) e nella dispensa collegata all'inizio.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.