Quanto è problematico controllare le covariate non indipendenti in uno studio osservazionale (cioè non randomizzato)?


11

Miller e Chapman (2001) sostengono che è assolutamente inappropriato controllare le covariate non indipendenti che sono correlate sia alle variabili indipendenti che a quelle dipendenti in uno studio osservazionale (non randomizzato), anche se ciò viene fatto abitualmente nelle scienze sociali. Quanto è problematico farlo? Qual è il modo migliore per affrontare questo problema? Se controlli abitualmente le covariate non indipendenti in uno studio osservazionale nelle tue ricerche, come lo giustifichi? Infine, è una lotta che vale la pena scegliere quando si discute della metodologia con i propri colleghi (vale a dire, importa davvero)?

Grazie

Miller, GA e Chapman, JP (2001). Analisi incomprensibile della covarianza. Journal of Anormal Psychology, 110, 40-48. - http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf


La seguente domanda sulla "spiegazione intuitiva della multicollinearità" può essere di aiuto nel contesto sopra.

Risposte:


4

È problematico quanto il grado di correlazione.

L'ironia è che non ti preoccuperesti di controllare se non ci fosse una correlazione attesa con una delle variabili. E, se ti aspetti che la tua variabile indipendente influenzi la tua dipendenza, allora è necessariamente in qualche modo correlata con entrambe. Tuttavia, se è altamente correlato, forse non dovresti controllarlo poiché equivale a controllare la variabile indipendente o dipendente effettiva.


So che questa è una vecchia risposta, ma hai qualche riferimento che va più nel dettaglio. la tua prima linea, specialmente quelli che ne discutono con esplicito riferimento a Miller & Chapman?
jona,

4

Nelle scienze sociali, spesso chiamiamo questo problema "distorsioni post trattamento". Se stai valutando l'effetto di alcuni trattamenti (la tua variabile indipendente), comprese le variabili che insorgono dopo il trattamento (in senso causale), la tua stima dell'effetto del trattamento può essere parziale. Se includi queste variabili, allora, in un certo senso, stai controllando l'impatto del trattamento. Se il trattamento T causa esito Y e altre variabili A e A causano Y, il controllo di A ignora l'impatto che T ha su Y tramite A. Questo errore può essere positivo o negativo.

Nelle scienze sociali, questo può essere particolarmente difficile perché A potrebbe causare T, che si nutre di A, e A e T causano entrambi Y. Ad esempio, un elevato PIL può portare a livelli elevati di democratizzazione (il nostro trattamento), che porta a PIL più elevato, PIL più elevato e democratizzazione più elevata portano entrambi a una minore corruzione del governo, per esempio. Dal momento che il PIL provoca la democratizzazione, se non controlliamo per questo, allora abbiamo un problema di endogeneità o "distorsione da variabili omesse". Ma se controlliamo il PIL, abbiamo distorsioni post trattamento. Oltre a usare prove randomizzate quando possiamo, c'è poco altro che possiamo fare per guidare la nostra nave tra Scilla e Cariddi. Gary King parla di questi temi come la sua nomina per "Hardest problemi irrisolti nelle scienze sociali" di Harvard iniziativa qui .


3

A mio avviso, ci sono due problemi di base con gli studi osservazionali che "controllano" un numero di variabili indipendenti. 1) Hai il problema di perdere variabili esplicative e quindi modellare erroneamente. 2) Hai il problema di più variabili indipendenti correlate - un problema che non esiste in (ben) esperimenti progettati - e il fatto che i coefficienti di regressione e i test ANCOVA sulle covariate siano basati su parziali, rendendole difficili da interpretare. Il primo è intrinseco alla natura della ricerca osservazionale ed è affrontato nel contesto scientifico e nel processo di elaborazione competitiva. Quest'ultimo è un problema di educazione e si basa su una chiara comprensione della regressione e dei modelli ANCOVA e su cosa rappresentino esattamente quei coefficienti.

Per quanto riguarda il primo problema, è abbastanza facile dimostrare che se tutte le influenze su alcune variabili dipendenti sono conosciute e incluse in un modello, i metodi statistici di controllo sono efficaci e producono buone previsioni e stime degli effetti per le singole variabili. Il problema nelle "scienze leggere" è che tutte le influenze rilevanti sono raramente incluse o addirittura conosciute e quindi i modelli sono scarsamente specificati e difficili da interpretare. Tuttavia, esistono molti problemi utili in questi settori. Le risposte mancano semplicemente di certezza. Il bello del processo scientifico è che è auto correttivo e che i modelli sono messi in discussione, elaborati e perfezionati. L'alternativa è suggerire che non possiamo indagare scientificamente su questi problemi quando non possiamo progettare esperimenti.

Il secondo problema è un problema tecnico nella natura di ANCOVA e dei modelli di regressione. Gli analisti devono essere chiari su cosa rappresentano questi coefficienti e test. Le correlazioni tra le variabili indipendenti influenzano i coefficienti di regressione e i test ANCOVA. Sono prove di parziali. Questi modelli eliminano la varianza in una determinata variabile indipendente e la variabile dipendente che sono associate a tutte le altre variabili nel modello e quindi esaminano la relazione in quei residui. Di conseguenza, i singoli coefficienti e test sono molto difficili da interpretare al di fuori del contesto di una chiara comprensione concettuale dell'intero insieme di variabili incluse e delle loro interrelazioni. Ciò, tuttavia, non produce problemi di predizione - basta essere cauti nell'interpretazione di test e coefficienti specifici.

Una nota a margine: quest'ultima questione è collegata a un problema discusso in precedenza in questo forum sull'inversione dei segni di regressione - ad esempio, da negativo a positivo - quando altri predittori vengono introdotti in un modello. In presenza di predittori correlati e senza una chiara comprensione delle molteplici e complesse relazioni tra l'intero insieme di predittori, non vi è motivo di ASPETTARE un coefficiente di regressione (per sua natura parziale) per avere un segno particolare. Quando esiste una teoria forte e una chiara comprensione di tali interrelazioni, tali "inversioni" dei segni possono essere illuminanti e teoricamente utili. Tuttavia, data la complessità di molti problemi di scienze sociali, una comprensione sufficiente non sarebbe comune, mi aspetterei.

Disclaimer: sono un sociologo e un analista di politiche pubbliche per formazione.


2

Ho letto la prima pagina del loro articolo e quindi potrei aver frainteso il loro punto, ma mi sembra che stiano sostanzialmente discutendo il problema di includere nell'analisi variabili indipendenti multi-collineari. L'esempio che prendono per età e grado illustra questa idea mentre affermano che:

L'età è così intimamente associata al voto a scuola che la rimozione della varianza nell'abilità di pallacanestro associata all'età eliminerebbe una considerevole (forse quasi) varianza nell'abilità di pallacanestro associata al voto

ANCOVA è una regressione lineare con i livelli rappresentati come variabili fittizie e le covariate appaiono anche come variabili indipendenti nell'equazione di regressione. Pertanto, a meno che non abbia frainteso il loro punto (il che è del tutto possibile in quanto non ho letto completamente il loro articolo) sembra che stiano dicendo "non includere le covariate dipendenti", il che equivale a dichiarare di evitare variabili multi-collineari.


Il loro argomento non riguarda le variabili correlate di per sé, ma variabili che sono praticamente inseparabili l'una dall'altra. Variabili per le quali si potrebbe quasi dire "questo senza significato senza quello". Piuttosto che il grado di correlazione, che può essere valutato statisticamente, il problema deve essere risolto concettualmente. Il grado può aumentare senza un aumento dell'età? Quasi. La depressione può intensificarsi senza un aumento dell'ansia? È più difficile.
rolando2,

1

Il (più grande) problema è che, poiché le variabili di gruppo e le covariate sono insieme sul lato predittore dell'equazione, le variabili di gruppo non sono (sono) più le variabili di gruppo, esse sono quelle variabili con la covariata parziale, quindi non sono più riconoscibili o interpretabili come le variabili di gruppo che pensavi di studiare. Enorme problema.

La linea chiave si trova a pagina 45 "ANCOVA rimuove la varianza significativa da" Gruppo ", lasciando una variabile di gruppo residuale non caratteristica, con una relazione incerta con il costrutto rappresentato dal Gruppo".

La mia attuale soluzione è quella di parzializzare la covariata dal DV e quindi inviare il DV residuo ad un normale ANOVA, in alternativa all'utilizzo di ANCOVA.


2
Ma è lo stesso di ancova ?!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.