A mio avviso, ci sono due problemi di base con gli studi osservazionali che "controllano" un numero di variabili indipendenti. 1) Hai il problema di perdere variabili esplicative e quindi modellare erroneamente. 2) Hai il problema di più variabili indipendenti correlate - un problema che non esiste in (ben) esperimenti progettati - e il fatto che i coefficienti di regressione e i test ANCOVA sulle covariate siano basati su parziali, rendendole difficili da interpretare. Il primo è intrinseco alla natura della ricerca osservazionale ed è affrontato nel contesto scientifico e nel processo di elaborazione competitiva. Quest'ultimo è un problema di educazione e si basa su una chiara comprensione della regressione e dei modelli ANCOVA e su cosa rappresentino esattamente quei coefficienti.
Per quanto riguarda il primo problema, è abbastanza facile dimostrare che se tutte le influenze su alcune variabili dipendenti sono conosciute e incluse in un modello, i metodi statistici di controllo sono efficaci e producono buone previsioni e stime degli effetti per le singole variabili. Il problema nelle "scienze leggere" è che tutte le influenze rilevanti sono raramente incluse o addirittura conosciute e quindi i modelli sono scarsamente specificati e difficili da interpretare. Tuttavia, esistono molti problemi utili in questi settori. Le risposte mancano semplicemente di certezza. Il bello del processo scientifico è che è auto correttivo e che i modelli sono messi in discussione, elaborati e perfezionati. L'alternativa è suggerire che non possiamo indagare scientificamente su questi problemi quando non possiamo progettare esperimenti.
Il secondo problema è un problema tecnico nella natura di ANCOVA e dei modelli di regressione. Gli analisti devono essere chiari su cosa rappresentano questi coefficienti e test. Le correlazioni tra le variabili indipendenti influenzano i coefficienti di regressione e i test ANCOVA. Sono prove di parziali. Questi modelli eliminano la varianza in una determinata variabile indipendente e la variabile dipendente che sono associate a tutte le altre variabili nel modello e quindi esaminano la relazione in quei residui. Di conseguenza, i singoli coefficienti e test sono molto difficili da interpretare al di fuori del contesto di una chiara comprensione concettuale dell'intero insieme di variabili incluse e delle loro interrelazioni. Ciò, tuttavia, non produce problemi di predizione - basta essere cauti nell'interpretazione di test e coefficienti specifici.
Una nota a margine: quest'ultima questione è collegata a un problema discusso in precedenza in questo forum sull'inversione dei segni di regressione - ad esempio, da negativo a positivo - quando altri predittori vengono introdotti in un modello. In presenza di predittori correlati e senza una chiara comprensione delle molteplici e complesse relazioni tra l'intero insieme di predittori, non vi è motivo di ASPETTARE un coefficiente di regressione (per sua natura parziale) per avere un segno particolare. Quando esiste una teoria forte e una chiara comprensione di tali interrelazioni, tali "inversioni" dei segni possono essere illuminanti e teoricamente utili. Tuttavia, data la complessità di molti problemi di scienze sociali, una comprensione sufficiente non sarebbe comune, mi aspetterei.
Disclaimer: sono un sociologo e un analista di politiche pubbliche per formazione.