Configurazione di base:
modello di regressione: dove C è il vettore delle variabili di controllo.
Sono interessato a e mi aspetto che e siano negativi. Tuttavia, esiste un problema di multicollinearità nel modello, il coefficiente di correlazione è dato da, corr ( , 0.9345, corr ( , 0.1765, corr ( , 0.3019.β 1 β 2 x 1 x 2 ) = x 1 x 3 ) = x 2 x 3 ) =
Quindi e sono altamente correlati e dovrebbero praticamente fornire le stesse informazioni. Corro tre regressioni: x 2
- escludi variabile; 2. escludi la variabile ; 3. modello originale con e .x 2 x 1 x 2
Risultati:
per la regressione 1 e 2, fornisce il segno atteso rispettivamente per e e con magnitudo simile. E e sono significativi nel livello del 10% in entrambi i modelli dopo aver eseguito la correzione HAC in errore standard. è positivo ma non significativo in entrambi i modelli.
Ma per 3, ha il segno atteso, ma il segno per è positivo con la grandezza due volte maggiore di in valore assoluto. E sia che sono insignificanti. Inoltre, la grandezza di riduce quasi della metà rispetto alla regressione 1 e 2.
La mia domanda è:
Perché in 3, il segno di diventa positivo e molto maggiore di in valore assoluto? C'è qualche motivo statistico che può capovolgere il segno e ha una grande magnitudine? O è perché i modelli 1 e 2 subiscono un problema variabile omesso che gonfia purché abbia un effetto positivo su y? Ma poi nei modelli di regressione 1 e 2, sia che dovrebbero essere positivi anziché negativi, poiché l'effetto totale di e nel modello di regressione 3 è positivo.