C'è una differenza tra "controllare per" e "ignorare" altre variabili nella regressione multipla?


50

Il coefficiente di una variabile esplicativa in una regressione multipla ci dice la relazione di quella variabile esplicativa con la variabile dipendente. Tutto questo, pur "controllando" le altre variabili esplicative.

Come l'ho visto finora:

Durante il calcolo di ciascun coefficiente, le altre variabili non vengono prese in considerazione, quindi le considero ignorate.

Quindi ho ragione quando penso che i termini "controllato" e "ignorato" possano essere usati in modo intercambiabile?


2
Non ero così entusiasta di questa domanda finché non ho visto i due immaginati che tu abbia ispirato @gung a offrire.
DWin

1
Non eri a conoscenza della conversazione che abbiamo avuto altrove che ha motivato questa domanda, @DWin. Era troppo per cercare di spiegarlo in un commento, quindi ho chiesto al PO di renderlo una domanda formale. In realtà penso che evidenziare esplicitamente la distinzione b / t ignorando e controllando altre variabili in regressione sia una grande domanda, e sono contento che sia stato discusso qui.
gung - Ripristina Monica

2
vedi anche il primo diagramma qui
Glen_b

1
I dati utilizzati in questa domanda sono disponibili in modo da poterli eseguire noi stessi come campione educativo.
Larry,

Risposte:


88

Controllare qualcosa e ignorare qualcosa non è la stessa cosa. Consideriamo un universo in cui esistono solo 3 variabili: , e . Vogliamo costruire un modello di regressione che preveda e siamo particolarmente interessati alla sua relazione con . Esistono due possibilità di base. YX1X2YX1

  1. Potremmo valutare la relazione tra e , mentre il controllo per : o,X1YX2
    Y=β0+β1X1+β2X2
  2. potremmo valutare la relazione tra e , mentre ignorando : X1Y X2

    Y=β0+β1X1

Certo, questi sono modelli molto semplici, ma costituiscono modi diversi di guardare il modo in cui il rapporto tra e si manifesta. Spesso, i s potrebbero essere simili in entrambi i modelli, ma possono essere abbastanza diversi. Ciò che è più importante nel determinare quanto sono diverse è la relazione (o la mancanza di essa) tra e . Considera questa figura: X1Yβ^1X1X2

inserisci qui la descrizione dell'immagine

In questo scenario, è correlato a . Poiché la trama è bidimensionale, ignora (forse ironicamente), quindi ho indicato i valori di per ogni punto con simboli e colori distinti (la trama pseudo-3D di seguito fornisce un altro modo per provare a visualizzare la struttura dei dati). Se adattassimo un modello di regressione che ignorava , avremmo la linea di regressione nera fissa. Se adattiamo un modello controllato per , otterremmo un piano di regressione, che è di nuovo difficile da tracciare, quindi ho tracciato tre sezioni attraverso quel piano in cui , eX 2 X 2 X 2 X 2 X 2 X 2 = 1 X 2 = 2 X 2 = 3 X 1 Y X 2 X 2X1X2X2X2 X2X2X2=1X2=2X2=3. Pertanto, abbiamo le linee che mostrano la relazione tra e che rimangono quando controlliamo per . Da notare, vediamo che il controllo per non produce una sola riga, ma un insieme di linee. X1YX2 X2

inserisci qui la descrizione dell'immagine

Un altro modo di pensare alla distinzione tra ignorare e controllare per un'altra variabile è quello di considerare la distinzione tra una distribuzione marginale e una distribuzione condizionale . Considera questa figura:

inserisci qui la descrizione dell'immagine

( Questo è preso dalla mia risposta qui: qual è l'intuizione dietro le distribuzioni gaussiane condizionate? )

Se si guarda alla curva normale disegnato alla sinistra della figura principale, che è il marginale distribuzione di . È la distribuzione di se si ignora il suo rapporto con . All'interno della figura principale, ci sono due curve normali che rappresentano le distribuzioni condizionate di quando e . Le distribuzioni condizionali controllano per il livello di , mentre la distribuzione marginale lo ignora . X X 1 = 25 X 1 = 45 X 1YYXYX1=25X1=45X1


2
Gung, questo è illuminante, sono contento di aver fatto l'errore di usare la parola "ignora" nella mia risposta a quella domanda. Ora proverò a scoprire esattamente come 'controllano' i pacchetti statistici per le altre variabili. (Il mio primo pensiero è che usino una misura come il coefficiente di correlazione di Pearson. Con molte variabili esplicative, le cose diventerebbero confuse però) Grazie per questa risposta!
Siddharth Gopi,

1
Prego, @garciaj, anche se non ho ancora finito ;-). Sto cercando un'altra figura; Potrei doverlo fare da zero.
gung - Ripristina Monica

4
L'idea cruciale nella prima figura è che quei punti si trovano in uno spazio tridimensionale, con i cerchi rossi su un piano piatto sullo schermo del computer, i triangoli blu su un piano parallelo un po 'davanti allo schermo e il verde vantaggi su un aereo un po 'di fronte a quello. Il piano di regressione si inclina verso il basso a destra, ma si inclina verso l'alto mentre si sposta dallo schermo verso di te. Si noti che questo fenomeno si verifica perché X1 e X2 sono correlati, se non fossero correlati, i beta stimati sarebbero gli stessi.
gung - Ripristina Monica

1
E questo tipo di correlazione tra i predittori (ad esempio, lo scenario @gung) è ciò che di solito è alla base di un caso del paradosso di Simpson . In un universo con più di tre variabili, è saggio ricordare che potrebbe essere in agguato le tue inferenze (d'oh!).
FairMiles,

2
@MSIS, quando controlli una variabile in un modello, il modello cerca di mantenerlo costante (fisso) per stimare tutto il resto nel modello. Tuttavia, questo è solo un tentativo e soggetto a errore casuale, quindi non è necessariamente identico a quello che otterresti se eseguissi uno studio con una variabile fisicamente fissata su un dato valore.
gung - Ripristina Monica

8

Essi sono non ignorati. Se fossero "ignorati" non sarebbero nel modello. La stima della variabile esplicativa di interesse è subordinata alle altre variabili. La stima viene formata "nel contesto di" o "consentendo l'impatto di" le altre variabili nel modello.


La stima è ovviamente soggetta ad altre variabili. Ma dobbiamo purificarlo introducendo i cosiddetti altri fattori nel modello. Tuttavia, a volte questi fattori possono essere di natura categorica e causare più problemi che dare una soluzione valida.
Subhash C. Davar,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.