Cosa succede quando includo una variabile quadrata nella mia regressione?


20

con la mia regressione OLS: dove D è una variabile fittizia, le stime diventano diverse da zero con un valore p basso. Quindi eseguo un test di RESET Ramsey e scopro di avere un po 'di errori nell'equazione, quindi includo un quadrato x: y = β 0 + β 1 x 1 + β 2 x 2 1 + β 3 D + ε

y=β0+β1X1+β2D+ε
y=β0+β1X1+β2X12+β3D+ε
  1. Cosa spiega il termine quadrato? (Aumento non lineare di Y?)
  2. In questo modo la mia stima D non varia più da zero, con un alto valore p. Come interpreto il termine quadrato nella mia equazione (in generale)?

Modifica: miglioramento della domanda.



1
Probabile ragione: X12 e D sembrano spiegare la stessa variabilità in y
steadyfish

3
Una cosa che potrebbe aiutare è centrare prima di creare il termine quadrato (vedi qui ). Per quanto riguarda l'interpretazione del termine al quadrato, sostengo che è meglio interpretare β 1 x 1 + β 2 x 2 1 nel suo insieme (vedi qui ). Un'altra cosa è che potrebbe essere necessario un'interazione, che significa aggiungere β 4 x 1 D + β 5 x 2 1 D . X β1X1+β2X12 β4X1D+β5X12D
gung - Ripristina Monica

Non penso sia davvero un duplicato di quella domanda; la soluzione è diversa (le variabili di centraggio funzionano qui, ma non lì, a meno che non mi sbagli)
Peter Flom - Ripristina Monica

@Peter, interpreto questa domanda come un sottoinsieme di "Perché quando aggiungo una variabile al mio modello, la stima dell'effetto / -value per alcune altre variabili cambia?", Che viene affrontata nell'altra domanda. Tra le risposte a queste domande ci sono la collinearità (a cui gung allude nella sua risposta a quella domanda) / il contenuto si sovrappone tra i predittori (cioè tra D e ( x 1 , x 2 1 ) , che sospetto sia il colpevole in questo caso) . La stessa logica si applica qui. Non sono sicuro di quale sia la controversia, ma va bene se tu e gli altri non siete d'accordo. Saluti. pD(X1,X12)
Macro

Risposte:


21

Bene, prima di tutto, la variabile fittizia viene interpretata come un cambiamento nell'intercetta. Cioè, il tuo coefficiente ti dà la differenza nell'intercetta quando D = 1 , cioè quando D = 1 , l'intercetta è β 0 + β 3 . Questa interpretazione non cambia quando si aggiunge il quadrato x 1 .β3D=1D=1β0+β3X1

Ora, il punto di aggiungere un quadrato alla serie è che supponi che la relazione svanisca a un certo punto. Guardando la tua seconda equazione

y=β0+β1X1+β2X12+β3D+ε

X1

δyδX1=β1+2β2X1

β1<0

y^=1.3+0.42X1-0,32X12+0.14D

X1

δyδX1=0.42-2*0,32X1

X1

δyδX1=0X10.66

Questo è il punto in cui la relazione ha il suo punto di svolta. Puoi dare un'occhiata all'output di Wolfram-Alpha per la funzione sopra, per una certa visualizzazione del tuo problema.

X1y

Δy=(β1+2β2X1)ΔX

β1X12

DX1


Ciao. Se avessi diversi predittori dovresti usare derivati ​​parziali o derivati ​​totali (diferenziali)?
skan

1
Un derivato parziale è ancora la strada giusta per andare qui. L'interpretazione di tutti i coefficienti è il ceteris paribus , cioè che mantiene costante tutto il resto. Questo è esattamente quello che stai facendo quando prendi un derivato parziale.
altabq,

Vedi questa pagina IDRE UCLA per completare la grande risposta di @ altabq.
Cyrille,

19

Un buon esempio di inclusione di quadrati di variabili viene dall'economia del lavoro. Se si assume ycome salario (o registro del salario) e xcome un'età, allora includere x^2significa che si sta testando la relazione quadratica tra un'età e un guadagno salariale. Il salario aumenta con l'età man mano che le persone diventano più esperte, ma all'età più alta, il salario inizia ad aumentare a un ritmo decrescente (le persone invecchiano e non saranno così in salute per lavorare come prima) e ad un certo punto il salario non cresce ( raggiunge il livello salariale ottimale) e poi inizia a scendere (si ritirano e i loro guadagni iniziano a diminuire). Quindi, la relazione tra salario ed età è invertita a forma di U (effetto del ciclo di vita). In generale, per l'esempio menzionato qui, agesi prevede che il coefficiente on sia positivo e che onage^2essere negativo. Il punto qui è che ci dovrebbe essere una base teorica / giustificazione empirica per includere il quadrato della variabile. La variabile fittizia, qui, può essere considerata come rappresentativa del genere del lavoratore. Puoi anche includere il termine di interazione di genere ed età per esaminare se il differenziale di genere varia in base all'età.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.