Come includere


9

Voglio includere il termine x e il suo quadrato x2 (variabili predittive) in una regressione perché presumo che valori bassi di x abbiano un effetto positivo sulla variabile dipendente e valori alti abbiano un effetto negativo. La x2 dovrebbe catturare l'effetto dei valori più alti. Mi aspetto quindi che il coefficiente di x sarà positivo e il coefficiente di x2 sarà negativo. Oltre a x , includo anche altre variabili predittive.

Ho letto in alcuni post qui che è una buona idea centrare le variabili in questo caso per evitare la multicollinearità. Quando si esegue la regressione multipla, quando è necessario centrare le variabili del predittore e quando è necessario standardizzarle?

  1. Dovrei centrare entrambe le variabili separatamente (nella media) o dovrei solo centrare x e quindi prendere il quadrato o dovrei solo centrare x2 e includere la originale x?

  2. È un problema se x è una variabile di conteggio?

Per evitare che x sia una variabile di conteggio, ho pensato di dividerlo per un'area definita teoricamente, ad esempio 5 chilometri quadrati. Questo dovrebbe essere un po 'simile al calcolo della densità in punti.

Tuttavia, temo che in questa situazione la mia ipotesi iniziale sul segno dei coefficienti non reggerebbe più, come quando x=2 ex²=4

x=2/5 km2 = 0.4 km2

ma x2 sarebbe quindi più piccolo perché x2=(2/5)2=0.16 .


1
Il tuo software di regressione si occuperà automaticamente dei problemi numerici - in particolare, è molto probabile che centri e standardizzi i tuoi dati internamente. Il modo in cui rispondere alle domande sul centraggio dipende da come si desidera interpretare i coefficienti.
whuber

Risposte:


4

La tua domanda è in realtà composta da diverse sotto-domande, che cercherò di affrontare al meglio della mia comprensione.

  • Come distinguere la dipendenza di valori bassi e alti da una regressione?

Considerare e è un modo per farlo, ma sei sicuro che il tuo test sia conclusivo? Sarai in grado di concludere qualcosa di utile per tutti i possibili esiti della regressione? Penso che porre la domanda chiaramente in anticipo possa aiutare, e anche porre domande simili e correlate può aiutare. Ad esempio, puoi considerare una soglia di per la quale le pendenze di regressione sono diverse. Questo può essere fatto usando le variabili del moderatore . Se le diverse pendenze (pur imponendo la stessa intercetta) sono compatibili, allora non hai alcuna differenza, altrimenti ti sei fornito un argomento chiaro per la loro differenza.xx2x

  • Quando dovresti centrare e standardizzare?

Penso che questa domanda non debba essere mescolata con la prima domanda e test, e temo che centrare prima o potrebbe pregiudicare i risultati. Consiglierei di non centrare, almeno in una prima fase. Ricorda che probabilmente non morirai di multicollinearità, molti autori sostengono che equivale a lavorare con una dimensione del campione più piccola ( qui e qui ).xx2

  • La trasformazione della variabile di conteggio discreta in una variabile (continua) in virgola mobile modifica l'interpretazione dei risultati?

Sì, ma questo dipenderà fortemente dai primi 2 punti, quindi ti suggerirei di affrontare una cosa alla volta. Non vedo alcun motivo per cui la regressione non funzionerebbe senza questa trasformazione, quindi ti consiglio di ignorarla per ora. Nota anche che dividendo per un elemento comune stai cambiando la scala alla quale , ma ci sono modi completamente diversi di vederlo, come ho scritto sopra, in cui questa soglia è considerata in modo più esplicito.x2=x


Grazie mille per la tua risposta, soprattutto per i link !!!
Peter,

È stato un piacere aiutare. =)
pedrofigueira,

4

In generale, la centratura potrebbe aiutare a ridurre la multicollinearità, ma "probabilmente non morirai di multicollinearità" (vedi la risposta di predrofigueira).

Molto importante, spesso è necessario centrare per rendere significativa l'intercettazione. Nel modello semplice , l'intercettazione è definita come il risultato atteso per . Se un valore pari a zero non è significativo, né l'itercept lo è. È spesso utile centrare la variabile attorno alla sua media; in questo caso, il predittore ha la forma e l'intercetta è il risultato atteso per un soggetto il cui valore su è uguale alla media .yi=α+βxi+εx=0xx(xix¯)αxix¯

In tali casi, è necessario centrare e quindi quadrato. Non è possibile centro e a parte, perché si sta regredendo il risultato in una variabile "nuovo", , quindi è necessario quadrare questa nuova variabile. Cosa potrebbe significare centrare ?xxx2(xix¯)x2

Puoi centrare una variabile di conteggio, se la sua media è significativa , ma puoi semplicemente ridimensionarla . Ad esempio, se e "2" potrebbero essere una linea di base, è possibile sottrarre 2: . L'intercettazione diventa il risultato atteso per un soggetto il cui valore su è uguale a "2", un valore di riferimento.x=1,2,3,4,5(xi2)=1,0,1,2,3xi

Per quanto riguarda la divisione, nessun problema: i tuoi coefficienti stimati sarebbero più grandi! Gelman e Hill , §4.1, forniscono un esempio:

earnings=61000+1300height (in inches)+errorearnings=61000+51height (in millimeters)+errorearnings=61000+81000000height (in miles)+error

Un pollice è millimetri, quindi è . Un pollice emiles, quindi è . Ma queste tre equazioni sono del tutto equivalenti.25.4511300/25.41.6e5810000001300/1.6e5



Grazie per la tua risposta Sergio. Mi ha davvero aiutato. Sfortunatamente posso solo contrassegnare una risposta come mia risposta accettata.
Peter,

Prego. E non preoccuparti ;-)
Sergio,

1

Presumo che valori bassi di x abbiano un effetto positivo sulla variabile dipendente e valori alti abbiano un effetto negativo.

Mentre apprezzo il trattamento degli altri sul centraggio e l'interpretazione dei coefficienti, quello che hai descritto qui è semplicemente un effetto lineare. In altre parole, ciò che hai descritto non indica alcuna necessità di testare il quadrato di x .


A mio avviso, se , l'effetto (parziale) di su (o, meglio, su ) è . Tali effetti sono costanti, non dipendono dal livello di . Se il modello è , l'effetto parziale di è e dipende dal livello di . Ciò può accadere anche in altri modelli, ad esempio nei modelli di spline lineari, ma non in un modello lineare semplice (1 ° grado). Ho sbagliato? y=β0+β1x1+β2x2+εxiyE[yx]E[yx]/xi=βi xiy=β0+β1x1+β2x2+β3x22+εx2β2+2β3x2x2
Sergio,

@ rolando2: non sono sicuro che si parli della cosa samte. Se includo solo la variabile predittore normale otterrò un coefficiente stimato per quel predittore che è positivo o negativo. Sulla base del coefficiente posso dire che aggiungendo un'unità a x, y aumenterà o diminuirà di un certo importo. Ma non riesco a scoprire in questo modo se i piccoli valori in realtà portano ad un aumento di y, mentre valori più alti (da un certo punto sconosciuto in poi) portano ad una diminuzione di y.
Peter,

@Peter - Capisco e ti suggerisco di modificare la frase "Assumo" della tua domanda per leggere: "Suppongo che, in alcune regioni di x, valori più alti di x abbiano un effetto positivo sulla variabile dipendente, mentre in alcune altre regioni, valori più alti hanno un effetto negativo ".
rolando2,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.