Voglio includere il termine e il suo quadrato (variabili predittive) in una regressione perché presumo che valori bassi di abbiano un effetto positivo sulla variabile dipendente e valori alti abbiano un effetto negativo. La dovrebbe catturare l'effetto dei valori più alti. Mi aspetto quindi che il coefficiente di sarà positivo e il coefficiente di sarà negativo. Oltre a , includo anche altre variabili predittive.
Ho letto in alcuni post qui che è una buona idea centrare le variabili in questo caso per evitare la multicollinearità. Quando si esegue la regressione multipla, quando è necessario centrare le variabili del predittore e quando è necessario standardizzarle?
Dovrei centrare entrambe le variabili separatamente (nella media) o dovrei solo centrare e quindi prendere il quadrato o dovrei solo centrare e includere la originale ?
È un problema se è una variabile di conteggio?
Per evitare che sia una variabile di conteggio, ho pensato di dividerlo per un'area definita teoricamente, ad esempio 5 chilometri quadrati. Questo dovrebbe essere un po 'simile al calcolo della densità in punti.
Tuttavia, temo che in questa situazione la mia ipotesi iniziale sul segno dei coefficienti non reggerebbe più, come quando e
=
ma sarebbe quindi più piccolo perché .