Quando e come utilizzare variabili esplicative standardizzate nella regressione lineare


37

Ho 2 semplici domande sulla regressione lineare:

  1. Quando si consiglia di standardizzare le variabili esplicative?
  2. Una volta effettuata la stima con valori standardizzati, come si può prevedere con nuovi valori (come si dovrebbero standardizzare i nuovi valori)?

Alcuni riferimenti sarebbero utili.


3
Se il tuo software è ben scritto, si standardizza automaticamente internamente per evitare problemi di precisione numerica. Non dovresti fare nulla di speciale.
whuber

1
Nota che il seguente thread è correlato e sarà di interesse: quando dovresti centrare i tuoi dati e quando dovresti standardizzare? .
gung - Ripristina Monica

Risposte:


26

Sebbene la terminologia sia un argomento controverso, preferisco chiamare variabili "esplicative", variabili "predittive".

Quando standardizzare i predittori:

  • Un sacco di software per eseguire la regressione lineare multipla fornirà coefficienti standardizzati equivalenti a coefficienti non standardizzati in cui standardizzi manualmente i predittori e la variabile di risposta (ovviamente, sembra che tu stia parlando solo di predittori standardizzati).
  • La mia opinione è che la standardizzazione sia uno strumento utile per rendere più significative le equazioni di regressione. Ciò è particolarmente vero nei casi in cui la metrica della variabile manca di significato per la persona che interpreta l'equazione di regressione (ad esempio, una scala psicologica su una metrica arbitraria). Può anche essere usato per facilitare la comparabilità dell'importanza relativa delle variabili predittive (sebbene esistano altri approcci più sofisticati per valutare l'importanza relativa; vedere il mio post per una discussione ). Nei casi in cui la metrica ha un significato per la persona che interpreta l'equazione di regressione, i coefficienti non standardizzati sono spesso più informativi.
  • Penso anche che basarsi su variabili standardizzate potrebbe distogliere l'attenzione dal fatto che non abbiamo pensato a come rendere la metrica di una variabile più significativa per il lettore.

  • Andrew Gelman ha molto da dire sull'argomento. Vedi la sua pagina sulla standardizzazione ad esempio e Gelman (2008, Stats Med, PDF GRATUITO) in particolare.

Previsione basata sulla standardizzazione:

  • Non userei coefficienti di regressione standardizzati per la previsione.
  • È sempre possibile convertire coefficienti standardizzati in coefficienti non standardizzati se si conosce la deviazione media e standard della variabile predittore nel campione originale.

3
+1, ma perché non utilizzare coefficienti di regressione non standardizzati per la previsione?
Onestop,

1
(+1) Per quanto riguarda la valutazione dell'importanza variabile, penso che il pacchetto relaimpo R faccia un buon lavoro (ma vedi Iniziare con un approccio moderno alla regressione ). C'era anche un bel documento di David V. Budescu sull'analisi del dominio (disponibile gratuitamente su richiesta).
chl

@onestep oops. errore di battitura. Adesso è cambiato.
Jeromy Anglim,

1
@Jeromy, potresti approfondire il motivo per cui non dovresti utilizzare coefficienti di regressione standardizzati per la previsione?
Michael Bishop,

3
@MichaelBishop Sto pensando a contesti in cui prendi il tuo modello di regressione e lo applichi per prevedere dati di esempio. In generale, si desiderano previsioni non standardizzate. Inoltre, le medie e le deviazioni standard possono cambiare tra i campioni; l'uso di predittori non standardizzati dovrebbe quindi dare risultati più significativi.
Jeromy Anglim,

-4

Consentitemi di rispondere con un impasto a risposta breve che potrebbe sovrapporsi alla risposta eccellente scritta prima.

  1. Standarize sempre, che ti permette di interpretare meglio la regressione, specialmente i coefficienti della regressione.

  2. Per i nuovi dati che non sono standardizzati, vi consiglio di archiviare i valori utilizzati per ciascuna variabile da standardizzare, come il massimo e il minimo, e quindi fare la stessa trasformazione che avete fatto nel set di dati del foro prima, ma solo per questo singola istanza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.