Perché sopprimere l'intercettazione nella regressione lineare?


20

In una serie di pacchetti statistici tra cui SAS, SPSS e forse altro, esiste un'opzione per "sopprimere l'intercettazione". Perché vorresti farlo?

Risposte:


16

Se per qualche motivo conosci l'intercettazione (in particolare se è zero), puoi evitare di sprecare la varianza nei tuoi dati per stimare qualcosa che già conosci e avere più fiducia nei valori che devi stimare.

Un esempio un po 'troppo semplificato è se sai già (dalla conoscenza del dominio) che una variabile è (in media) un multiplo di un'altra e stai provando a trovarla.


Non lo capisco del tutto, ma in un modello che sto creando in R, ho qualcosa come lm (a ~ b / c - 1) che crea interazioni tra b e c e sopprimendo l'intercettazione ("- 1" in R), ottengo risposte più facilmente interpretabili che sono essenzialmente le stesse di se non sopprimo l'intercettazione. In qualche modo, l'interazione lo rende possibile.
Wayne,

Risposte più facilmente interpretabili che sono essenzialmente le stesse? Sembra una contraddizione. Forse dovresti presentarlo come una nuova domanda?
Nick Sabbe,

Se guardo i coefficienti, con l'intercetta c'è un (intercetta) e un riscaldatore di temperatura (una delle mie variabili è la temperatura che può essere più calda o più fredda ). Per interpretare i coefficienti, devo sapere che (intercettare) corrisponde direttamente a tempcooler e tempwarmer + (intercetta) è il tempwarmer direttamente interpretabile . Se sopprimo l'intercettazione, vedo direttamente tempcooler e tempwarmer . Forse una stranezza delle formule di R e della modellazione lineare, ma ...
Wayne

12

Considera il caso di una covariata categoriale a 3 livelli. Se uno ha un'intercettazione, ciò richiederebbe 2 variabili indicatore. Usando la solita codifica per variabili indicatore, il coefficiente per ciascuna variabile indicatore è la differenza media rispetto al gruppo di riferimento. Sopprimendo l'intercettazione, si otterrebbero 3 variabili che rappresentano la covariata categorica, anziché solo 2. Un coefficiente è quindi la stima media per quel gruppo. Un esempio più concreto di dove farlo è nella scienza politica in cui si potrebbe studiare i 50 stati degli Stati Uniti. Invece di avere un'intercetta e 49 variabili dell'indicatore per gli stati, è spesso preferibile sopprimere l'intercetta e invece avere 50 variabili.


In questo modo è molto più facile interpretare il coefficiente
probabilità è

1
Sì, ma si rompe con due o più variabili categoriali!
kjetil b halvorsen,

2

Per illustrare il punto di @Nick Sabbe con un esempio specifico.

Una volta ho visto un ricercatore presentare un modello dell'età di un albero in funzione della sua larghezza. Si può presumere che quando l'albero ha zero anni, ha effettivamente una larghezza pari a zero. Pertanto, non è richiesta un'intercettazione.


8
La saggezza o la mancanza di ciò dipende dalla gamma della variabile dipendente di interesse. Considera i dati di frenata dell'auto in cui hai velocità e distanze di arresto. È possibile adattare un modello quadratico con o senza intercetta. Le velocità di interesse di solito iniziano intorno ai 50 km / ora e salgono, per esempio, a 130 km / ora. Montare un quadratico con intercetta in questo caso ha più senso, penso, poiché forzare l'intercetta a zero può comportare problemi (praticamente) di mancanza di adattamento. Il fatto che la "distanza di frenata" di un'auto ferma sia zero non è particolarmente rilevante per il problema di modellazione a portata di mano.
cardinale

@ cardinale sì, mi chiedevo se avrei dovuto fare un punto simile. Ho riscontrato in alcuni contesti di modellazione della regressione non lineare che esiste un maggiore interesse nell'avere un modello che fornisce un modello teoricamente plausibile che prevede accuratamente al di fuori dell'intervallo dei dati (ad esempio, nella velocità dei dati della curva di apprendimento, i modelli non dovrebbero prevedere velocità inferiori a 0 secondi ). In tali casi, limitare l'intercettazione a zero può essere più appropriato anche se si traduce in una riduzione della previsione per i dati.
Jeromy Anglim,

@cardinal Sono d'accordo che i modelli polinomiali raramente prevedono plausibilmente al di fuori dell'intervallo dei dati, e quindi limitare l'intercettazione a 0 in tali modelli è raramente una buona idea.
Jeromy Anglim,

Grazie per i tuoi commenti La mia osservazione non era tanto rivolta ai modelli polinomiali. La scelta di un quadratico era semplicemente basata su una reale motivazione fisica (cioè la meccanica classica). Il punto che stavo cercando di articolare era che si dovrebbe considerare attentamente il problema della modellazione di interesse; a volte fare qualcosa che è (o sembra) "teoricamente ingiustificato" è in realtà statisticamente più appropriato.
cardinale
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.