In che modo la centratura dei dati elimina l'intercettazione in regressione e PCA?


40

Continuo a leggere sui casi in cui centriamo i dati (ad esempio, con regolarizzazione o PCA) al fine di rimuovere l'intercettazione (come indicato in questa domanda ). So che è semplice, ma sto facendo fatica a comprenderlo intuitivamente. Qualcuno potrebbe fornire l'intuizione o un riferimento che posso leggere?


2
Questo è un caso molto speciale di "controllo per altre variabili", come spiegato (in vari modi) su stats.stackexchange.com/questions/17336/… . La "variabile" da controllare è il termine costante (intercetta).
whuber

Risposte:


66

Queste foto possono aiutare?

Le prime 2 immagini riguardano la regressione. Centrare i dati non altera la pendenza della linea di regressione, ma rende l'intercetta uguale a 0.

inserisci qui la descrizione dell'immagine

Le immagini seguenti sono relative al PCA. PCA è un modello regressivo senza intercettazione . Pertanto, i componenti principali arrivano inevitabilmente attraverso l'origine. Se si dimentica di centrare i dati, il primo componente principale potrebbe perforare il cloud non lungo la direzione principale del cloud e sarà (a fini statistici) fuorviante.1

inserisci qui la descrizione dell'immagine


1 APC non è un'analisi di regressione , ovviamente. Tuttavia condivide formalmente la stessa equazione lineare (combinazione lineare) con regressione lineare. L'equazione PCA è come un'equazione di regressione lineare senza intercettazione, poiché la PCA è un'operazione di rotazione.


1
y¯-X¯β

16
PCA is maximizing varianceQuesto non è generalmente vero. PCA massimizza (dal 1 ° PC) le deviazioni della somma dei quadrati dall'origine. Solo se i dati sono stati centrati in via preliminare (il centramento stesso non fa parte del PCA) si traduce in una massimizzazione della varianza.
ttnphns,

3
PS Nota che il calcolo delle covarianze o delle correlazioni implica la centratura
ttnphns,

1
> PS Nota che il calcolo delle covarianze o delle correlazioni implica la centratura. Né cor né covar cambiano valore quando ai dati viene applicata una costante additiva.
TPM,

1
Questo è al contrario. Le costanti additive in effetti non influiscono sulle correlazioni, ma questo perché vengono sottratte nei calcoli, come sottolineato da @ttphns. A parte questo, questa non è una nuova risposta, ma un commento. Comprendiamo che non hai ancora abbastanza reputazione per commentare, quindi, spero, questo sarà spostato da un utente con una reputazione sufficiente dopo che lo contrassegno.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.