Perché Daniel Wilks (2011) afferma che la regressione della componente principale "sarà di parte"?


13

In Metodi statistici nelle scienze atmosferiche , Daniel Wilks osserva che la regressione lineare multipla può portare a problemi se ci sono intercorrelazioni molto forti tra i predittori (3a edizione, pagina 559-560):

Una patologia che può verificarsi in una regressione lineare multipla è che un insieme di variabili predittive con forti correlazioni reciproche può determinare il calcolo di una relazione di regressione instabile.

(...)

Quindi introduce la regressione del componente principale:

Un approccio per porre rimedio a questo problema è innanzitutto trasformare i predittori nei loro componenti principali, le cui correlazioni sono zero.

Fin qui tutto bene. Ma poi, fa alcune affermazioni che non spiega (o almeno non con dettagli sufficienti per farmi capire):

Se tutti i componenti principali vengono mantenuti in una regressione del componente principale, allora non si ottiene nulla sui minimi quadrati convenzionali adatti al set completo di predittore.

(..) e:

È possibile riesprimere la regressione del componente principale in termini di predittori originali, ma il risultato in generale coinvolgerà tutte le variabili predittive originali anche se sono stati utilizzati solo uno o alcuni predittori del componente principale. Questa regressione ricostituita sarà distorta, sebbene spesso la varianza sia molto più piccola, con un conseguente MSE complessivo più piccolo.

Non capisco questi due punti.

Naturalmente, se tutti i componenti principali vengono mantenuti, utilizziamo le stesse informazioni di quando stavamo usando i predittori nel loro spazio originale. Tuttavia, il problema delle correlazioni reciproche viene rimosso lavorando nello spazio dei componenti principali. Potremmo avere ancora un overfitting, ma è l'unico problema? Perché non si guadagna nulla?

In secondo luogo, anche se tronciamo i componenti principali (forse per la riduzione del rumore e / o per evitare un eccesso di adattamento), perché e come questo porta a una regressione parziale ricostituita? Di parte in che modo?


Fonte del libro: Daniel S. Wilks, Statistical Methods in Atmospher Sciences, Terza edizione, 2011. International Geophysics Series Volume 100, Academic Press.


4
(+1) Nella seconda citazione, "sarà di parte" non segue logicamente: meglio sarebbe un'affermazione più mite come "probabilmente essere di parte". Sospetto che il ragionamento alla base possa essere qualcosa del tipo "poiché la PCR impone relazioni lineari tra le stime dei parametri, tali stime tenderanno a differire dalle stime OLS; e poiché le stime OLS sono imparziali, ciò significa che le stime PCR saranno distorte". Intuitivamente è una buona euristica ma non è del tutto corretta.
whuber

si potrebbe dire che "la PCR sarà distorta" se (a) i punti di dati non occupano una varietà lineare inferiore o uguale rispetto al numero scelto di PC e (b) i punti di dati non sono perfettamente non correlati? o come?
Soren Havelund Welling,

Risposte:


15

Cosa succede quando vengono utilizzati tutti i PC?

Se vengono utilizzati tutti i PC, i coefficienti di regressione risultanti saranno identici a quelli ottenuti con la regressione OLS e quindi questa procedura non dovrebbe essere chiamata "regressione del componente principale". È una regressione standard, eseguita solo in modo circolare.

ZZXXio

Quindi non si ottiene nulla.

Cosa succede quando vengono utilizzati solo pochi PC?

β^PCRβ^OLSβ^

Questo è un esempio del compromesso di bias varianza . Vedi Perché funziona il restringimento? per qualche ulteriore discussione generale.

yyy

Perché usare PC ad alta varianza è una buona idea?

Questo non faceva parte della domanda, ma potresti essere interessato al seguente thread per ulteriori letture: in che modo i componenti principali principali possono conservare il potere predittivo su una variabile dipendente (o persino portare a previsioni migliori)?


YY

@whuber, Anzi. Ho riscritto quel paragrafo, spero che ora abbia più senso. Grazie.
ameba dice Reinstate Monica il

Hmm, giusto. Sostanzialmente significa che alcuni punti sono più uguali di altri, il che è esattamente ciò che vogliamo se vogliamo ridurre l'influenza del rumore e dei valori anomali (di cui non sono ancora sicuro se il PCA sia lo strumento migliore per).
Gerrit,

@gerrit Scrivi come se la distorsione equivale a ponderare, ma sono cose separate. La distorsione in questo contesto si riferisce a qualsiasi differenza tra i valori previsti delle stime dei coefficienti e i loro valori reali.
whuber

1
Il modello suppone che le risposte siano variabili casuali. Questo rende i coefficienti stimati - usando qualsiasi procedura - anche variabili casuali. I loro valori attesi sono definiti come per qualsiasi variabile casuale. Per definizione, la distorsione è la differenza tra il valore atteso e il valore reale. Le stime del coefficiente OLS hanno distorsioni pari a zero. Il pregiudizio di qualche altra procedura potrebbe ancora essere zero. La logica della citazione è che una procedura che è lineare, come OLS, ma che impone relazioni tra i coefficienti, sarà necessariamente distorta. Questa conclusione è vera in molti casi, ma non in tutti.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.