In Metodi statistici nelle scienze atmosferiche , Daniel Wilks osserva che la regressione lineare multipla può portare a problemi se ci sono intercorrelazioni molto forti tra i predittori (3a edizione, pagina 559-560):
Una patologia che può verificarsi in una regressione lineare multipla è che un insieme di variabili predittive con forti correlazioni reciproche può determinare il calcolo di una relazione di regressione instabile.
(...)
Quindi introduce la regressione del componente principale:
Un approccio per porre rimedio a questo problema è innanzitutto trasformare i predittori nei loro componenti principali, le cui correlazioni sono zero.
Fin qui tutto bene. Ma poi, fa alcune affermazioni che non spiega (o almeno non con dettagli sufficienti per farmi capire):
Se tutti i componenti principali vengono mantenuti in una regressione del componente principale, allora non si ottiene nulla sui minimi quadrati convenzionali adatti al set completo di predittore.
(..) e:
È possibile riesprimere la regressione del componente principale in termini di predittori originali, ma il risultato in generale coinvolgerà tutte le variabili predittive originali anche se sono stati utilizzati solo uno o alcuni predittori del componente principale. Questa regressione ricostituita sarà distorta, sebbene spesso la varianza sia molto più piccola, con un conseguente MSE complessivo più piccolo.
Non capisco questi due punti.
Naturalmente, se tutti i componenti principali vengono mantenuti, utilizziamo le stesse informazioni di quando stavamo usando i predittori nel loro spazio originale. Tuttavia, il problema delle correlazioni reciproche viene rimosso lavorando nello spazio dei componenti principali. Potremmo avere ancora un overfitting, ma è l'unico problema? Perché non si guadagna nulla?
In secondo luogo, anche se tronciamo i componenti principali (forse per la riduzione del rumore e / o per evitare un eccesso di adattamento), perché e come questo porta a una regressione parziale ricostituita? Di parte in che modo?
Fonte del libro: Daniel S. Wilks, Statistical Methods in Atmospher Sciences, Terza edizione, 2011. International Geophysics Series Volume 100, Academic Press.