Un modo per testare la casualità di un piccolo componente principale (PC) è quello di trattarlo come un segnale anziché un rumore: cioè, provare a prevedere un'altra variabile di interesse con esso. Questa è essenzialmente la regressione dei componenti principali (PCR) .
R2MSE
- Un modello di ingegneria chimica che utilizza PC 1, 3, 4, 6, 7 e 8 di 9 in totale ( Smith & Campbell, 1980 )
- Un modello monsonico che utilizza PC 8, 2 e 10 (in ordine di importanza) su 10 ( Kung & Sharif, 1980 )
- Un modello economico che utilizza i PC 4 e 5 su 6 (Hill, Fomby e Johnson, 1977)
I PC negli esempi sopra elencati sono numerati in base alle dimensioni classificate degli autovalori. Jolliffe (1982) descrive un modello cloud in cui l'ultimo componente contribuisce maggiormente. Conclude:
Gli esempi precedenti hanno dimostrato che non è necessario trovare dati oscuri o bizzarri affinché gli ultimi componenti principali siano importanti nella regressione dei componenti principali. Piuttosto sembra che tali esempi possano essere piuttosto comuni nella pratica. Hill et al. (1977) forniscono una discussione approfondita e utile delle strategie per la selezione dei componenti principali che avrebbero dovuto seppellire per sempre l'idea della selezione basata esclusivamente sulla dimensione della varianza. Sfortunatamente questo non sembra essere accaduto e l'idea è forse più diffusa ora rispetto a 20 anni fa.
SS
( p - 1 )Y
X
Devo questa risposta a @Scortchi, che ha corretto le mie idee sbagliate sulla selezione del PC nella PCR con alcuni commenti molto utili, tra cui: " Jolliffe (2010) esamina altri modi di selezionare i PC". Questo riferimento può essere un buon posto per cercare ulteriori idee.
Riferimenti
- Gunst, RF, & Mason, RL (1977). Stima distorta nella regressione: una valutazione che utilizza l'errore al quadrato medio. Journal of American Statistical Association, 72 (359), 616–628.
- Hadi, AS e Ling, RF (1998). Alcune note cautelative sull'uso della regressione dei componenti principali. The American Statistician, 52 (1), 15–19. Estratto da http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .
- Hawkins, DM (1973). Sulla ricerca di regressioni alternative mediante analisi delle componenti principali. Statistica applicata, 22 (3), 275–286.
- Hill, RC, Fomby, TB e Johnson, SR (1977). Norme di selezione dei componenti per la regressione dei componenti principali.Communications in Statistics - Theory and Methods, 6 (4), 309–334.
- Hotelling, H. (1957). Le relazioni tra i nuovi metodi statistici multivariati e l'analisi fattoriale. British Journal of Statistical Psychology, 10 (2), 69–79.
- Jackson, E. (1991). Una guida per l'utente ai componenti principali . New York: Wiley.
- Jolliffe, IT (1982). Nota sull'uso dei componenti principali nella regressione. Statistica applicata, 31 (3), 300–303. Estratto da http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
- Jolliffe, IT (2010).Analisi delle componenti principali (2a edizione). Springer.
- Kung, EC e Sharif, TA (1980). Previsione di regressione dell'inizio del monsone estivo indiano con condizioni aeree superiori antecedenti. Journal of Applied Meteorology, 19 (4), 370–380. Estratto da http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .
- Lott, WF (1973). L'insieme ottimale delle restrizioni dei componenti principali su una regressione dei minimi quadrati. Communications in Statistics - Theory and Methods, 2 (5), 449–464.
- Mason, RL e Gunst, RF (1985). Selezione dei componenti principali in regressione. Lettere statistiche e probabilità, 3 (6), 299–301.
- Massy, WF (1965). Regressione delle componenti principali nella ricerca statistica esplorativa. Journal of American Statistical Association, 60 (309), 234–256. Estratto da http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .
- Smith, G. e Campbell, F. (1980). Una critica di alcuni metodi di regressione della cresta. Journal of American Statistical Association, 75 (369), 74–81. Estratto da https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .