Componenti a bassa varianza in PCA, sono davvero solo rumore? C'è un modo per testarlo?

18

Sto cercando di decidere se conservare o meno un componente di un PCA. Esistono molti milioni di criteri basati sulla grandezza dell'autovalore, descritti e confrontati, ad esempio qui o qui .

Tuttavia, nella mia applicazione so che il piccolo (est) autovalore sarà piccolo rispetto al grande (st) autovalore e i criteri basati sulla grandezza respingerebbero tutti il piccolo (est). Questo non è quello che voglio. Quello che mi interessa: esiste un metodo noto che tenga conto dell'effettivo componente corrispondente del piccolo autovalore, nel senso: è davvero "solo" il rumore come implicito in tutti i libri di testo o c'è "qualcosa" di potenziale? interesse rimasto? Se è veramente rumore, rimuovilo, altrimenti tienilo, indipendentemente dalla grandezza dell'autovalore.

Esiste una sorta di casualità stabilita o test di distribuzione per componenti in PCA che non riesco a trovare? O qualcuno sa di una ragione per cui questa sarebbe un'idea sciocca?

Aggiornare

Istogrammi (verde) e approssimazioni normali (blu) dei componenti in due casi d'uso: una volta probabilmente rumore reale, una volta probabilmente non "solo" rumore (sì, i valori sono piccoli, ma probabilmente non casuali). Il valore singolare più grande è ~ 160 in entrambi i casi, il più piccolo, ovvero questo valore singolare, è 0,0xx - troppo piccolo per uno qualsiasi dei metodi di cut-off.

Quello che sto cercando è un modo per formalizzare questo ...

probabilmente davvero "solo" rumore probabilmente non rumore ma può contenere bit interessanti

pca

— Daniel
fonte

2

Molti dei test a cui ti riferisci hanno esattamente la proprietà richiesta: tentano di distinguere "rumore" da "segnale".

— whuber

2

Di recente mi sono interessato a una domanda simile, ma a una situazione specifica in cui si hanno più misurazioni per ciascun punto dati. Vedere Scelta del numero di componenti PCA quando sono disponibili più campioni per ciascun punto dati . Forse si applica anche al tuo caso?

— ameba dice di reintegrare Monica il

Usare test distributivi su PC per decidere i loro suoni di casualità come un'idea molto interessante (che non ho mai visto applicata); qualcosa di simile viene fatto in ICA, che cerca specificamente componenti non gaussiani. Fare PCA e quindi scartare componenti "troppo gaussiani" ha un sapore ICA e potrebbe effettivamente funzionare!

— ameba dice di reintegrare Monica il

20

Un modo per testare la casualità di un piccolo componente principale (PC) è quello di trattarlo come un segnale anziché un rumore: cioè, provare a prevedere un'altra variabile di interesse con esso. Questa è essenzialmente la regressione dei componenti principali (PCR) .

$R^2$ $MSE$

Un modello di ingegneria chimica che utilizza PC 1, 3, 4, 6, 7 e 8 di 9 in totale ^{( Smith & Campbell, 1980 )}
Un modello monsonico che utilizza PC 8, 2 e 10 (in ordine di importanza) su 10 ^{( Kung & Sharif, 1980 )}
Un modello economico che utilizza i PC 4 e 5 su 6 ^{(Hill, Fomby e Johnson, 1977)}

I PC negli esempi sopra elencati sono numerati in base alle dimensioni classificate degli autovalori. Jolliffe (1982) descrive un modello cloud in cui l'ultimo componente contribuisce maggiormente. Conclude:

Gli esempi precedenti hanno dimostrato che non è necessario trovare dati oscuri o bizzarri affinché gli ultimi componenti principali siano importanti nella regressione dei componenti principali. Piuttosto sembra che tali esempi possano essere piuttosto comuni nella pratica. Hill et al. (1977) forniscono una discussione approfondita e utile delle strategie per la selezione dei componenti principali che avrebbero dovuto seppellire per sempre l'idea della selezione basata esclusivamente sulla dimensione della varianza. Sfortunatamente questo non sembra essere accaduto e l'idea è forse più diffusa ora rispetto a 20 anni fa.

$SS$

$(p-1)$ $\text{Y}$

$\text{X}$

Devo questa risposta a @Scortchi, che ha corretto le mie idee sbagliate sulla selezione del PC nella PCR con alcuni commenti molto utili, tra cui: " Jolliffe (2010) esamina altri modi di selezionare i PC". Questo riferimento può essere un buon posto per cercare ulteriori idee.

Riferimenti

^{- Gunst, RF, & Mason, RL (1977). Stima distorta nella regressione: una valutazione che utilizza l'errore al quadrato medio. Journal of American Statistical Association, 72 (359), 616–628.

- Hadi, AS e Ling, RF (1998). Alcune note cautelative sull'uso della regressione dei componenti principali. The American Statistician, 52 (1), 15–19. Estratto da http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .

- Hawkins, DM (1973). Sulla ricerca di regressioni alternative mediante analisi delle componenti principali. Statistica applicata, 22 (3), 275–286.

- Hill, RC, Fomby, TB e Johnson, SR (1977). Norme di selezione dei componenti per la regressione dei componenti principali.Communications in Statistics - Theory and Methods, 6 (4), 309–334.

- Hotelling, H. (1957). Le relazioni tra i nuovi metodi statistici multivariati e l'analisi fattoriale. British Journal of Statistical Psychology, 10 (2), 69–79.

- Jackson, E. (1991). Una guida per l'utente ai componenti principali . New York: Wiley.

- Jolliffe, IT (1982). Nota sull'uso dei componenti principali nella regressione. Statistica applicata, 31 (3), 300–303. Estratto da http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .

- Jolliffe, IT (2010).Analisi delle componenti principali (2a edizione). Springer.

- Kung, EC e Sharif, TA (1980). Previsione di regressione dell'inizio del monsone estivo indiano con condizioni aeree superiori antecedenti. Journal of Applied Meteorology, 19 (4), 370–380. Estratto da http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .

- Lott, WF (1973). L'insieme ottimale delle restrizioni dei componenti principali su una regressione dei minimi quadrati. Communications in Statistics - Theory and Methods, 2 (5), 449–464.

- Mason, RL e Gunst, RF (1985). Selezione dei componenti principali in regressione. Lettere statistiche e probabilità, 3 (6), 299–301.

- Massy, WF (1965). Regressione delle componenti principali nella ricerca statistica esplorativa. Journal of American Statistical Association, 60 (309), 234–256. Estratto da http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .

- Smith, G. e Campbell, F. (1980). Una critica di alcuni metodi di regressione della cresta. Journal of American Statistical Association, 75 (369), 74–81. Estratto da https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .}

— Nick Stauner
fonte

4

... e non vi è alcuna garanzia che l'effetto necessario per risolvere il problema sia maggiore di altri effetti che sono solo rumori. il problema a portata di mano. Ho visto dati in cui il 95% della varianza era rumore a causa di alcuni effetti fisici ...

— cbeleites supporta Monica il

3

Recensione molto bella, ma (scusate il cavillo di nuovo) ritmo Hadi & Ling, selezionando i PC da mantenere in una regressione in base alla loro forte relazione con la risposta, è pericoloso quanto selezionare i predittori originali in base alla loro forte relazione con la risposta. La convalida incrociata è essenziale e preferibile il ritiro. Personalmente preferirei un uso giudizioso del PCA insieme alla conoscenza dell'argomento per guidare la riduzione dei dati sui predittori, cieco alla risposta, ad esempio utilizzando il primo PC di gruppi di predittori che misurano più o meno la stessa cosa o determinato dal clustering variabile.

— Scortchi - Ripristina Monica

2

+1 (molto tempo fa) a questa risposta, ma dopo aver esaminato questa discussione ora, devo dire che questa risposta non risponde quasi alla domanda originale: OP stava chiedendo se si possono usare test distributivi sui componenti per giudicare la loro casualità. Vedi anche il mio ultimo commento all'OP.

— ameba dice Reinstate Monica il

2

Aggiungendo alla risposta di @Nick Stauner, quando si ha a che fare con il clustering di sottospazi, la PCA è spesso una soluzione scadente.

Quando si utilizza la PCA, ci si preoccupa principalmente degli autovettori con gli autovalori più alti, che rappresentano le direzioni verso le quali i dati vengono "allungati" maggiormente. Se i tuoi dati sono composti da piccoli spazi secondari, PCA li ignorerà solennemente poiché non contribuiscono molto alla varianza complessiva dei dati.

Quindi, i piccoli autovettori non sono sempre puro rumore.

— felipeduque
fonte