Esempi di PCA in cui i PC con bassa varianza sono "utili"


24

Normalmente nell'analisi dei componenti principali (PCA) vengono utilizzati i primi PC e i PC a bassa varianza vengono eliminati, in quanto non spiegano gran parte della variazione dei dati.

Tuttavia, ci sono esempi in cui i PC a bassa variazione sono utili (ovvero hanno un uso nel contesto dei dati, hanno una spiegazione intuitiva, ecc.) E non dovrebbero essere gettati via?


5
Abbastanza pochi. Vedi PCA, casualità del componente? Questo può anche essere un duplicato, ma il tuo titolo è molto più chiaro (quindi probabilmente più facile da trovare cercando), quindi per favore non cancellarlo anche se viene chiuso come tale.
Nick Stauner,

Risposte:


18

Ecco un bel estratto di Jolliffe (1982) che non avevo incluso nella mia precedente risposta alla domanda molto simile, " Componenti a bassa varianza in PCA, sono davvero solo rumore? Esiste un modo per testarlo? " è abbastanza intuitivo.

Supponiamo che sia necessario prevedere l'altezza della base cloud, , un problema importante negli aeroporti. Vengono misurate varie variabili climatiche tra cui la temperatura superficiale e il punto di rugiada superficiale, . Qui, è la temperatura alla quale l'aria di superficie verrebbe saturata con vapore acqueo e la differenza è una misura dell'umidità superficiale. Ora sono generalmente positivamente correlati, quindi un'analisi della componente principale delle variabili climatiche avrà una componente ad alta varianza che è altamente correlata con e una componente a bassa varianza che è correlata in modo simile conT s T d T d T s - T d T s , T d T s + T d T s - T dHTSTdTdTS-TdTS,TdTS+TdTS-Td. Ma è correlata all'umidità e quindi alla , cioè ad una bassa varianza piuttosto che una componente ad alta varianza, quindi una strategia che rifiuta componenti a bassa varianza darà previsioni negative per . La discussione di questo esempio è necessariamente vaga a causa degli effetti sconosciuti di altre variabili climatiche che sono anche misurate e incluse nell'analisi. Tuttavia, mostra un caso fisicamente plausibile in cui una variabile dipendente sarà correlata a un componente a bassa varianza, confermando i tre esempi empirici dalla letteratura. T s - T d HHTS-TdH

Inoltre, l'esempio di base cloud è stato testato sui dati dell'aeroporto di Cardiff (Galles) per il periodo 1966-1973 con una variabile climatica aggiuntiva, temperatura della superficie del mare, inclusa. I risultati erano essenzialmente come previsto sopra. L'ultimo componente principale era circa e rappresentava solo lo per cento della variazione totale. Tuttavia, in una regressione componente principale è stato senza dubbio il più importante fattore predittivo per . [Enfasi aggiunta]HTS-TdH

I tre esempi di letteratura citati nell'ultima frase del secondo paragrafo sono stati i tre che ho menzionato nella mia risposta alla domanda collegata .


Riferimento
Jolliffe, IT (1982). Nota sull'uso dei componenti principali nella regressione. Statistica applicata, 31 (3), 300–303. Estratto da http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .


V(UN+B)=V(UN)+V(B)+2Cov(UN,B)V(UN-B)=V(UN)+V(B)-2Cov(UN,B)TS-Td

+1, questo è un bell'esempio. È interessante notare che è anche un esempio di soppressione.
gung - Ripristina Monica

17

Se hai R, c'è un buon esempio nei crabsdati nel pacchetto MASS.

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

Oltre il 98% della varianza è "spiegato" dai primi due PC, ma in realtà se avessi effettivamente raccolto queste misurazioni e le stessi studiando, il terzo PC sarebbe molto interessante, poiché è strettamente correlato alle specie del granchio. Ma è sommerso da PC1 (che sembra corrispondere alla dimensione del granchio) e PC2 (che sembra corrispondere al sesso del granchio.)

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine


2
+1, questa è una dimostrazione davvero accurata. Ho creato 2 matrici scatterplot che possono essere aggiunte, se lo desideri.
gung - Ripristina Monica

1
@gung: Grazie per aver aggiunto i grafici a dispersione! Ho votato prima questa risposta, ma non l'ho apprezzata del tutto senza vedere le trame. Scatterplot PC2 vs PC3 è davvero bello: separa i sessi e le specie quasi perfettamente. Mi piace questo esempio anche perché illustra cosa succede quando tutte le variabili sono fortemente correlate positivamente (ovvero PC1 spiega molte varianze ed è sostanzialmente una media).
ameba dice Ripristina Monica il

1
Grazie @amoeba. Mi piace molto il modo in cui sono venuti fuori. Ho passato molto tempo a contorcersi (colori, colori, etichette, leggende). In realtà penso che siano piuttosto carini ora. Hai un buon punto su PC1. Possiamo anche vedere che esiste (probabilmente) un coefficiente di variazione costante e un'interazione tra sesso e / o specie in molte delle relazioni: i piccoli granchi (piccoli?) Tendono ad avere gli stessi valori indipendentemente dal sesso o dalla specie, ma come crescono (invecchiano?) diventano più distinti. Ecc. C'è un sacco di roba ordinata da vedere - puoi semplicemente continuare a guardarli.
gung - Ripristina Monica

8

Ecco due esempi della mia esperienza (chemiometria, spettroscopia ottica / vibrazionale / Raman):

  • Recentemente ho avuto dati di spettroscopia ottica, in cui> 99% della varianza totale dei dati grezzi era dovuta a cambiamenti nella luce di sfondo (riflettori più o meno intensi sul punto misurato, lampade fluorescenti accese / spente, più o meno nuvole prima il Sole). Dopo la correzione dello sfondo con gli spettri ottici di noti fattori influenzanti (estratti da PCA sui dati grezzi; misure extra prese per coprire tali variazioni), l'effetto a cui eravamo interessati si è manifestato nei PC 4 e 5. I
    PC 1 e 3 dove a causa di altri effetti nel campione misurato e il PC 2 è correlato al riscaldamento della punta dello strumento durante le misurazioni.

  • In un'altra misurazione, è stata utilizzata una lente senza correzione del colore per la gamma spettrale misurata. L'aberrazione cromatica provoca distorsioni negli spettri che hanno causato ca. 90% della varianza totale dei dati preelaborati (acquisiti principalmente nel PC 1).
    Per questi dati ci è voluto un po 'di tempo per capire cosa fosse successo esattamente, ma il passaggio a un obiettivo migliore ha risolto il problema per esperimenti successivi.

(Non posso mostrare i dettagli poiché questi studi non sono ancora stati pubblicati)


3

Ho notato che i PC con bassa varianza sono molto utili quando si esegue un PCA su una matrice di covarianza in cui i dati sottostanti sono raggruppati o raggruppati in qualche modo. Se uno dei gruppi presenta una varianza media sostanzialmente inferiore rispetto agli altri gruppi, i PC più piccoli sarebbero dominati da quel gruppo. Tuttavia, potresti avere qualche motivo per non voler eliminare i risultati da quel gruppo.

Nel settore finanziario, i rendimenti azionari hanno una deviazione standard annuale di circa il 15-25%. Le variazioni dei rendimenti obbligazionari sono storicamente una deviazione standard molto più bassa. Se esegui un PCA sulla matrice di covarianza dei rendimenti azionari e delle variazioni dei rendimenti obbligazionari, i PC migliori rifletteranno tutti lo scostamento degli stock e i più piccoli rifletteranno gli scostamenti delle obbligazioni. Se butti via i PC che spiegano i legami, potresti avere qualche problema. Ad esempio, le obbligazioni potrebbero avere caratteristiche distributive molto diverse rispetto alle azioni (code più sottili, proprietà di varianza che variano nel tempo, inversione media diversa, cointegrazione, ecc.). Questi potrebbero essere molto importanti da modellare, a seconda delle circostanze.

Se esegui PCA sulla matrice di correlazione, potresti vedere più PC che spiegano i legami nella parte superiore.


Questa risposta è molto difficile da capire se non si conoscono azioni, obbligazioni, rendimenti e rendimenti. Non lo so, e quindi non riesco a vedere come la tua prima frase sia correlata alla tua seconda ...
ameba dice Reinstate Monica il

1
Ho apportato alcune modifiche.
Giovanni,

1

In questo discorso ( diapositive ) i presentatori discutono del loro uso del PCA per discriminare tra alta variabilità e caratteristiche di bassa variabilità.

Preferiscono in realtà le caratteristiche di bassa variabilità per il rilevamento di anomalie, poiché uno spostamento significativo in una dimensione di bassa variabilità è un forte indicatore di comportamento anomalo. L'esempio motivante che forniscono è il seguente:

Supponiamo che un utente acceda sempre da un Mac. La dimensione del "sistema operativo" della loro attività sarebbe una varianza molto bassa. Ma se vedessimo un evento di accesso da quello stesso utente in cui il "sistema operativo" era Windows, sarebbe molto interessante e qualcosa che vorremmo catturare.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.