Quali sono le buone metriche per valutare la qualità di un adattamento PCA, al fine di selezionare il numero di componenti?


10

Qual è una buona metrica per valutare la qualità dell'analisi dei componenti principali (PCA)?

Ho eseguito questo algoritmo su un set di dati. Il mio obiettivo era ridurre il numero di funzionalità (le informazioni erano molto ridondanti). So che la percentuale di varianza mantenuta è un buon indicatore di quante informazioni conserviamo, ci sono altre metriche di informazioni che posso usare per assicurarmi di aver rimosso le informazioni ridondanti e di non aver "perso" tali informazioni?


3
A rigor di termini, non esistono informazioni "ridondanti", a meno che i dati iniziali non siano perfettamente collineari. Uno di solito vede la percentuale di varianza mantenuta ("abbiamo usato i primi cinque componenti principali, che rappresentavano il 90% della varianza"). Sono interessato a vedere alternative.
Stephan Kolassa,

Poiché uno dei tuoi tag è la teoria dell'informazione: un modo indiretto di valutare se la PCA funziona è verificare i presupposti in base ai quali la teoria dell'informazione ci dice che ha una bassa perdita di informazioni per una data riduzione dimensionale. Wiki dice che è così quando i tuoi dati sono una somma di segnale gaussiano più rumore gaussiano. en.wikipedia.org/wiki/…
CloseToC

Risposte:


17

Presumo che parte di questa domanda sia se esistono altre metriche oltre alla varianza percentuale cumulativa (CPV) e l'approccio simile al grafico a ghiaione. La risposta a questa è, sì, molte .

Un ottimo documento su alcune opzioni è Valle 1999:

Supera il CPV, ma anche l'analisi parallela, la convalida incrociata, la varianza dell'errore di ricostruzione (VRE), i metodi basati sui criteri di informazione e altro ancora. Potresti seguire la raccomandazione fatta dall'articolo dopo aver confrontato e usato il VRE, ma la convalida incrociata basata su PRESS funziona bene anche nella mia esperienza e ottengono buoni risultati anche con quello. Nella mia esperienza, CPV è comodo e facile e fa un lavoro decente, ma questi due metodi sono generalmente migliori.

Esistono altri modi per valutare la validità del modello PCA se si conoscono meglio i dati. Un modo è quello di confrontare i carichi PCA stimati con quelli veri se li conosci (cosa che faresti nelle simulazioni). Questo può essere fatto calcolando la distorsione dei caricamenti stimati su quelli reali. Maggiore è il tuo pregiudizio, peggiore è il tuo modello. Per come fare, puoi consultare questo documento in cui usano questo approccio per confrontare i metodi. Tuttavia, non è utilizzabile in casi di dati reali, in cui non si conoscono i veri caricamenti di PCA. Ciò parla meno di quanti componenti hai rimosso, piuttosto che della distorsione del tuo modello a causa dell'influenza delle osservazioni periferiche, ma serve comunque come metrica di qualità del modello.


4
Link al documento Valle, Li e Qin
Zhubarb,

3

Ci sono anche misure basate su criteri teorici dell'informazione come

MDL di Rissanen (e variazioni)


@utente: 45382 Sì, questo è un altro. Viene anche toccato nel documento a cui Zhubarb si collega.
Deathkill14,

@ Deathkill14 corretto ho letto il documento, sono menzionate le misure teoriche dell'informazione (in realtà come buone alternative)
Nikos M.

Un eccellente documento teorico su MDL, MML e bayesismo: Vitany & Li, MDL ideale e la sua relazione con il bayesismo citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . Anche altri metodi di selezione dei modelli come AIC e BIC sono implementazioni efficaci di MDL.
ggll,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.