Visualizzando un milione, edizione PCA


31

È possibile visualizzare l'output dell'analisi dei componenti principali in modo da fornire maggiori informazioni oltre alle semplici tabelle di riepilogo? È possibile farlo quando il numero di osservazioni è grande, diciamo ~ 1e4? Ed è possibile farlo in R [benvenuto in altri ambienti]?


2
Alcune domande: quanti componenti hai? Oltre alle dimensioni del campione, c'è qualcosa che rende la visualizzazione di questo output PCA deve essere diversa dalla visualizzazione di altre variabili continue con cui si potrebbe avere a che fare? Stai cercando di mettere a confronto decine di gruppi diversi e, in caso affermativo, quanti? In generale, cosa speri di ottenere con i tuoi display?
rolando2

Risposte:


53

Il biplot è uno strumento utile per visualizzare i risultati di PCA. Consente di visualizzare contemporaneamente i punteggi e le direzioni dei componenti principali. Con 10.000 osservazioni probabilmente ti imbatterai in un problema con la stampa eccessiva. La miscelazione alfa potrebbe aiutare lì.

Ecco un biplot PC dei dati del vino dal repository UCI ML :

PC Biplot of Wine Dati dal repository UCI ML

I punti corrispondono ai punteggi PC1 e PC2 di ciascuna osservazione. Le frecce rappresentano la correlazione delle variabili con PC1 e PC2. Il cerchio bianco indica l'estensione massima teorica delle frecce. Le ellissi sono ellissi al 68% dei dati per ciascuna delle 3 varietà di vino nei dati.

Ho reso disponibile il codice per generare questa trama qui .


5
Un'aggiunta davvero dinamite.
rolando2

1

p×2VVVT

V

4

Un diagramma Wachter può aiutarti a visualizzare gli autovalori del tuo PCA. Si tratta essenzialmente di un diagramma QQ degli autovalori rispetto alla distribuzione Marchenko-Pastur. Ho un esempio qui: Diagramma di Wachter che mostra un singolo autovalore dominanteesiste un autovalore dominante che non rientra nella distribuzione Marchenko-Pastur. L'utilità di questo tipo di trama dipende dalla tua applicazione.


7
Sarebbe utile saperne di più qui (forse qualche spiegazione aggiuntiva e / o alcuni link utili). Qual è la distribuzione Marchenko-Pastur? Come si collega alla PCA? Che cosa significa per i tuoi risultati se detiene o no? (etc)
gung - Ripristina Monica

0

Puoi anche usare il pacchetto psichiatrico.

Questo contiene un metodo plot.factor, che traccia i diversi componenti uno contro l'altro nello stile di una matrice scatterplot.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.