Differenza tra PCA e clustering spettrale per un piccolo set campione di funzionalità booleane


10

Ho un set di dati di 50 campioni. Ogni campione è composto da 11 funzioni booleane (possibilmente correlate). Vorrei un po 'come visualizzare questi campioni su un diagramma 2D ed esaminare se ci sono cluster / raggruppamenti tra i 50 campioni.

Ho provato i seguenti due approcci:

(a) Eseguire PCA sulla matrice 50x11 e selezionare i primi due componenti principali. Proiettare i dati sul grafico 2D ed eseguire semplici mezzi K per identificare i cluster.

(b) Costruisci una matrice di somiglianza 50x50 (coseno). Eseguire nuovamente il clustering spettrale per la riduzione della dimensionalità seguito da K-medie.

Qual è la differenza concettuale tra fare PCA diretto e usare gli autovalori della matrice di somiglianza? Uno è migliore dell'altro?

Inoltre, ci sono modi migliori per visualizzare tali dati in 2D? Poiché la mia dimensione del campione è sempre limitata a 50 e il mio set di funzionalità è sempre nell'intervallo 10-15, sono disposto a provare al volo più approcci e scegliere quello migliore.

Domanda correlata: raggruppamento di campioni per clustering o PCA

Risposte:


9

Qual è la differenza concettuale tra fare PCA diretto e usare gli autovalori della matrice di somiglianza?

La PCA viene eseguita su una matrice di covarianza o di correlazione, ma il clustering spettrale può assumere qualsiasi matrice di somiglianza (ad esempio costruita con somiglianza del coseno) e trovare cluster lì.

In secondo luogo, gli algoritmi di clustering spettrale si basano sul partizionamento grafico (di solito si tratta di trovare i migliori tagli del grafico), mentre PCA trova le direzioni che hanno la maggior parte della varianza. Sebbene in entrambi i casi finiamo per trovare gli autovettori, gli approcci concettuali sono diversi.

E infine, vedo che la PCA e il clustering spettrale servono a scopi diversi: uno è una tecnica di riduzione della dimensionalità e l'altro è più un approccio al clustering (ma è fatto tramite riduzione della dimensionalità)


5

Per le funzionalità booleane (cioè categoriche con due classi), una buona alternativa all'utilizzo di PCA consiste nell'utilizzare l'analisi della corrispondenza multipla (MCA), che è semplicemente l'estensione del PCA alle variabili categoriali (vedere il thread correlato ). Per alcuni retroscena sull'MCA, i documenti sono Husson et al. (2010) o Abdi e Valentin (2007) . Un eccellente pacchetto R per eseguire MCA è FactoMineR . Fornisce strumenti per tracciare mappe bidimensionali dei carichi delle osservazioni sui componenti principali, il che è molto approfondito.

Di seguito sono riportati due esempi di mappe di uno dei miei precedenti progetti di ricerca (tracciati con ggplot2). Ho avuto solo circa 60 osservazioni e ha dato buoni risultati. La prima mappa rappresenta le osservazioni nello spazio PC1-PC2, la seconda mappa nello spazio PC3-PC4 ... Le variabili sono anche rappresentate nella mappa, il che aiuta a interpretare il significato delle dimensioni. Raccogliere le informazioni da molte di queste mappe può darti una bella immagine di ciò che sta accadendo nei tuoi dati.

inserisci qui la descrizione dell'immagine

Sul sito Web collegato sopra, troverai anche informazioni su una nuova procedura, HCPC, che sta per Clustering Gerarchico su Componenti Principali e che potrebbe interessarti. Fondamentalmente, questo metodo funziona come segue:

  • eseguire un MCA,
  • KK<pp
  • eseguire un raggruppamento gerarchico agglomerativo (dal basso verso l'alto) nello spazio dei PC conservati. Dato che usi le coordinate delle proiezioni delle osservazioni nello spazio del PC (numeri reali), puoi usare la distanza euclidea, con il criterio di Ward per il collegamento (aumento minimo della varianza all'interno del cluster). Puoi tagliare il dendogramma all'altezza che ti piace o lasciare tagliare la funzione R se o in base a qualche euristica,
  • (facoltativo) stabilizzare i cluster eseguendo un raggruppamento di mezzi K. La configurazione iniziale è data dai centri dei cluster trovati nel passaggio precedente.

Quindi, hai molti modi per investigare i cluster (caratteristiche più rappresentative, individui più rappresentativi, ecc.)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.