In che modo la PCA aiuterebbe con un'analisi del clustering di k-mean?


32

Contesto : desidero classificare le aree residenziali di una città in gruppi in base alle loro caratteristiche socio-economiche, tra cui densità dell'unità abitativa, densità della popolazione, area verde, prezzo delle abitazioni, numero di scuole / centri sanitari / centri diurni, ecc. Voglio capire in quanti gruppi diversi possono essere suddivise le aree residenziali e quali sono le loro caratteristiche uniche. Queste informazioni potrebbero facilitare l'urbanistica.

Sulla base di alcuni esempi (cfr. Questo post sul blog: PCA e K-mean Clustering di Delta Aircraft ), ho capito che il modo di fare l'analisi è:

  1. Per prima cosa esegui l'analisi PCA.

  2. Determinare il numero di gruppi univoci (cluster) in base ai risultati della PCA (ad esempio, utilizzando il metodo "gomito" o, in alternativa, il numero di componenti che spiegano dall'80 al 90% della varianza totale).

  3. Dopo aver determinato il numero di cluster, applicare il clustering k-mean per eseguire la classificazione.

Le mie domande: sembrava che il numero di componenti PCA fosse correlato all'analisi dei cluster. Quindi è vero, se, diciamo, abbiamo trovato 5 componenti PCA spiegati oltre il 90% della variazione di tutte le funzionalità, allora applicheremmo il clustering k-mean e otterremmo 5 cluster. Quindi i 5 gruppi corrisponderebbero esattamente ai 5 componenti nell'analisi PCA?

In altre parole, suppongo che la mia domanda sia: qual è la connessione tra l'analisi PCA e il clustering k-mean?

Aggiornamenti: grazie agli input di Emre, xeon e Kirill. Quindi le risposte attuali:

  1. Fare PCA prima dell'analisi dei cluster è utile anche per ridurre la dimensionalità come estrattore di funzionalità e visualizzare / rivelare cluster.

  2. L'esecuzione di PCA dopo il clustering può convalidare l'algoritmo di clustering (riferimento: analisi dei componenti principali del kernel ).

  3. Il PCA viene talvolta applicato per ridurre la dimensionalità del set di dati prima del clustering. Tuttavia, Yeung & Ruzzo (2000) hanno dimostrato che il clustering con il PC invece delle variabili originali non migliora necessariamente la qualità del cluster. In particolare, i primi pochi PC (che contengono la maggior parte delle variazioni nei dati) non acquisiscono necessariamente la maggior parte della struttura del cluster.

    • Yeung, Ka Yee e Walter L. Ruzzo. Uno studio empirico sull'analisi dei componenti principali per raggruppare i dati di espressione genica. Rapporto tecnico, Dipartimento di Informatica e Ingegneria, Università di Washington, 2000. ( pdf )
  4. Sembrava che il PCA fosse necessario prima di un'analisi del clustering in due passaggi . Basato su Ibes (2015), in cui è stata eseguita l'analisi dei cluster utilizzando i fattori identificati nel PCA.


1
È possibile utilizzare PCA per la riduzione della dimensionalità come estrattore di funzioni e per visualizzare i cluster.
Emre,

3
Inizia semplice: esegui un classificatore direttamente sui dati che hai e osserva le prestazioni. Se non sei soddisfatto delle prestazioni, prova PCA (seleziona il numero di componenti al "ginocchio" del diagramma degli autovalori ordinati) e esegui i k-media. Se vedi dei bei cluster, ci sono buone probabilità che il classificatore PCA + faccia un buon lavoro.
Vladislavs Dovgalecs,

1
Puoi fare PCA anche dopo il clustering, per convalidare il tuo algoritmo di clustering; codice colore ogni punto dalla sua etichetta del cluster. Consiglio anche di esaminare il PCA del kernel .
Emre,

Esistono metodi che eseguono contemporaneamente la riduzione della dimensionalità e il clustering. Questi metodi cercano una rappresentazione a bassa dimensione scelta in modo ottimale in modo da facilitare l'identificazione dei cluster. Ad esempio, vedere il pacchetto clustrd in R e i riferimenti associati.
Nat

Risposte:


16

PCA non è un metodo di clustering. Ma a volte aiuta a rivelare i cluster.

010

1102101010

0


Grazie per i tuoi input. Potresti spiegare cosa sono le distribuzioni normali tridimensionali con media 0? Intendi dieci variabili di funzionalità di input e ognuna di esse segue una distribuzione normale?
enaJ,

Siamo spiacenti, sto parlando di una variabile casuale che segue la normale distribuzione multivariata con una media che sarà una matrice di covarianza e vettore 10-dimensionale che è una matrice simmetrica 10x10.
Kirill,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.