Contesto : desidero classificare le aree residenziali di una città in gruppi in base alle loro caratteristiche socio-economiche, tra cui densità dell'unità abitativa, densità della popolazione, area verde, prezzo delle abitazioni, numero di scuole / centri sanitari / centri diurni, ecc. Voglio capire in quanti gruppi diversi possono essere suddivise le aree residenziali e quali sono le loro caratteristiche uniche. Queste informazioni potrebbero facilitare l'urbanistica.
Sulla base di alcuni esempi (cfr. Questo post sul blog: PCA e K-mean Clustering di Delta Aircraft ), ho capito che il modo di fare l'analisi è:
Per prima cosa esegui l'analisi PCA.
Determinare il numero di gruppi univoci (cluster) in base ai risultati della PCA (ad esempio, utilizzando il metodo "gomito" o, in alternativa, il numero di componenti che spiegano dall'80 al 90% della varianza totale).
Dopo aver determinato il numero di cluster, applicare il clustering k-mean per eseguire la classificazione.
Le mie domande: sembrava che il numero di componenti PCA fosse correlato all'analisi dei cluster. Quindi è vero, se, diciamo, abbiamo trovato 5 componenti PCA spiegati oltre il 90% della variazione di tutte le funzionalità, allora applicheremmo il clustering k-mean e otterremmo 5 cluster. Quindi i 5 gruppi corrisponderebbero esattamente ai 5 componenti nell'analisi PCA?
In altre parole, suppongo che la mia domanda sia: qual è la connessione tra l'analisi PCA e il clustering k-mean?
Aggiornamenti: grazie agli input di Emre, xeon e Kirill. Quindi le risposte attuali:
Fare PCA prima dell'analisi dei cluster è utile anche per ridurre la dimensionalità come estrattore di funzionalità e visualizzare / rivelare cluster.
L'esecuzione di PCA dopo il clustering può convalidare l'algoritmo di clustering (riferimento: analisi dei componenti principali del kernel ).
Il PCA viene talvolta applicato per ridurre la dimensionalità del set di dati prima del clustering. Tuttavia, Yeung & Ruzzo (2000) hanno dimostrato che il clustering con il PC invece delle variabili originali non migliora necessariamente la qualità del cluster. In particolare, i primi pochi PC (che contengono la maggior parte delle variazioni nei dati) non acquisiscono necessariamente la maggior parte della struttura del cluster.
- Yeung, Ka Yee e Walter L. Ruzzo. Uno studio empirico sull'analisi dei componenti principali per raggruppare i dati di espressione genica. Rapporto tecnico, Dipartimento di Informatica e Ingegneria, Università di Washington, 2000. ( pdf )
Sembrava che il PCA fosse necessario prima di un'analisi del clustering in due passaggi . Basato su Ibes (2015), in cui è stata eseguita l'analisi dei cluster utilizzando i fattori identificati nel PCA.
- Ibes, Dorothy C. Una classificazione multidimensionale e analisi di equità di un sistema di parchi urbani: una nuova metodologia e l'applicazione di un caso di studio. Paesaggio e pianificazione urbana , volume 137, maggio 2015, pagine 122-137.