Esiste un modo per determinare quali caratteristiche / variabili del set di dati sono le più importanti / dominanti all'interno di una soluzione cluster k-mean?
Esiste un modo per determinare quali caratteristiche / variabili del set di dati sono le più importanti / dominanti all'interno di una soluzione cluster k-mean?
Risposte:
Un modo per quantificare l'utilità di ogni caratteristica (= variabile = dimensione), dal libro Burns, Robert P. e Richard Burns. Metodi e statistiche di ricerca commerciale mediante SPSS. Sage, 2008. ( specchio ), l'utilità è definita dal potere discriminatorio delle caratteristiche di distinguere i cluster.
Solitamente esaminiamo i mezzi per ciascun cluster su ogni dimensione usando ANOVA per valutare quanto distinti siano i nostri cluster. Idealmente, otterremmo mezzi significativamente diversi per la maggior parte, se non tutte le dimensioni, utilizzate nell'analisi. L'entità dei valori F eseguiti su ciascuna dimensione è un'indicazione di come la rispettiva dimensione discrimina tra i cluster.
Un altro modo sarebbe quello di rimuovere una caratteristica specifica e vedere come questo influenza gli indici di qualità interni . A differenza della prima soluzione, è necessario ripetere il clustering per ciascuna funzionalità (o set di funzionalità) che si desidera analizzare.
FYI:
Posso pensare ad altre due possibilità che si concentrano maggiormente su quali variabili sono importanti per quali cluster.
Classificazione multi-classe. Considera gli oggetti che appartengono a membri del cluster x della stessa classe (ad esempio, classe 1) e gli oggetti che appartengono ad altri membri di cluster di una seconda classe (ad esempio, classe 2). Addestrare un classificatore per prevedere l'appartenenza alla classe (ad esempio, classe 1 vs. classe 2). I coefficienti variabili del classificatore possono servire per stimare l'importanza di ogni variabile nel raggruppare gli oggetti nel cluster x . Ripeti questo approccio per tutti gli altri cluster.
Somiglianza variabile all'interno del cluster. Per ogni variabile, calcola la somiglianza media di ciascun oggetto con il suo centroide. Una variabile che ha un'elevata somiglianza tra un centroide e i suoi oggetti è probabilmente più importante per il processo di clustering rispetto a una variabile che ha una bassa somiglianza. Naturalmente, l'entità della somiglianza è relativa, ma ora le variabili possono essere classificate in base al grado in cui aiutano a raggruppare gli oggetti in ciascun cluster.