Stima delle funzionalità più importanti in una partizione di cluster k-mean


19

Esiste un modo per determinare quali caratteristiche / variabili del set di dati sono le più importanti / dominanti all'interno di una soluzione cluster k-mean?


1
Come definisci "importante / dominante"? Intendi il più utile per discriminare i cluster?
Franck Dernoncourt,

3
Sì, il più utile è quello che intendevo. Penso che parte del mio problema nel capire questo sia come esprimerlo.
user1624577,

Grazie per il chiarimento. Un termine abituale per indicare questo problema nell'apprendimento automatico è la selezione delle funzionalità .
Franck Dernoncourt,

Risposte:


8

Un modo per quantificare l'utilità di ogni caratteristica (= variabile = dimensione), dal libro Burns, Robert P. e Richard Burns. Metodi e statistiche di ricerca commerciale mediante SPSS. Sage, 2008. ( specchio ), l'utilità è definita dal potere discriminatorio delle caratteristiche di distinguere i cluster.

Solitamente esaminiamo i mezzi per ciascun cluster su ogni dimensione usando ANOVA per valutare quanto distinti siano i nostri cluster. Idealmente, otterremmo mezzi significativamente diversi per la maggior parte, se non tutte le dimensioni, utilizzate nell'analisi. L'entità dei valori F eseguiti su ciascuna dimensione è un'indicazione di come la rispettiva dimensione discrimina tra i cluster.

Un altro modo sarebbe quello di rimuovere una caratteristica specifica e vedere come questo influenza gli indici di qualità interni . A differenza della prima soluzione, è necessario ripetere il clustering per ciascuna funzionalità (o set di funzionalità) che si desidera analizzare.

FYI:


4
È molto importante aggiungere che in questo contesto non si dovrebbero prendere quei valori F (o p) come indicatori di significatività statistica (cioè relativi alla popolazione), ma piuttosto semplicemente come indicatori di entità delle differenze.
ttnphns,

3

Posso pensare ad altre due possibilità che si concentrano maggiormente su quali variabili sono importanti per quali cluster.

  1. Classificazione multi-classe. Considera gli oggetti che appartengono a membri del cluster x della stessa classe (ad esempio, classe 1) e gli oggetti che appartengono ad altri membri di cluster di una seconda classe (ad esempio, classe 2). Addestrare un classificatore per prevedere l'appartenenza alla classe (ad esempio, classe 1 vs. classe 2). I coefficienti variabili del classificatore possono servire per stimare l'importanza di ogni variabile nel raggruppare gli oggetti nel cluster x . Ripeti questo approccio per tutti gli altri cluster.

  2. Somiglianza variabile all'interno del cluster. Per ogni variabile, calcola la somiglianza media di ciascun oggetto con il suo centroide. Una variabile che ha un'elevata somiglianza tra un centroide e i suoi oggetti è probabilmente più importante per il processo di clustering rispetto a una variabile che ha una bassa somiglianza. Naturalmente, l'entità della somiglianza è relativa, ma ora le variabili possono essere classificate in base al grado in cui aiutano a raggruppare gli oggetti in ciascun cluster.


0

Ecco un metodo molto semplice. Si noti che la distanza euclidea tra due centri del cluster è una somma della differenza quadrata tra le singole caratteristiche. Possiamo quindi usare la differenza quadrata come peso per ciascuna funzione.

Distanza euclidea

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.