Una routine per scegliere eps e minPts per DBSCAN


13

DBSCAN è l'algoritmo di clustering più citato secondo alcune pubblicazioni e può trovare cluster di forme arbitrari basati sulla densità. Ha due parametri eps (come raggio di vicinato) e minPts (come vicini minimi da considerare un punto come punto centrale) che credo dipenda fortemente da loro.

Esiste un metodo di routine o comunemente usato per scegliere questi parametri?


Risposte:


11

Ci sono molte pubblicazioni che propongono metodi per scegliere questi parametri.

Il più notevole è OPTICS, una variazione DBSCAN che elimina il parametro epsilon; produce un risultato gerarchico che può essere approssimativamente visto come "eseguire DBSCAN con ogni possibile epsilon".

Per i minPts, suggerisco di non fare affidamento su un metodo automatico, ma sulla conoscenza del dominio .

Un buon algoritmo di clustering ha parametri che ti consentono di personalizzarlo in base alle tue esigenze.

Un parametro che hai trascurato è la funzione della distanza. La prima cosa da fare per DBSCAN è trovare una buona funzione di distanza per la tua applicazione . Non fare affidamento sul fatto che la distanza euclidea sia la migliore per ogni applicazione!


Sebbene l'utente possa scegliere la funzione di distanza, dubito che sia un parametro.
Mehraban

1
Ovviamente è. È un parametro tanto quanto la funzione del kernel per qualsiasi altro metodo kernelized (puoi infatti eseguire il kerneling DBSCAN in modo banale in questo modo), e nella mia esperienza altre distanze come Canberra o Clark possono migliorare significativamente i risultati .
Ha QUIT - Anony-Mousse

Non sottovaluto l'influenza della funzione di distanza sul clustering, ma penso che sia in qualche modo generale, non specifico per dbscan o qualsiasi altro algoritmo di clustering; mentre eps e minPts sono esplicitamente parametri dbscan.
Mehraban

1
Esistono anche molti algoritmi non basati sulla distanza. E se consideri minPts come lo stesso, ad esempio, kper la classificazione del vicino più vicino, potresti dire lo stesso per il parametro minPts. Immagino che la differenza principale sia che per la distanza esiste un default "spesso" sensibile: la distanza euclidea; mentre per minPts il valore sarà specifico per i dati.
Ha QUIT - Anony-Mousse

1
L'OTTICA stessa non ti darà partizioni, ma un ordine di cluster. Per ottenere le partizioni, utilizzare l'estrazione xi descritta nel documento OPTICS. Vedi ciascun documento sulle varianti per comprendere le differenze.
Ha QUIT - Anony-Mousse il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.