Ho trovato questa implementazione di Python del Breaks Jenks naturale algoritmo e ho potuto farlo funzionare sulla mia macchina Windows 7. È abbastanza veloce e trova le pause in poco tempo, considerando le dimensioni dei miei geodati. Prima di utilizzare questo algoritmo di clustering per i miei dati, stavo usando l' algoritmo sklearn.clustering.KMeans
(qui) . Il problema che ho avuto con KMeans è stato trovare il parametro del valore K ottimale, ma l'ho "risolto" avviando l'algoritmo per diversi valori K e usando sklearn.metrics.silhouette_score
(qui) per trovare il K. migliore
La mia domanda è: se dico all'algoritmo Natural Breaks di trovare 5 classi (che sarebbe la K), come posso essere sicuro che questo sia il numero di classi che meglio corrisponde ai miei dati? Come convalidare che sto scegliendo il miglior numero di pause?
Grazie!