Uno dei maggiori problemi con l'analisi dei cluster è che potrebbe capitare di dover trarre conclusioni diverse quando si basano su diversi metodi di clustering utilizzati (inclusi diversi metodi di collegamento nel clustering gerarchico).
Mi piacerebbe conoscere la tua opinione su questo - quale metodo sceglierai e come. Si potrebbe dire "il miglior metodo di clustering è quello che ti dà la risposta giusta"; ma posso rispondere in risposta che l'analisi del cluster dovrebbe essere una tecnica senza supervisione , quindi come faccio a sapere quale metodo o collegamento è la risposta giusta?
In generale: un cluster da solo è abbastanza robusto da poter contare? Oppure abbiamo bisogno di un secondo metodo e ottenere un risultato condiviso basato su entrambi?
La mia domanda non riguarda solo i modi possibili per convalidare / valutare le prestazioni del clustering, ma è più ampia: su quale base selezioniamo / preferiamo un metodo / algoritmo di clustering rispetto a un altro. Inoltre, ci sono avvertimenti comuni che dovremmo guardare in giro quando stiamo selezionando un metodo per raggruppare i nostri dati?
So che è una domanda molto generale e molto difficile da rispondere. Vorrei solo sapere se hai commenti, consigli o suggerimenti per saperne di più.