Scegliere la giusta distanza non è un compito elementare. Quando vogliamo fare un'analisi cluster su un set di dati, potrebbero apparire risultati diversi utilizzando distanze diverse, quindi è molto importante fare attenzione a quale distanza scegliere perché possiamo creare un falso buon artefatto che catturi bene la variabilità, ma in realtà senza senso nel nostro problema.
La distanza euclidea è appropriata quando ho variabili numeriche continue e voglio riflettere distanze assolute. Questa distanza tiene conto di ogni variabile e non rimuove le ridondanze, quindi se avessi tre variabili che spiegano la stessa (sono correlate), pondererei questo effetto per tre. Inoltre, questa distanza non è invariante per la scala, quindi generalmente devo ridimensionare in precedenza per usare la distanza.
Esempio ecologia: abbiamo diverse osservazioni da molte località, di cui gli esperti hanno prelevato campioni di alcuni fattori microbiologici, fisici e chimici. Vogliamo trovare modelli negli ecosistemi. Questi fattori hanno un'alta correlazione, ma sappiamo che tutti sono rilevanti, quindi non vogliamo rimuovere questi licenziamenti. Usiamo la distanza euclidea con dati in scala per evitare l'effetto delle unità.
La distanza di Mahalanobis è appropriata quando ho variabili numeriche continue e voglio riflettere distanze assolute, ma vogliamo rimuovere le ridondanze. Se abbiamo ripetute variabili, il loro effetto ripetitivo scomparirà.
La famiglia Hellinger , Species Profile e Chord distance sono appropriate quando vogliamo enfatizzare le differenze tra le variabili, quando vogliamo differenziare i profili. Queste distanze pesano per quantità totali di ciascuna osservazione, in modo tale che le distanze siano piccole quando variabili per variabili gli individui sono più simili, sebbene in grandezza assoluta fosse molto diverso. Attento! Queste distanze riflettono molto bene la differenza tra i profili, ma perdono l'effetto magnitudo. Potrebbero essere molto utili quando abbiamo campioni di dimensioni diverse.
Esempio di ecologia: vogliamo studiare la fauna di molte terre e disponiamo di una matrice di dati di un inventario del gasteropode (posizioni di campionamento in file e nomi di specie in colonne). La matrice è caratterizzata dall'avere molti zeri e magnitudini diverse perché alcune località hanno alcune specie e altre hanno altre specie. Potremmo usare la distanza di Hellinger.
Bray-Curtis è abbastanza simile, ma è più appropriato quando vogliamo differenziare i profili e anche prendere in considerazione le dimensioni relative.