Qualcuno usa le metriche o per il clustering anziché ?
Aggarwal et al.,
Sul comportamento sorprendente delle metriche della distanza nello spazio ad alta dimensione, ha
detto (nel 2001) che
è decisamente più preferibile della metrica di distanza euclidea per applicazioni di data mining ad alta dimensione
e ha affermato che o possono essere ancora migliori.
I motivi per utilizzare o potrebbero essere teorici o sperimentali, ad esempio la sensibilità a valori anomali / articoli di Kabán o programmi eseguiti su dati reali o sintetici (riproducibile per favore). Un esempio o un'immagine aiuterebbero l'intuizione del mio profano.
Questa domanda fa seguito alla risposta di Bob Durrant a When-is-più vicino-prossimo-significativo-oggi . Come dice, la scelta di dipenderà sia dai dati che dall'applicazione; ciò nondimeno, sarebbero utili notizie di esperienze reali.
Note aggiunte martedì 7 giugno:
Mi sono imbattuto in "Analisi dei dati statistici basata sulla norma L1 e sui metodi correlati", Dodge ed., 2002, 454p, isbn 3764369205 - dozzine di articoli per conferenze.
Qualcuno può analizzare la concentrazione della distanza per le caratteristiche esponenziali? Uno dei motivi degli esponenziali è che ; un altro (non esperto) è che è la distribuzione di entropia massima 0; un terzo è che alcuni set di dati reali, in particolare SIFT, sembrano approssimativamente esponenziali.