Metriche o per il clustering?


14

Qualcuno usa le metriche o per il clustering anziché ? Aggarwal et al., Sul comportamento sorprendente delle metriche della distanza nello spazio ad alta dimensione, ha detto (nel 2001) cheL1L.5L2

L1 è decisamente più preferibile della metrica di distanza euclidea per applicazioni di data mining ad alta dimensioneL2

e ha affermato che o possono essere ancora migliori.L.5L.1

I motivi per utilizzare o potrebbero essere teorici o sperimentali, ad esempio la sensibilità a valori anomali / articoli di Kabán o programmi eseguiti su dati reali o sintetici (riproducibile per favore). Un esempio o un'immagine aiuterebbero l'intuizione del mio profano.L1L.5

Questa domanda fa seguito alla risposta di Bob Durrant a When-is-più vicino-prossimo-significativo-oggi . Come dice, la scelta di dipenderà sia dai dati che dall'applicazione; ciò nondimeno, sarebbero utili notizie di esperienze reali.p


Note aggiunte martedì 7 giugno:

Mi sono imbattuto in "Analisi dei dati statistici basata sulla norma L1 e sui metodi correlati", Dodge ed., 2002, 454p, isbn 3764369205 - dozzine di articoli per conferenze.

Qualcuno può analizzare la concentrazione della distanza per le caratteristiche esponenziali? Uno dei motivi degli esponenziali è che ; un altro (non esperto) è che è la distribuzione di entropia massima 0; un terzo è che alcuni set di dati reali, in particolare SIFT, sembrano approssimativamente esponenziali.|expexp|exp


È importante ricordare che Aggarwal et al. in quello specifico articolo dove cercare il comportamento delle norme in problemi come il raggruppamento, il vicino più vicino e l'indicizzazione. Lp
deps_stats,

probabilmente intendevi metriche per le sequenze anziché per le funzioni? Secondo me, se esiste qualche criterio di ottimizzazione, il problema potrebbe essere risolto ottimizzandolo. La regola dei pollici sarà generalmente correlata alla soluzione esatta di tale. Comunque, prova a pensare alle proprietà della soluzione knn preferite. Dopo aver letto gli articoli probabilmente potrei dire qualcosa in più sull'argomento. lpLp
Dmitrij Celov,

@deps_stats, sì grazie; ha cambiato il titolo e la prima riga. @Dmitrij, 1) sì piccola-l è strettamente corretta, ma big-L è comune e comprensibile. 2) sì, si può trovare una p ottimale per un determinato problema, ma qual è la tua prima scelta e perché?
denis,

Risposte:


6

La chiave qui è capire la "maledizione della dimensionalità" a cui fa riferimento la carta. Da Wikipedia: quando il numero di dimensioni è molto grande,

quasi tutto lo spazio ad alta dimensione è "lontano" dal centro, o, per dirla in altro modo, si può dire che lo spazio unitario ad alta dimensione è costituito quasi interamente dagli "angoli" dell'ipercubo, con quasi nessun "middle"

Di conseguenza, inizia a diventare difficile pensare a quali punti sono vicini a quali altri punti, perché sono tutti più o meno ugualmente distanti. Questo è il problema nel primo documento a cui ti sei collegato.

Il problema con p alta è che enfatizza i valori più grandi: cinque quadrati e quattro quadrati sono separati da nove unità, ma uno quadrato e due quadrati sono distanti solo tre unità. Quindi le dimensioni più grandi (cose negli angoli) dominano tutto e perdi il contrasto. Quindi questa inflazione di grandi distanze è ciò che vuoi evitare. Con una p frazionaria, l'enfasi è sulle differenze nelle dimensioni più piccole - dimensioni che hanno valori intermedi - che ti danno più contrasto.


(+1) Quindi @David, in generale esiste un criterio che descrive la qualità del contrasto?
Dmitrij Celov,

Sembra che il primo documento che hai collegato suggerisca la distanza massima meno la distanza minima. Tuttavia, potrebbero esserci modi migliori.
David J. Harris,

buona intuizione chiara, +1 (anche se non è chiaro dove siano gli angoli nelle distribuzioni di distanza). Hai usato o su dati reali? L1L.5
denis,

1
@Denis Grazie! Penso che il bit degli angoli abbia più senso se i dati sono limitati al limite o tutte le dimensioni. Comunque, temo di non avere abbastanza esperienza con il clustering per avere buone intuizioni su diverse metriche per te. Per quanto fastidioso sia, l'approccio migliore potrebbe essere quello di provare alcuni e vedere cosa succede
David J. Harris,

1

C'è un documento che utilizza la metrica Lp con p tra 1 e 5 che potresti voler dare un'occhiata:

Amorim, RC e Mirkin, B., Minkowski Metric, ponderazione delle caratteristiche e inizializzazione del cluster anomalo in K-Clustering, riconoscimento dei modelli, vol. 45 (3), pagg. 1061-1075, 2012

Scarica, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf


0

Non so se il tuo sia un problema di inferenza. Se il problema è di inferire un vettore da base a determinati vincoli (che dovrebbe definire un insieme convesso chiuso) quando un'ipotesi preliminare dire è dato poi il vettore si inferisce minimizzando -distanza da over il set di vincoli (se non viene dato il precedente allora è solo minimizzando -norm). Il suddetto principio è giustificato come la cosa giusta da fare in determinate circostanze in questo documento http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176348385 .Rnu2uu2


tradizione e Csiszar dicono , Aggarwal e pochi altri L 1 o o ... Cosa fare? Senza solide ragioni, immagino che dipenda dalla tua mentalità / dalle tue precedenti convinzioni. L2L1L.5
denis,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.