Quando è significativo il "prossimo più vicino", oggi?

Nel 1999, Beyer et al. chiesto, quando è significativo il "prossimo più vicino"?

Esistono modi migliori per analizzare e visualizzare l'effetto della planarità della distanza sulla ricerca NN dal 1999?

[Un dato] set di dati fornisce risposte significative al problema 1-NN? Il problema di 10-NN? Il problema 100-NN?

In che modo gli esperti affronterebbero oggi questa domanda?

Modifiche lunedì 24 gennaio:

Che ne dici di "distanza distanza" come nome più breve di "distanza piatta con dimensione crescente"?

Un modo semplice per vedere il "whiteout della distanza" è correre 2-NN e tracciare le distanze dal vicino più vicino e dal secondo vicino più vicino. La trama seguente mostra dist ₁ e dist ₂ per una gamma di ncluster e dimensioni, di Monte Carlo. Questo esempio mostra un contrasto di distanza piuttosto buono per la differenza assoluta in scala | dist ₂ - dist ₁ |. (Le differenze relative | dist ₂ / dist ₁ | → 1 come dimensione → ∞, quindi diventano inutili.)

Se errori assoluti o errori relativi debbano essere utilizzati in un dato contesto dipende ovviamente dal rumore "reale" presente: difficile.

Suggerimento: eseguire sempre 2-NN; 2 vicini sono utili quando sono vicini e utili quando no.

inserisci qui la descrizione dell'immagine

machine-learning k-nearest-neighbour

— Denis
fonte

Beyer et al. sembra che affronti un aspetto leggermente diverso del problema NN. Ma, ai fini della classificazione (binaria), in condizioni lievi, è un risultato classico che la classificazione 1-NN ha, nel peggiore dei casi , due volte la probabilità di errore del classificatore di Bayes (cioè ottimale) asintoticamente. In altre parole, il primo vicino più vicino contiene "almeno la metà delle informazioni" sull'etichetta del bersaglio come fa il miglior classificatore. In questo senso, l'1-NN sembra abbastanza rilevante. (Vedi Cover & Hart (1967) per ulteriori informazioni. Sono sorpreso che Beyer et al. Non lo citino.)

— Cardinale

@cardinale, il limite di Cover-Hart sembra non dipendere affatto dalla dimensione, come dici un aspetto diverso?

— denis,

sì, credo che questo sia vero e questo è stato, in gran parte, il mio punto nel sollevarlo. 1-NN sembra abbastanza rilevante in questo senso, cioè il fatto che funzioni (così) bene (teoricamente) in modo uniforme nella dimensione dello spazio delle caratteristiche sembra aiutarlo a stare da solo, indipendentemente da quale sia il comportamento del più vicino e i vicini più lontani si trovano in un ampio spazio dimensionale. Mi chiedo se Beyer fosse a conoscenza di tutto questo risultato (classico).

— cardinale

@cardinal La parte superiore di pagina 24 in Cover and Hart sembra un luogo in cui un problema potrebbe potenzialmente sorgere nella loro prova, nel passo in cui Cover e Hart sostengono che ogni camper x \ in X ha la proprietà che ogni sfera aperta su x ha misura diversa da zero. Se consideriamo la geometria dell'ipersfera, vediamo che il volume dell'interno dell'ipersfera si restringe con dimensioni crescenti, quindi, nel limite, la sfera aperta attorno a x contiene solo x al suo interno. In alternativa, tramite la SLLN, i iid RVs nello spazio metrico X giacciono tutti sulla superficie dell'ipersfera con probabilità uno.

— Bob Durrant,

Vedi anche le metriche L1 o L.5 per il clustering .

— denis,

Risposte:

Non ho una risposta completa a questa domanda, ma posso dare una risposta parziale su alcuni aspetti analitici. Avvertenza: ho lavorato su altri problemi sin dal primo documento di seguito, quindi è molto probabile che ci siano altre cose buone di cui non sono a conoscenza.

Innanzitutto penso che valga la pena notare che, nonostante il titolo del loro articolo "Quando è significativo il prossimo più vicino", Beyer et al hanno effettivamente risposto a una domanda diversa, vale a dire quando NN non è significativa. Abbiamo dimostrato il contrario al loro teorema, con alcune lievi ipotesi aggiuntive sulla dimensione del campione, in Quando è significativo il più vicino vicino: un teorema inverso e implicazioni. Journal of Complexity, 25 (4), agosto 2009, pagine 385-397.e ha mostrato che ci sono situazioni in cui (in teoria) la concentrazione delle distanze non sorgerà (diamo esempi, ma in sostanza il numero di caratteristiche non-rumore deve crescere con la dimensionalità, quindi ovviamente raramente sorgono nella pratica). I riferimenti 1 e 7 citati nel nostro documento forniscono alcuni esempi di modi in cui la concentrazione della distanza può essere mitigata nella pratica.

Un articolo del mio supervisore, Ata Kaban, esamina se questi problemi di concentrazione della distanza persistono nonostante l'applicazione delle tecniche di riduzione della dimensionalità in Consapevolezza della concentrazione a distanza di alcune tecniche di riduzione dei dati. Riconoscimento del modello. Vol. 44, Numero 2, Febbraio 2011, pagg. 265-277. . C'è anche qualche bella discussione lì dentro.

Un recente articolo di Radovanovic et al. Hubs in Space: Popolari vicini più vicini nei dati ad alta dimensione. JMLR, 11 (set), settembre 2010, pagg. 2487–2531. discute la questione dell '"hubness", cioè quando un piccolo sottoinsieme di punti appartiene ai vicini più vicini di molte delle osservazioni etichettate. Vedi anche la tesi di dottorato del primo autore, che si trova sul web. $k$

— Bob Durrant
fonte

Grazie Bob, +1. Una domanda correlata, avresti una regola empirica per la scelta di un valore di metrica frazionaria q (o dovrei fare una domanda separata)?

— denis,

q = 1 / p

$q=1/p$

p > 1

$p>1$

p

$p$

l_{0}

$l_0$

p = 1

$p=1$

l_{1}

$l_{1}$

l_{q = 1 / p}

$l_{q=1/p}$

p > 1

$p>1$

p

$p$

\sum | a_{j} - b_{j} |^{q}

$\sum |a_j - b_j|^q$

1 / q

$1/q$

< q <

$< q <$

ℓ_{p}

$\ell_{p}$

— Bob Durrant,

Potresti anche essere interessato all'analisi dei componenti di quartiere di Goldberger et al.

Qui, viene appresa una trasformazione lineare per massimizzare i punti previsti correttamente classificati tramite una selezione stocastica del quartiere più vicino.

Come effetto collaterale il numero (atteso) di vicini è determinato dai dati.

— bayerj
fonte

Grazie Bayer. Sembra che "l'apprendimento della metrica a distanza" sia in forte espansione - scholar.goo ha 50 titoli dal 2008. Ma è il boom paper o il vero uso? Nota in calce, il codice per nca dice "iterazioni ... almeno 100000 per buoni risultati". Nota 2, la maggior parte del lavoro sull'apprendimento della metrica a distanza sembra modellare una distanza di Mahalanobis; conosceresti altri modelli di distanza?

— denis,

Ho diverse esperienze con l'ANC - di solito converge abbastanza velocemente per me. Acquista "riduzione della dimensionalità attraverso l'apprendimento di una mappatura invariante" di LeCun e "Minimal Lash Hashing for Compact Binary Codes" di Norouzi.

— bayerj