Calcolo della distanza dal kth vicino più vicino per tutti i punti nel set

Per un'applicazione di apprendimento della macchina, i miei bisogni di gruppo per calcolare la distanza euclidea al esimo vicino più prossimo in un insieme per ogni (per tra il 5 e circa 100 e alcune centinaia fino a qualche milione). Attualmente stiamo usando l'approccio o quello ovvio con un albero kd su , che quando è alto eè relativamente basso non vince mai. (Tutto è in memoria.) $k$ $X$ $x \in (X \cup Y) \subset \mathbb R^d$ $d$ $|X| \approx |Y|$ $O(d \lvert X \rvert \lvert X \cup Y \rvert)$ $X$ $d$ $|X|$

Sembra che ci debba essere un modo migliore della forza bruta, almeno - almeno uno che sfrutti la disuguaglianza del triangolo, o forse con gli hash sensibili alla località. Un'approssimazione ragionevolmente stretta è anche potenzialmente a posto.

La ricerca che sono stato in grado di trovare sembra concentrarsi sul problema di trovare il vicino più vicino (o uno che è approssimativamente il più vicino). Il problema che sto cercando va con un altro nome o c'è una connessione a un problema correlato a cui non ho pensato?

reference-request cg.comp-geom near-neighbors

— Dougal
fonte

i kd-alberi sfruttano la disuguaglianza del triangolo. Hai provato ad usare altri alberi di partizionamento dei dati spaziali? Un'altra cosa che potresti esaminare (non so nulla del tuo algoritmo di apprendimento automatico) se i punti specifici tendono ad avere una struttura, il che potrebbe aiutarti a trovare rapidamente iperpiani e usarli in un albero simile a kd invece del solito mediano per- divisione delle coordinate che si comporta male in dimensioni elevate.

— Ross Snider,

@RossSnider grazie per i suggerimenti. E sicuramente, gli alberi KD usano la disuguaglianza del triangolo, ma stavo pensando a qualcosa che sarebbe stato più veloce della forza bruta. :) Quali altri tipi di alberi di partizionamento dei dati spaziali consiglieresti? Della lista di Wikipedia solo forse gli alberi vp sembrano applicabili, e non sembrano essere migliori degli alberi kd per la distanza euclidea. E penserò se esiste un modo migliore per i problemi specifici per definire gli iperpiani di separazione, ma non ci viene in mente.

— Dougal,

Immagino che sperassi che il fatto che sappiamo che stiamo valutando questo per tutti gli (così come altri punti) consentirebbe un qualche tipo di aiuto nell'algoritmo. Non sono sicuro che sia così, però.

X

$X$

— Dougal,

che cosa è in genere nelle tue applicazioni?

k

$k$

— Suresh Venkat,

@SureshVenkat Usiamo solitamente una di circa 3, a volte un po 'più grande.

k

$k$

— Dougal,

Risposte:

Ecco un semplice trucco che potrebbe essere utile. Considera un campione casuale che prende ogni punto con probabilità 1 / k. È facile verificare che, con buona probabilità, nel campione si trovasse esattamente uno dei tuoi k vicini più vicini. Calcola il vicino più vicino nel campione. Ripetere questa O (k log n) volte. Con alta probabilità i k punti più vicini nei punti calcolati sono i k vicini più vicini alla tua query. Quindi, trovare il k vicino più vicino, equivale a fare query vicino più vicino. $O(k \log n)$ $O( k \log n)$

In breve, dammi una struttura dati veloce per rispondere alle domande del vicino più vicino e sarei felice di darti una struttura dati veloce del vicino k più vicino.

— Sariel Har-Peled
fonte

Bel trucco. Dovrebbe essere corretto riutilizzare i campioni anche per diversi punti di query, giusto? Quindi per calcolare il -nearest-neighbour per ogni punto dell'insieme, ho solo bisogno di costruire la struttura dati volte.

k

$k$

O (k \log n)

$O(k \log n)$

— Dougal,

Riutilizzare i campioni è complicato, perché in questo caso è necessario che un campione fisso funzioni per QUALSIASI query (la quantificazione viene invertita) e quindi le probabilità cambieranno. L'idea generale sarebbe quindi quella di costruire una serie di campioni di dimensioni maggiori (questo dipende dalle #query) e usarli, se questo è un problema.

— Suresh Venkat,

@SureshVenkat Ah, certo. Mi siederò e scoprirò le reali probabilità. Grazie a tutti!

— Dougal,

Se campioni , ogni query ha esito positivo con probabilità . Nota che questo trucco è leggermente migliore di quanto sembri a prima vista: hai campioni , ognuno dei quali di dimensioni (con alta probabilità se non è troppo grande). Ciò significa tempi di interrogazione migliori per ciascuno dei campioni.

O (k \log (1 / δ))

$O( k \log (1/\delta))$

\geq 1 - δ

$\geq 1-\delta$

O (k \log n)

$O(k \log n)$

O (n / k)

$O( n/k)$

k

$k$

— Sariel Har-Peled,

Una soluzione approssimativa economica che utilizza un "hash sensibile alla località" sarebbe quella di convertire ciascun punto nella sua forma bit interfogliata:

[xxx, yyy, zzz] -> xyzxyzxyz

quindi radix sort per la preelaborazione.

Scegli il punto su cui eseguire la query e vai punti in entrambe le direzioni per ottenere un set di dimensioni ; quindi prendi il più vicino al tuo punto. Vedi anche questo articolo di Connor e Kumar. $k$ $2k$ $kth$

Vedi anche questo articolo di Callahan e Kosaraju.

— Chad Brewbaker
fonte