Metodi non parametrici come K-Neighbour-Neighbors in High Feature Dimensional Feature Space


11

L'idea principale di k-più vicino-prossimo tiene conto dei punti più vicini e decide la classificazione dei dati a maggioranza dei voti. In tal caso, non dovrebbe avere problemi nei dati di dimensione superiore perché metodi come l' hashing sensibile alla località possono trovare in modo efficiente i vicini più vicini.k

Inoltre, la selezione delle funzionalità con le reti bayesiane può ridurre la dimensione dei dati e facilitare l'apprendimento.

Tuttavia, questo articolo di revisione di John Lafferty sull'apprendimento statistico sottolinea che l'apprendimento non parametrico in spazi caratteristici ad alta dimensione è ancora una sfida e irrisolto.

Cosa non va?


1
Fornire un riferimento completo per l'articolo; gli autori non sembrano apparire (in modo evidente) in esso.
Raffaello

Risposte:


5

Questo problema è noto come la maledizione della dimensionalità . Fondamentalmente, quando si aumenta il numero di dimensioni, , i punti nello spazio generalmente tendono ad allontanarsi da tutti gli altri punti. Ciò rende molto difficile il partizionamento dello spazio (come è necessario per la classificazione o il raggruppamento).d

Puoi vederlo da solo molto facilmente. Ho generato punti D- dimensionali casuali nell'ipercubo unitario a 20 valori di d equamente selezionati da 1 a 1000 . Per ogni valore di d ho calcolato la distanza dal primo punto a tutti gli altri e ho preso la media di queste distanze. Tracciando questo, possiamo vedere che la distanza media aumenta con la dimensionalità anche se lo spazio in cui stiamo generando i punti in ogni dimensione rimane lo stesso.50dd1..1000d

Distanza media vs. dimensionalità


Ovviamente. Si aumenta il numero di punti in un'ipersfera di raggio fisso esponenzialmente nella dimensione, quindi se si scelgono 50 punti in modo uniforme a caso ciò deve accadere. Pertanto, se il tuo ragionamento è corretto, il partizionamento dovrebbe diventare facile se ho molti campioni; è così?
Raffaello

Credo che tu l'abbia invertito. Aumentando la dimensionalità, RIDUCO il numero di punti all'interno di un'ipersfera. Il partizionamento diventa più difficile perché la misura della distanza perde essenzialmente il suo significato (ad esempio, tutto è lontano).
Nick,

KNn|NnSn(K)|n

ndn<<d

Non vedo che questo valga per definizione; sembra essere una convenzione basata sull'esperienza, però.
Raffaello

3

Non una risposta completa, ma la pagina di Wikipedia che hai citato afferma:

L'accuratezza dell'algoritmo k-NN può essere gravemente degradata dalla presenza di funzioni rumorose o irrilevanti o se le scale delle caratteristiche non sono coerenti con la loro importanza.

La probabilità che ciò accada aumenta in presenza di spazi caratteristici ad alta dimensione.


Ma penso che con PCA (analisi dei componenti principali) o altri metodi per ridurre la dimensionalità e rimuovere i dati irrilevanti, k-NN può ancora funzionare. E ciò che significano le pagine di Wikipedia è che l'ingenuo k-NN fallirà. Quindi questo non spiega il documento di revisione.
Strin

PCA può certamente funzionare, ma non in tutte le situazioni.
Dave Clarke,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.