Qual è la maledizione della dimensionalità?


21

In particolare, sto cercando riferimenti (documenti, libri) che mostrino e spieghino rigorosamente la maledizione della dimensionalità. Questa domanda è nata dopo che ho iniziato a leggere questo white paper di Lafferty e Wasserman. Nel terzo paragrafo menzionano un'equazione "ben nota" che implica che il miglior tasso di convergenza è ; se qualcuno può spiegarlo (e spiegarlo), sarebbe molto utile.n4/(4d)

Inoltre, qualcuno può indicarmi un riferimento che deriva l'equazione "ben nota"?


7
Non posso esporre, ma credo di aver sentito come sembrano tre diverse versioni della maledizione: 1) dimensioni più elevate significano una quantità di lavoro esponenzialmente crescente, e 2) in dimensioni più elevate otterrai sempre meno esempi in ogni parte del tuo spazio campione e 3) in dimensioni elevate tutto tende ad essere sostanzialmente equidistante, rendendo difficile fare distinzioni.
Wayne,

5
Potresti interpretarlo geometricamente. Supponi di avere una sfera di dimensioni D con raggio r = 1. È quindi possibile porre la domanda su quale frazione del volume della sfera si trova tra raggio r = 1 e r = 1-e. Poiché sappiamo che il volume di una sfera scala come k (d) * r ^ (d), dove d è il numero di dimensioni, possiamo dedurre che la frazione è data da 1- (1-e) ^ d. Pertanto, per le sfere ad alta dimensione la maggior parte del volume è concentrata in un guscio sottile vicino alla superficie. Scopri di più al riguardo nel libro dei Vescovi "Riconoscimento dei modelli e apprendimento automatico".
Dr. Mike,

@Wayne Sure; più 5) più dims di solito significano più rumore.

Dr. Mike, non seguo la logica. Sembra che tu stia dicendo che "poiché la maggior parte del volume è concentrata in un guscio sottile vicino alla superficie della sfera ad alta dimensione, allora sei maledetto dalla dimensionalità". Puoi spiegarci ulteriormente e forse mostrarmi esplicitamente come l'analogia si lega alle statistiche?
Khoda,

Risposte:


9

A seguito di richiemorrisroe, ecco l'immagine pertinente da Elements of Statistical Learning , capitolo 2 (pp22-27):

ESL pagina 25

Come puoi vedere nel riquadro in alto a destra, ci sono più vicini 1 unità di distanza in 1 dimensione rispetto ai vicini 1 unità di distanza in 2 dimensioni. 3 dimensioni sarebbero anche peggio!


7

Questo non risponde direttamente alla tua domanda, ma David Donoho ha un bell'articolo sull'analisi dei dati ad alta dimensione: le maledizioni e le benedizioni della dimensionalità (le diapositive associate sono qui ), in cui menziona tre maledizioni:

  • Ottimizzazione mediante ricerca esaustiva : "Se dobbiamo approssimare approssimativamente una funzione di variabili e sappiamo solo che è Lipschitz, diciamo, allora abbiamo bisogno di valutazioni dell'ordine su una griglia per ottenere un minimizzatore approssimativo in errore . "( 1 / ϵ ) D ϵD(1/ϵ)Dϵ
  • Integrazione su domini di prodotto : "Se dobbiamo integrare una funzione di variabili e sappiamo solo che è Lipschitz, diciamo, allora abbiamo bisogno di valutazioni dell'ordine su una griglia per ottenere uno schema di integrazione con errore . "( 1 / ϵ ) D ϵd(1/ϵ)Dϵ
  • Approssimazione su domini ad alta dimensione : "Se dobbiamo approssimare una funzione di variabili e sappiamo solo che è Lipschitz, diciamo, allora abbiamo bisogno di valutazioni dell'ordine su una griglia per ottenere un'approssimazione schema con errore di approssimazione uniforme . "( 1 / ϵ ) D ϵD(1/ϵ)Dϵ

6

So che mi riferisco ad esso, ma c'è una grande spiegazione di questo è gli Elementi di apprendimento statistico , capitolo 2 (pp22-27). Fondamentalmente notano che all'aumentare delle dimensioni, la quantità di dati deve aumentare (esponenzialmente) con essa o non ci saranno abbastanza punti nello spazio campione più ampio per poter eseguire qualsiasi analisi utile.

Si riferiscono a un articolo di Bellman (1961) come la loro fonte, che sembra essere il suo libro Adaptive Control Processes, disponibile da Amazon qui


+1. La spiegazione in ESL è ottima e gli schemi associati aiutano molto.
Zach,

2

inserisci qui la descrizione dell'immagine

Forse l'impatto più noto è catturato dal seguente limite (che è (indirettamente) illustrato nella figura sopra):

limdimdistmaxdistmindistmin

La distanza nella foto è la distanza euclidea basata su . Il limite esprime che la nozione di distanza cattura sempre meno informazioni sulla somiglianza con l'aumento della dimensionalità. Ciò influisce su algoritmi come il k-NN. Consentendo le frazioni per in -norms, l'effetto descritto può essere modificato .k L kL2kLk


Impatto della dimensionalità sui dati nelle immagini

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.