Questo è citato molto spesso quando si parla della maledizione della dimensionalità e va
(formula a destra chiamata contrasto relativo)
Il risultato del teorema mostra che la differenza tra le distanze massima e minima rispetto a un determinato punto di interrogazione non aumenta tanto rapidamente quanto la distanza più vicina a qualsiasi punto nello spazio dimensionale elevato. Ciò rende una query di prossimità insignificante e instabile perché vi è una scarsa discriminazione tra il vicino più vicino e il più lontano.
Tuttavia, se si prova effettivamente a calcolare il contrasto relativo per i valori campione, il che significa che si prende un vettore contenente valori molto piccoli e si calcola la distanza dal vettore zero e si fa lo stesso per un vettore contenente valori molto più grandi, quindi si confrontano i valori per una dimensione di 3 e una dimensione volte più grande, si vedrà che, mentre il rapporto diminuisce, il cambiamento è talmente piccolo da essere irrilevante per il numero di dimensioni effettivamente utilizzate nella pratica (o qualcuno conosce qualcuno che lavora con dati con dimensioni le dimensioni del numero di Graham - che immagino siano le dimensioni necessarie affinché l'effetto descritto nel documento sia effettivamente rilevante - penso di no).
Come accennato in precedenza, questo teorema viene spesso citato per sostenere l'affermazione secondo cui misurare la prossimità basata sullo spazio euclideo è una strategia scadente in uno spazio ad alta dimensione, dicono gli stessi autori, eppure il comportamento proposto non ha effettivamente luogo, rendendomi penso che questo teorema sia stato usato in modo fuorviante.
Esempio: con d
la dimensione
a=np.ones((d,)) / 1e5
b=np.ones((d,)) * 1e5
dmin,dmax=norm(a), norm(b)
(dmax-dmin)/dmin
per d = 3
9999999999.0
per d = 1e8
9999999998.9996738
E con 1e1 invece di 1e5 (diciamo che i dati sono normalizzati)
per d = 3
99.0
per d = 1e8
98.999999999989527