Capisco cos'è la "maledizione della dimensionalità" e ho fatto alcuni problemi di ottimizzazione dimensionale elevata e conosco la sfida delle possibilità esponenziali.
Tuttavia, dubito che la "maledizione della dimensionalità" esista nella maggior parte dei dati del mondo reale (beh, mettiamo da parte immagini o video per un momento, sto pensando a dati come i dati demografici dei clienti e il comportamento degli acquisti).
Siamo in grado di raccogliere dati con migliaia di funzionalità, ma è meno probabile che sia addirittura impossibile che le funzionalità possano estendersi completamente in uno spazio con migliaia di dimensioni. Ecco perché le tecniche di riduzione dimensionale sono così popolari.
In altre parole, è molto probabile che i dati non contengano il livello esponenziale di informazioni, vale a dire che molte funzionalità sono altamente correlate e molte funzionalità soddisfano le regole 80-20 (molte istanze hanno lo stesso valore).
In tal caso, penso che metodi come KNN funzioneranno ancora abbastanza bene. (Nella maggior parte dei libri la "maledizione della dimensionalità" afferma che la dimensione> 10 potrebbe essere problematica. Nelle loro dimostrazioni usano una distribuzione uniforme in tutte le dimensioni, dove l'entropia è davvero elevata. Dubito che nel mondo reale ciò accadrà mai.)
La mia esperienza personale con dati reali è che la "maledizione della dimensionalità" non influisce troppo sul metodo del modello (come KNN) e, nella maggior parte dei casi, dimensioni ~ 100 funzionerebbero comunque.
È vero per le altre persone? (Ho lavorato con dati reali in diversi settori per 5 anni, non ho mai osservato "tutte le coppie di distanze hanno valori simili" come descritto nel libro.)