In Elements of Statistical Learning , viene introdotto un problema per evidenziare i problemi con k-nn in spazi ad alta dimensione. Esistono punti dati distribuiti uniformemente in una sfera di unità dimensionale.
La distanza mediana dall'origine al punto dati più vicino è data dall'espressione:
Quando , la formula si divide a metà del raggio della palla, e posso vedere come il punto più vicino si avvicina al bordo come , rendendo così l'intuizione dietro knn rompersi in dimensioni elevate. Ma non riesco a capire perché la formula abbia una dipendenza da N. Qualcuno potrebbe chiarire, per favore?
Anche il libro affronta ulteriormente questo problema affermando: "... la previsione è molto più difficile vicino ai bordi del campione di addestramento. Bisogna estrapolare dai punti di campionamento vicini piuttosto che interpolare tra di loro". Sembra un'affermazione profonda, ma non riesco a capire cosa significhi. Qualcuno potrebbe riformulare?