Spiegazione della formula per il punto più vicino mediano all'origine di N campioni dalla sfera unitaria


11

In Elements of Statistical Learning , viene introdotto un problema per evidenziare i problemi con k-nn in spazi ad alta dimensione. Esistono punti dati distribuiti uniformemente in una sfera di unità dimensionale.Np

La distanza mediana dall'origine al punto dati più vicino è data dall'espressione:

d(p,N)=(1(12)1N)1p

Quando , la formula si divide a metà del raggio della palla, e posso vedere come il punto più vicino si avvicina al bordo come , rendendo così l'intuizione dietro knn rompersi in dimensioni elevate. Ma non riesco a capire perché la formula abbia una dipendenza da N. Qualcuno potrebbe chiarire, per favore?N=1p

Anche il libro affronta ulteriormente questo problema affermando: "... la previsione è molto più difficile vicino ai bordi del campione di addestramento. Bisogna estrapolare dai punti di campionamento vicini piuttosto che interpolare tra di loro". Sembra un'affermazione profonda, ma non riesco a capire cosa significhi. Qualcuno potrebbe riformulare?


1
Devi modificare un po 'l'equazione visualizzata. Questo esponente applicabile solo a quello nel numeratore come appare ora, o volevi che si applicasse all'intero ? 1N112
Dilip Sarwate,

1
Aiuterebbe a distinguere l '"ipersfera" (che in è una varietà di dimensioni ) dalla "sfera unitaria" (che ha dimensione ). L'ipersfera è il confine della palla. Se, come dice il titolo, tutti i punti vengono campionati dall'ipersfera , allora - per definizione - hanno tutti la distanza dall'origine, la distanza mediana è e tutti sono ugualmente vicini all'origine. Rpp1p11
whuber

@DilipSarwate Viene applicato all'intero . Nel libro c'è un esempio in cui so12N=500,p=10d(p,N)0.52
user64773

Risposte:


8

Il volume di un HyperBall dimensionale di raggio ha un volume proporzionale .r r pprrp

Quindi la proporzione del volume più di una distanza dall'origine è .r p - ( k r ) pkrrp(kr)prp=1kp

La probabilità che tutte punti scelti a caso sono più di una distanza dall'origine è . Per ottenere la distanza mediana dal punto casuale più vicino, impostare questa probabilità uguale a . Quindik r ( 1 - k p ) N 1Nkr(1kp)N (1-kp)N=112

(1kp)N=12
k=(1121/N)1/p.

Intuitivamente questo fa una sorta di senso: i punti più casuali ci sono, più ci si aspetta quello più vicino alle origini per essere, quindi si dovrebbe aspettare sia una funzione decrescente del . Qui è una funzione decrescente di , quindi è una funzione crescente di , e quindi è una funzione decrescente di come è la sua radice .N 2 1 / N N 1kN21/NN N1-1121/NN Np1121/NNp


Ah, bel modo di vederlo. Saresti in grado di reinterpretare la citazione nella mia seconda domanda?
user64773

Ho il sospetto che possa suggerire che in dimensioni elevate, i punti da prevedere sono effettivamente molto lontani dai dati di allenamento, come se fossero sul bordo di una sfera, quindi non si sta realmente interpolando ma piuttosto estrapolando, e quindi le incertezze sono molto maggiori. Ma non lo so davvero.
Henry,

Non capisco - capisco perché questa espressione è la probabilità che tutti i punti siano più lontani di kr, ma perché impostare questa probabilità su 1/2 fornisce la distanza mediana ??
ihadanny,

1
@ihadanny: il valore indica la frazione del raggio in cui la probabilità che tutti gli punti siano più distanti è e quindi dove la probabilità che almeno un punto sia più vicino è , quindi è la mediana della distribuzione della distanza del punto più vicino. N1k=(1121/N)1/pN 1-112 kr112=12kr
Henry,

Definizione di mediana, metà sono più grandi e metà sono più piccoli.
Concedi Izmirlian il

1

E ora senza agitare la mano

  1. Per qualsiasi sequenza di iid rv's, dove è il CDF comune

    P(min1iNYi>y)=(1F(y))N,
    F
  2. Quindi se abbiamo iid distribuito uniformemente nella sfera unitaria in dimensioni , allora dove è la CDF comuni delle distanze, . Infine, qual è il CDF, , per un punto uniformemente distribuito nella sfera unitaria in ? La probabilità che il punto si trovi nella sfera del raggio r all'interno della sfera del raggio unitario è uguale al rapporto dei volumi:NXip

    P(min1iN||Xi||>r)=(1F(r))N,
    F||Xi||,i=1,2,,NFRp

F(r)=P(||Xi||r)=Crp/(C1p)=rp

Quindi la soluzione a

1/2=P(min1iN||Xi||>r)=(1rp)N

è

r=(1(1/2)1/N)1/p.

Anche le tue domande su dipendenza dalla dimensione del campione, . Per fisso, quando la palla si riempie di più punti, naturalmente la distanza minima dall'origine dovrebbe ridursi.Np

Infine, c'è qualcosa che non va nel rapporto tra i volumi. Sembra che dovrebbe essere il volume della sfera dell'unità in .kRp


0

Come conciso ma a parole:

Vogliamo trovare la distanza mediana del punto più vicino all'origine in punti distribuiti uniformemente nella palla all'origine del raggio unitario in dimensioni . La probabilità che la distanza minima superi , (chiama questa espressione di quantità [1]) è la potenza della probabilità che un singolo punto uniformemente distribuito superi , a causa dell'indipendenza statistica. Quest'ultimo è uno meno la probabilità che un singolo punto uniformemente distribuito sia inferiore a . Quest'ultimo è il rapporto tra i volumi della sfera del raggio rispetto alla sfera del raggio unitario, o . Ora possiamo scrivere expression [1] comeNprNthrrrrp

P(min1iN||Xi||>r)=(1rp)N.

Per trovare la mediana della distribuzione del minimo delle distanze, impostare la probabilità di cui sopra a e risolvere per , ottenendo la risposta.1/2r

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.