Cosa significa quando diciamo che la maggior parte dei punti in un ipercubo sono al limite?


13

Se ho un ipercubo di 50 dimensioni. E definisco il limite di o dove è la dimensione dell'ipercubo. Quindi il calcolo della proporzione di punti sul limite dell'ipercubo sarà . Cosa significa? Significa che il resto dello spazio è vuoto? Se il dei punti si trova al limite, i punti all'interno del cubo non devono essere distribuiti uniformemente?0<Xj<0.050.95<Xj<1Xj0.99599%


3
No, significa che la periferia è più spaziosa e l'effetto è commisurato alla dimensionalità. È in qualche modo controintuitivo. Questo fenomeno ha conseguenze sulla distribuzione della distanza tra coppie casuali di nodi che diventano rilevanti quando si desidera raggruppare o calcolare i vicini più vicini in spazi ad alta dimensione.
Emre,

Calcola quale proporzione dei punti su un segmento di linea si trova vicino al suo confine. Quindi punta in un quadrato. Quindi punta in un cubo. Cosa puoi dire su di loro?
user253751

Risposte:


28

Parlare del 99% dei punti in un ipercubo ' è un po 'fuorviante poiché un ipercubo contiene infiniti punti. Parliamo invece di volume.

Il volume di un ipercubo è il prodotto delle sue lunghezze laterali. Per l'ipercubo dell'unità 50-dimensionale otteniamo

Volume totale=1×1××150 volte=150=1.

Ora escludiamo i confini dell'ipercubo e guardiamo "l' interno " (lo metto tra virgolette perché il termine matematico interno ha un significato molto diverso). Manteniamo solo i punti X=(X1,X2,...,X50) che soddisfano

0.05<X1<0.95 e 0.05<X2<0.95 e ... e 0.05<X50<0.95.
Qual è il volume di questo "interno"? Bene, "l'interno" è di nuovo un ipercubo e la lunghezza di ciascun lato è0.9 (=0.95-0.05 ... aiuta a immaginarlo in due e tre dimensioni). Quindi il volume è Volume
Volume interno=0.9×0.9××0.950 volte=0.9500.005.
Concludere che il volume del "limite" (definito come ipercubo unitario senza "interno ') è 1-0.9500.995.

Ciò dimostra che il 99,5% del volume di un ipercubo a 50 dimensioni è concentrato sul suo " confine ".


Follow-up: Ignatius ha sollevato un'interessante domanda su come ciò sia collegato alla probabilità. Ecco un esempio

Supponiamo che tu abbia ideato un modello (di apprendimento automatico) che prevede i prezzi delle abitazioni in base a 50 parametri di input. Tutti i 50 parametri di input sono indipendenti e distribuiti uniformemente tra 0 e 1 .

Diciamo che il tuo modello funziona molto bene se nessuno dei parametri di input è estremo: fintanto che ogni parametro di input rimane tra 0.05 e 0.95 , il tuo modello prevede il prezzo dell'alloggio quasi perfettamente. Ma se uno o più parametri di input sono estremi (inferiori a 0.05 o superiori a 0.95 ), le previsioni del modello sono assolutamente terribili.

Ogni dato parametro di input è estremo con una probabilità del solo 10% . Quindi chiaramente questo è un buon modello, giusto? No! La probabilità che almeno uno dei 50 parametri sia estrema è 1-0.9500.995. Quindi, nel 99,5% dei casi, la previsione del tuo modello è terribile.

Regola empirica: in dimensioni elevate, le osservazioni estreme sono la regola e non l'eccezione.


7
Vale la pena usare la citazione del PO "Significa che il resto dello spazio è vuoto?" e rispondendo: No, significa che il resto dello spazio è relativamente piccolo . . . O simile nelle tue stesse parole. . .
Neil Slater,

2
Spiegazione davvero piacevole del termine "maledizione della dimensionalità"
ignazio

Mi chiedo se quanto segue sia corretto: prendendo questo esempio, se un insieme di funzioni è distribuito uniformemente lungo [0,1] in ciascuna delle 50 dimensioni, il (99,5% -0,5%) = 99% del volume (caratteristica dell'ipercubo spazio) acquisisce solo i valori del 10% di ogni caratteristica
ignazio

"Ogni dato parametro di input è estremo con una probabilità solo del 5%." Penso che questa probabilità sia del 10%.
Rodvi,

@Rodvi: hai ragione ovviamente, grazie! Aggiustato.
Elias Strehle,

9

Puoi vedere chiaramente il motivo anche in dimensioni inferiori.

1a dimensione. Prendi una linea di lunghezza 10 e un limite di 1. La lunghezza del confine è 2 e il rapporto interno 8, 1: 4.

2a dimensione. Prendi un quadrato del lato 10 e di nuovo il confine 1. L'area del confine è 36, il rapporto interno 64, 9:16.

3a dimensione. Stessa lunghezza e confine. Il volume del confine è 488, l'interno è 512, 61:64 - già il confine occupa quasi lo stesso spazio interno.

4a dimensione, ora il confine è 5904 e l'interno 4096 - il confine è ora più grande.

Anche per lunghezze di confine sempre più piccole, poiché la dimensione aumenta, il volume di confine sorpasserà sempre l'interno.


0

Il modo migliore per "comprenderlo" (anche se è impossibile per un essere umano) è confrontare i volumi di una palla n-dimensionale e un cubo n-dimensionale. Con la crescita di n (dimensionalità) tutto il volume della palla "fuoriesce" e si concentra negli angoli del cubo. Questo è un utile principio generale da ricordare nella teoria dei codici e nelle sue applicazioni.

La migliore spiegazione del libro di testo è nel libro di Richard W. Hamming "Teoria dei codici e dell'informazione" (3.6 Geometric Approach, p 44).

Il breve articolo di Wikipedia ti fornirà un breve sommario dello stesso se tieni presente che il volume di un cubo unità n-dimensionale è sempre 1 ^ n.

Spero che sarà di aiuto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.