Distribuzione stimata di autovalori per dati iid (uniformi o normali)

Supponendo che io abbia un set di dati con dimensioni (es. ) in modo che ogni dimensione sia iid (in alternativa, ogni dimensione ) e indipendente da l'un l'altro. $d$ $d=20$ $X_i \sim U[0;1]$ $X_i \sim \mathcal N[0;1]$

Ora disegno un oggetto casuale da questo set di dati e prendo il vicini più vicini e calcolo il PCA su questo set. Contrariamente a quanto ci si potrebbe aspettare, gli autovalori non sono tutti uguali. In 20 dimensioni uniformi, un risultato tipico è simile al seguente: $k=3\cdot d$

0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625

Per i normali dati distribuiti, i risultati sembrano essere molto simili, almeno quando li riscaliamo per una somma totale di (la distribuzione ha chiaramente una varianza maggiore in primo luogo). $1$ $\mathcal N[0;1]^d$

Mi chiedo se ci sono risultati che predicono questo comportamento? Sto cercando un test se la serie di autovalori è in qualche modo regolare, e quanti autovalori sono come attesi e quali differiscono in modo significativo dai valori attesi.

Per una determinata (piccola) dimensione del campione , c'è un risultato se un coefficiente di correlazione per due variabili è significativo? Anche le variabili iid avranno occasionalmente un risultato diverso da 0 per basso . $k$ $k$

normal-distribution uniform eigenvalues

— Ha QUIT - Anony-Mousse
fonte

hmmm, potresti stampare quei risultati con meno sig fichi? Non posso analizzarli facilmente ...

— Shabbychef,

Bene, come puoi vedere la grandezza è di interesse. Ingenuamente, ci si aspetterebbe che tutti abbiano la stessa grandezza.

— Ha QUIT - Anony-Mousse il

Esiste una vasta letteratura sulla distribuzione degli autovalori per le matrici casuali (puoi provare con google la teoria delle matrici casuali). In particolare, la distribuzione Marcenko-Pastur prevede la distribuzione di autovalori per la matrice di covarianza dei dati con media zero e varianza uguale man mano che il numero di variabili e osservazioni va all'infinito. Strettamente correlata è la distribuzione dei semicerchi di Wigner. $i.i.d.$

— John
fonte