Supponendo che io abbia un set di dati con dimensioni (es. ) in modo che ogni dimensione sia iid (in alternativa, ogni dimensione ) e indipendente da l'un l'altro.
Ora disegno un oggetto casuale da questo set di dati e prendo il vicini più vicini e calcolo il PCA su questo set. Contrariamente a quanto ci si potrebbe aspettare, gli autovalori non sono tutti uguali. In 20 dimensioni uniformi, un risultato tipico è simile al seguente:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
Per i normali dati distribuiti, i risultati sembrano essere molto simili, almeno quando li riscaliamo per una somma totale di (la distribuzione ha chiaramente una varianza maggiore in primo luogo).
Mi chiedo se ci sono risultati che predicono questo comportamento? Sto cercando un test se la serie di autovalori è in qualche modo regolare, e quanti autovalori sono come attesi e quali differiscono in modo significativo dai valori attesi.
Per una determinata (piccola) dimensione del campione , c'è un risultato se un coefficiente di correlazione per due variabili è significativo? Anche le variabili iid avranno occasionalmente un risultato diverso da 0 per basso .