Sto facendo un'analisi Matlab sui dati MRI in cui ho eseguito PCA su una matrice di dimensioni 10304x236 in cui 10304 è il numero di voxel (pensali come pixel) e 236 è il numero di timepunti. Il PCA mi dà 236 autovalori e i relativi coefficienti. Va tutto bene. Tuttavia, quando arriva il momento di decidere quanti componenti conservare, il documento che sto replicando dice quanto segue (per favore fatemi sapere se sono necessari chiarimenti in quanto questa è solo una breve parte dell'intero documento):
Abbiamo quindi eseguito simulazioni Monte Carlo per determinare il numero di componenti principali (PC) da estrarre dai dati ROI fastidiosi per ogni scansione. Una distribuzione nulla degli autovalori previsti è stata generata separatamente per i dati di codifica e di riposo per ciascun soggetto eseguendo PCA su dati normalmente distribuiti di uguale rango ai dati di ROI di fastidio di codifica e di riposo. I PC dai dati ROI fastidiosi reali sono stati quindi selezionati per un dato riposo o scansione di codifica se i loro autovalori associati superavano il 99 ° intervallo di confidenza degli autovalori dalle simulazioni Monte Carlo.
Non ho assolutamente idea di cosa fare qui. Sono abituato a scegliere i componenti in base alla varianza cumulativa spiegata. Il mio pensiero è questo, però:
Abbiamo quindi eseguito simulazioni Monte Carlo per determinare il numero di componenti principali (PC) da estrarre dai dati ROI fastidiosi per ogni scansione.
I sim di Monte Carlo intendono semplicemente fare le seguenti 1000 (o simili) volte, giusto?
Una distribuzione nulla degli autovalori attesi è stata generata eseguendo PCA su dati normalmente distribuiti di uguale rango ai dati ROI di fastidio di codifica e riposo.
In primo luogo, suppongo che "uguale rango" significhi sostanzialmente che creerò una matrice delle stesse dimensioni dell'originale (10304x236). In termini di "dati normalmente distribuiti di uguale rango" ... significa che dovrei creare una matrice 10304x236 di numeri casuali dalla distribuzione normale? Matlab ha una funzione chiamata 'normrnd' che lo fa ma richiede un input mu e sigma. Userei lo stesso mu e sigma di quelli derivati dal set di dati iniziale? È più o meno ciò che si intende per "autovalori attesi" in quanto non ho idea di come sarebbe una distribuzione di autovalori ATTESI.
Immagino che il mio problema sia più o meno che non so come fare una "distribuzione nulla" di autovalori.