Se ho un set di dati con osservazioni e variabili (dimensioni), e generalmente è piccolo ( ), e può variare da piccolo ( ) a forse molto più grande ( ).p n n = 12 - 16 p p = 4 - 10 p = 30 - 50
Ricordo di aver appreso che dovrebbe essere molto più grande di per eseguire l'analisi dei componenti principali (PCA) o l'analisi dei fattori (FA), ma sembra che questo potrebbe non essere così nei miei dati. Si noti che per i miei scopi raramente sono interessato a qualsiasi componente principale oltre PC2.p
Domande:
- Quali sono le regole empiriche per la dimensione minima del campione quando il PCA è OK da usare e quando non lo è?
- È mai OK usare i primi PC anche se o ?n < p
- Ci sono riferimenti su questo?
Importa se il tuo obiettivo principale è usare PC1 e possibilmente PC2:
- semplicemente graficamente, oppure
- come variabile sintetica quindi utilizzata nella regressione?