Ho un set di dati con 11 variabili e PCA (ortogonale) è stato fatto per ridurre i dati. Decidere il numero di componenti da mantenere era evidente per me dalle mie conoscenze sull'argomento e sulla trama del ghiaione (vedi sotto) che due componenti principali (PC) erano sufficienti per spiegare i dati e i restanti componenti erano solo meno informativi.

Grafico ghiaione con analisi parallele: autovalori osservati (verde) e autovalori simulati basati su 100 simulazioni (rosso). La trama di ghiaione suggerisce 3 PC, mentre il test parallelo suggerisce solo i primi due PC.
Come puoi vedere, solo il 48% della varianza potrebbe essere catturato dai primi due PC.
Tracciare osservazioni sul primo piano fatte dai primi 2 PC ha rivelato tre diversi cluster usando il clustering agglomerativo gerarchico (HAC) e il clustering dei mezzi K. Questi 3 cluster si sono rivelati molto rilevanti per il problema in questione e sono stati coerenti anche con altri risultati. Quindi, tranne il fatto che solo il 48% della varianza è stato catturato, tutto il resto andava incredibilmente bene.
Uno dei miei due revisori ha dichiarato: non si può fare molto affidamento su questi risultati in quanto solo il 48% della varianza potrebbe essere spiegato ed è inferiore al necessario.
Domanda
Esiste un valore richiesto per quanto la varianza deve essere acquisita da PCA per essere valida? Non dipende dalla conoscenza del dominio e dalla metodologia in uso? Qualcuno può giudicare il merito dell'intera analisi basandosi solo sul valore della varianza spiegata?
Appunti
- I dati sono 11 variabili di geni misurati da una metodologia molto sensibile in biologia molecolare chiamata Real-Time Quantitative Polymerase Chain Reaction (RT-qPCR).
- Le analisi sono state fatte usando R.
- Sono molto apprezzate le risposte degli analisti di dati basate sulla loro esperienza personale che lavora su problemi della vita reale nei campi dell'analisi dei microarray, della chemiometria, delle analisi spettometriche o simili.
- Per favore, considera di supportarti nella risposta con riferimenti il più possibile.