C'è una quantità richiesta di varianza acquisita dal PCA per fare analisi successive?

Ho un set di dati con 11 variabili e PCA (ortogonale) è stato fatto per ridurre i dati. Decidere il numero di componenti da mantenere era evidente per me dalle mie conoscenze sull'argomento e sulla trama del ghiaione (vedi sotto) che due componenti principali (PC) erano sufficienti per spiegare i dati e i restanti componenti erano solo meno informativi.

inserisci qui la descrizione dell'immagine
Grafico ghiaione con analisi parallele: autovalori osservati (verde) e autovalori simulati basati su 100 simulazioni (rosso). La trama di ghiaione suggerisce 3 PC, mentre il test parallelo suggerisce solo i primi due PC.

inserisci qui la descrizione dell'immagine

Come puoi vedere, solo il 48% della varianza potrebbe essere catturato dai primi due PC.

Tracciare osservazioni sul primo piano fatte dai primi 2 PC ha rivelato tre diversi cluster usando il clustering agglomerativo gerarchico (HAC) e il clustering dei mezzi K. Questi 3 cluster si sono rivelati molto rilevanti per il problema in questione e sono stati coerenti anche con altri risultati. Quindi, tranne il fatto che solo il 48% della varianza è stato catturato, tutto il resto andava incredibilmente bene.

Uno dei miei due revisori ha dichiarato: non si può fare molto affidamento su questi risultati in quanto solo il 48% della varianza potrebbe essere spiegato ed è inferiore al necessario.

Domanda
Esiste un valore richiesto per quanto la varianza deve essere acquisita da PCA per essere valida? Non dipende dalla conoscenza del dominio e dalla metodologia in uso? Qualcuno può giudicare il merito dell'intera analisi basandosi solo sul valore della varianza spiegata?

Appunti

I dati sono 11 variabili di geni misurati da una metodologia molto sensibile in biologia molecolare chiamata Real-Time Quantitative Polymerase Chain Reaction (RT-qPCR).
Le analisi sono state fatte usando R.
Sono molto apprezzate le risposte degli analisti di dati basate sulla loro esperienza personale che lavora su problemi della vita reale nei campi dell'analisi dei microarray, della chemiometria, delle analisi spettometriche o simili.
Per favore, considera di supportarti nella risposta con riferimenti il più possibile.

variance pca

— dottorato
fonte

La distribuzione degli autovalori è piuttosto importante per la teoria della matrice casuale. La distribuzione Marcenko-Pastur viene talvolta utilizzata per applicazioni simili.

— Giovanni

Cosa indica il verde e cosa mostrano le linee arancione / brunastre? C'è solo in asse.

— usεr11852 dice Reinstate Monic il

@ usεr11852, vedere la didascalia aggiornata.

— dottorato il

Per quanto riguarda le tue domande particolari:

Esiste un valore richiesto di quanta varianza dovrebbe essere acquisita da PCA per essere valida?

No, non esiste (per quanto ne sappia). Sono fermamente convinto che non ci sia un singolo valore che puoi usare; nessuna soglia magica della percentuale di varianza catturata. L'articolo di Cangelosi e Goriely: La conservazione dei componenti nell'analisi dei componenti principali con l'applicazione ai dati di microarray di cDNA offre una panoramica piuttosto piacevole di una mezza dozzina di regole empiriche standard per rilevare il numero di componenti in uno studio. (Diagramma di ghiaione, Spiegazione della proporzione della varianza totale, Regola degli autovalori medi, Diagramma degli autovalori log, ecc.) Come regole empiriche non farei affidamento su nessuno di essi.

Non dipende dalla conoscenza del dominio e dalla metodologia in uso?

Idealmente dovrebbe dipendere, ma devi stare attento a come lo pronunci e cosa intendi.

Ad esempio: in Acustica c'è la nozione di Just Noticeable Difference ( JND ). Supponiamo che tu stia analizzando un campione di acustica e che un determinato PC abbia una variazione della scala fisica ben al di sotto della soglia JND. Nessuno può facilmente sostenere che per un'applicazione Acoustics si dovrebbe aver incluso quel PC. Analizzeresti un rumore impercettibile. Potrebbero esserci alcuni motivi per includere questo PC, ma questi motivi devono essere presentati non viceversa. Sono nozioni simili a JND per l'analisi RT-qPCR?

Allo stesso modo, se un componente assomiglia al polinomio di Legendre del 9 ° ordine e hai una forte evidenza che il tuo campione è costituito da singoli dossi gaussiani, hai buone ragioni per credere che stai di nuovo modellando una variazione irrilevante. Cosa mostrano queste modalità ortogonali di variazione? Ad esempio, cosa c'è di "sbagliato" con il 3o PC nel tuo caso?

Il fatto che tu dica " Questi 3 cluster si sono rivelati molto rilevanti per il problema in questione " non è in realtà un argomento forte. Potresti dragare i dati in modo semplice (il che è una cosa negativa ). Esistono altre tecniche, ad es. Isomap e incorporamento localmente lineare , che sono anche abbastanza interessanti, perché non usarli? Perché hai scelto PCA in particolare?

La coerenza dei risultati con altri risultati è più importante, soprattutto se questi risultati sono considerati consolidati. Approfondisci questo. Prova a vedere se i tuoi risultati concordano con i risultati della PCA di altri studi.

Qualcuno può giudicare il merito dell'intera analisi basandosi solo sul valore della varianza spiegata?

In generale non si dovrebbe farlo. Non pensare però che il tuo recensore sia un bastardo o qualcosa del genere; Il 48% è effettivamente una piccola percentuale da mantenere senza presentare giustificazioni ragionevoli.

— usεr11852 dice Reinstate Monic
fonte

La ringrazio per la risposta. Non c'è niente di troppo speciale in RT-qPCR come in JND. In effetti, RT-qPCR è solo la tecnica con cui misuriamo le variabili genetiche stesse. Molto probabilmente intendevi i PC che sono le nuove variabili costituite dalla combinazione lineare di tutti gli 11. Considerate altre variabili descrittive, i primi 2 PC si sono rivelati correlati alle cellule della risposta immunitaria, mentre il 3 ° PC no. Altrimenti non c'è nulla di sbagliato nel 3 ° PC.

— dottorato il

Esaminerò le tecniche di dragaggio dei dati e ne apprenderò di più. Ma sai per caso se questo è stato implementato da uno o più pacchetti R?

— dottorato il

@doctorate: l'intera idea è di evitare il dragaggio dei dati. Mi dispiace ma non conosco pacchetti che lo testino esplicitamente.

— usεr11852 dice Reinstate Monic il

+1, ma la tua frase sul dragaggio dei dati ("potresti semplicemente dragare i dati") non è molto chiara e forse è per questo che @doctorate è stato confuso. In effetti, trovo che l'intero paragrafo non sia molto chiaro: cosa hanno a che fare Isomap e LLE con il dragaggio dei dati? il dragaggio dei dati è positivo o negativo? L'articolo wiki a cui ti sei collegato inizia descrivendolo come buono. Forse potresti modificare per essere un po 'più esplicito in quel paragrafo?

— ameba dice di reintegrare Monica il