Posso fare un PCA su misure ripetute per la riduzione dei dati?


13

Ho 3 prove ciascuna su 87 animali in ciascuno dei 2 contesti (alcuni dati mancanti; nessun dato mancante = 64 animali). In un contesto, ho molte misure specifiche (tempo di entrare, il numero di volte che ritornano al riparo, ecc), quindi voglio sviluppare 2 a 3 punteggi compositi di comportamento che descrivono il comportamento in quel contesto (li chiamano C1, C2, C3). Voglio una cosa C1che significhi la stessa cosa in tutte e 3 le prove e 87 animali, in modo da poter fare una regressione per esaminare l'effetto di età, sesso, pedigree e singolo animale sul comportamento. Quindi voglio esaminare come si C1rapporta ai punteggi comportamentali nell'altro contesto, all'interno della particolare età. (All'età di 1 anno, l'attività nel contesto 1 prevede fortemente l'attività nel contesto 2?)

Se questo non fosse ripetuto, un PCA funzionerebbe bene - esegui un PCA sulle molteplici misure di un contesto, quindi utilizza PC1, PC2, ecc. Per esaminare le relazioni (correlazioni di Spearman) tra PC1 in un contesto e PC1 (o 2 o 3) nell'altro contesto. Il problema sono le misure ripetute, che cadono nella pseudoriplicazione. Ho avuto un recensore categoricamente dire no-go, ma non riesco a trovare riferimenti chiari sul fatto che ciò sia problematico quando si esegue la riduzione dei dati.

0.5+ 0.50.28+ 0.63+ 0.02 tempo totale ...), che è almeno informato dalle mie molteplici misure invece di indovinare che il tempo di entrare è un tratto generalmente informativo e rappresentativo?

(Nota: non sono interessato alla struttura sottostante delle misure ... le mie domande riguardano cosa interpretiamo i comportamenti specifici del contesto. "Se avessi usato il contesto 1 e concluso che Harry è attivo rispetto ad altri animali, vedo Harry è attivo nel contesto 2? Se cambia ciò che interpretiamo come attività nel contesto 1 quando invecchia, cambia anche la sua attività nel contesto 2?)

Ho esaminato PARAFAC e ho esaminato SEM e non sono convinto che nessuno di questi approcci sia migliore o più appropriato per la mia dimensione del campione. Qualcuno può pesare? Grazie.


Ho capito bene che hai 2 fattori all'interno del soggetto: 1) contesto, che differisce per alcune condizioni sperimentali (ad esempio esperimento indoor vs esperimento outdoor), 2) trial, che è semplicemente una ripetizione, un tentativo, di esperimento. E ti piacerebbe fare un PCA in ciascuna delle condizioni, ma ti impedisce di aver fatto non una, ma diverse prove dell'esperimento.
ttnphns,

I due contesti sono due test separati e le misure adottate in ciascuno sono diverse. Detto questo, sì, capisci la mia situazione.
Leann

Che dire di eludere il problema ed eseguire un PCA con i mezzi in tutte e tre le prove?
Galà,

Risposte:


7

È possibile esaminare l' analisi fattoriale multipla . Questo può essere implementato in R con FactoMineR.

AGGIORNARE:

Per elaborare, Leann stava proponendo, anche se molto tempo fa, di condurre un PCA su un set di dati con misure ripetute. Se capisco correttamente la struttura del suo set di dati, per un dato "contesto" aveva una xmatrice "misura specifica" animale (tempo di entrare, numero di volte che ritorna al rifugio, ecc.). Ognuno dei 64 animali (quelli senza osservazione mancante) sono stati seguiti tre volte. Diciamo che aveva 10 'misure specifiche', così lei avrebbe allora tre a 64 × 10 matrici sul comportamento degli animali (che possiamo chiamare le matrici X1, X2, X3). Per eseguire un PCA sulle tre matrici contemporaneamente, dovrebbe "legare in fila" le tre matrici (ad esPCA(rbind(X1,X2,X3))). Ma questo ignora il fatto che la prima e la 64a osservazione sono sullo stesso animale. Per aggirare questo problema, può "legare in colonna" le tre matrici ed eseguirle attraverso un'analisi fattoriale multipla. L'AMF è un modo utile per analizzare più insiemi di variabili misurate sugli stessi individui o oggetti in diversi punti nel tempo. Sarà in grado di estrarre i componenti principali dall'AMF allo stesso modo di un PCA ma avrà una singola coordinata per ciascun animale. Gli oggetti animali saranno ora collocati in uno spazio multivariato di compromesso delimitato dalle sue tre osservazioni.

Sarebbe in grado di eseguire l'analisi usando il pacchetto FactoMineR in R. Il codice di esempio sarebbe simile a:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

Inoltre, invece di estrarre i primi tre componenti dall'AMF e sottoporli a regressione multipla, potrebbe pensare di proiettare le sue variabili esplicative direttamente sull'AMF come "tabelle supplementari" (vedi ?FactoMineR). Un altro approccio sarebbe quello di calcolare una matrice di distanza euclidea delle coordinate dell'oggetto dall'AMF (ad es. dist1=vegdist(mfa1$ind$coord, "euc")) E metterla attraverso un RDA con dist1una funzione delle variabili specifiche dell'animale (ad es. rda(dist1~age+sex+pedigree)Usando il pacchetto vegano).


2
Ciao Kyle, grazie per la tua risposta. Tuttavia, le risposte che consistono essenzialmente in poco più di un collegamento o che riguardano solo una frase di lunghezza non sono generalmente considerate risposte, ma commenti. In particolare, le risposte di solo collegamento risentono del collegamento, quindi le risposte dovrebbero avere informazioni sufficienti per essere utili anche se il collegamento non funziona più. Puoi per favore espandere la tua risposta un po 'di più, forse dando un breve riassunto di cosa sia / come si collega all'analisi fattoriale in generale?
Glen_b

(+1) Mi rendo conto che questo è un vecchio post, ma questa risposta è molto utile! Forse il riferimento dovrebbe essere aggiunto completamente in caso di interruzione del collegamento: Abdi Hervé, Williams Lynne J., Valentin Domininique. Analisi a fattori multipli: analisi dei componenti principali per insiemi di dati multi-blocco e multiblocco. WIREs Comp Stat 2013, 5: 149-179. doi: 10.1002 / wics.1246
Frans Rodenburg,

4

È normale usare PCA quando si analizzano misure ripetute (ad esempio, viene utilizzato per analizzare dati di vendita, prezzi delle azioni e tassi di cambio) La logica è come si articola (cioè, la giustificazione è che il PCA è uno strumento di riduzione dei dati non uno strumento inferenziale ).

Una pubblicazione di un discreto statistico è: Bradlow, ET (2002). " Esplorazione di insiemi di dati di misure ripetute per le funzionalità chiave mediante l'analisi dei componenti principali. " Journal of Research in Marketing 19: 167-179.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.