Utilizzo dell'analisi dei componenti principali e dell'analisi della corrispondenza


9

Sto analizzando un set di dati relativo alle comunità intertidali. I dati sono percentuale di copertura (di alghe, cirripedi, cozze, ecc.) In quadrat. Sono abituato a pensare all'analisi della corrispondenza (CA) in termini di conteggio delle specie e all'analisi dei componenti principali (PCA) come qualcosa di più utile per le tendenze ambientali lineari (non le specie). Non ho davvero avuto fortuna a capire se PCA o CA sarebbero stati più adatti alla copertura percentuale (non riesco a trovare alcun documento), e non sono nemmeno sicuro di come sarebbe distribuito qualcosa che è limitato al 100% ?

Ho familiarità con le linee guida approssimative secondo cui se la lunghezza del primo asse di analisi della corrispondenza privilegiata (DCA) è maggiore di 2, si può presumere che CA debba essere utilizzato. La lunghezza dell'asse 1 DCA era 2,17, che non trovo utile.


3
Sia PCA che CA sono correlati ed entrambi possono essere basati sull'algoritmo SVD. La differenza formale fondamentale (non menzionata nella risposta altrimenti profonda di @ Gavin) è che PCA decompone le relazioni solo tra le colonne (ad es. Decomponendo la loro matrice di covarianza), trattando le righe come "casi"; mentre CA decompone simultaneamente colonne e righe, trattandole simmetricamente, come "categorie" di tabulazione incrociata. Da qui il biplot lasciato da CA e il quasi-biplot (caricamenti + punteggi) che potrebbero essere tracciati dopo che la PCA fornisce informazioni concettualmente piuttosto diverse.
ttnphns,

Risposte:


9

PCA funziona sui valori in cui CA opera sui valori relativi. Entrambi vanno bene per i dati relativi all'abbondanza relativa del tipo che menzioni (con un avvertimento importante, vedi più avanti). Con% data hai già una misura relativa, ma ci saranno ancora differenze. Chiedilo a te stesso

  • vuoi enfatizzare il modello nelle specie / taxa abbondanti (cioè quelli con una grande percentuale di copertura), oppure
  • vuoi concentrarti sui modelli di composizione relativa?

Se il primo, usa PCA. Se quest'ultimo utilizza CA. Quello che intendo per le due domande è che vorresti

A = {50, 20, 10}
B = { 5,  2,  1}

essere considerato diverso o uguale? Ae Bsono due campioni e i valori sono la copertura% dei tre taxa mostrati. (Questo esempio è risultato male, supponiamo che ci sia terreno nudo! ;-) PCA li considererebbe molto diversi a causa della distanza euclidea usata, ma CA considererebbe questi due campioni molto simili perché hanno lo stesso profilo relativo.

Il grande avvertimento qui è la natura compositiva chiusa dei dati. Se hai alcuni gruppi (Sand, Silt, Clay, per esempio) che si sommano a 1 (100%), nessuno dei due approcci è corretto e potresti passare ad un'analisi più appropriata tramite il Log-ratio PCA di Aitchison che è stato progettato per composizioni chiuse dati. (IIRC per fare ciò è necessario centrare per righe e colonne e il log trasforma i dati.) Esistono anche altri approcci. Se si utilizza R, quindi un libro che sarebbe utile è Analizzando compositiva dei dati con R .


Come sempre, una risposta davvero eccellente Gavin. Grazie! Ciò chiarisce molto le cose e userò PCA allora. Dato che la comunità intertidale è tridimensionale, in alcuni casi la copertura percentuale è andata al 100% quando gli organismi sono cresciuti l'uno sull'altro. Questa non è la forma compositiva chiusa di cui stai parlando, giusto?
HFBrowning

No, non è di questo che sta parlando. Chiuso credo che significhi un sistema in cui con tre specie A, B, C, hai% C = 100% -% B -% A
Pertinax

e che dire di DCA?
Darwin PC,

DCA è una versione incasinata di CA, quindi ad essa si applicano gli stessi principi generali. DCA sta facendo una strana tortura dei dati e non credo che dovremmo preoccuparci di come metodo nella nostra cassetta degli attrezzi oggi, ma le opinioni degli altri varieranno su questo.
Gavin Simpson,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.