Q1
Gli ecologi parlano sempre di gradienti. Esistono molti tipi di gradienti, ma potrebbe essere meglio pensarli come una combinazione delle variabili che desideri o che sono importanti per la risposta. Quindi un gradiente potrebbe essere il tempo, o lo spazio, l'acidità del suolo, i nutrienti o qualcosa di più complesso come una combinazione lineare di una gamma di variabili richieste dalla risposta in qualche modo.
Parliamo di gradienti perché osserviamo specie nello spazio o nel tempo e tutta una serie di cose varia con quello spazio o tempo.
Q2
Sono giunto alla conclusione che in molti casi il ferro di cavallo in PCA non è un problema serio se capisci come si presenta e non fai cose sciocche come prendere PC1 quando il "gradiente" è effettivamente rappresentato da PC1 e PC2 (bene è anche diviso in PC più alti, ma si spera che una rappresentazione 2-d sia OK).
In CA credo di pensare lo stesso (ora sono stato costretto a pensarci un po '). La soluzione può formare un arco quando non c'è una forte seconda dimensione nei dati in modo tale che una versione piegata del primo asse, che soddisfi i requisiti di ortogonalità degli assi CA, spieghi più "inerzia" di un'altra direzione nei dati. Questo può essere più grave in quanto è costituito da una struttura in cui con PCA l'arco è solo un modo per rappresentare l'abbondanza di specie nei siti lungo un singolo gradiente dominante.
Non ho mai capito bene perché la gente si preoccupi così tanto dell'ordinamento sbagliato lungo PC1 con un ferro di cavallo forte. Direi che non dovresti prendere solo PC1 in questi casi, e poi il problema scompare; le coppie di coordinate su PC1 e PC2 eliminano le inversioni su uno di questi due assi.
Q3
Se vedessi il ferro di cavallo in un biplot di PCA, interpreterei i dati come aventi un singolo gradiente o direzione di variazione dominante.
Se vedessi l'arco, probabilmente concluderei lo stesso, ma sarei molto cauto nel cercare di spiegare l'asse 2 CA.
Non applicherei il DCA - semplicemente stravolge l'arco (nelle migliori circostanze) in modo tale da non vedere le stranezze nei grafici 2D, ma in molti casi produce altre strutture spurie come diamanti o forme di tromba al disposizione dei campioni nello spazio DCA. Per esempio:
library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA
Vediamo un tipico smazzamento di punti campione verso la sinistra della trama.
Q4
m
Ciò suggerirebbe di trovare una direzione non lineare nello spazio ad alta dimensione dei dati. Uno di questi metodi è la curva principale di Hastie & Stuezel, ma sono disponibili altri metodi non lineari che potrebbero essere sufficienti.
Ad esempio, per alcuni dati patologici
Vediamo un ferro di cavallo forte. La curva principale tenta di recuperare questo gradiente sottostante o disposizione / ordinamento dei campioni tramite una curva uniforme nelle dimensioni m dei dati. La figura seguente mostra come l'algoritmo iterativo converge su qualcosa che si avvicina al gradiente sottostante. (Penso che si allontani dai dati nella parte superiore della trama in modo da essere più vicini ai dati in dimensioni più elevate, e in parte a causa del criterio di auto-coerenza per una curva da dichiarare una curva principale.)
Ho maggiori dettagli tra cui il codice sul mio post sul blog da cui ho preso quelle immagini. Ma il punto principale qui è che le curve principali recuperano facilmente l'ordinamento noto dei campioni mentre PC1 o PC2 da soli non lo fanno.
Nel caso PCA, è comune applicare trasformazioni in ecologia. Le trasformazioni popolari sono quelle che si può pensare di restituire una distanza non euclidea quando la distanza euclidea viene calcolata sui dati trasformati. Ad esempio, la distanza di Hellinger è
DH e l l i n g e r( x 1 , x 2 ) = ∑j = 1p[ y1 jy1 +----√- y2 jy2 +----√]2------------------⎷
yio jjioyi +io esimo campione. Se convertiamo i dati in proporzioni e applichiamo una trasformazione con radice quadrata, il PCA euclideo che preserva la distanza rappresenterà le distanze di Hellinger nei dati originali.
Il ferro di cavallo è noto e studiato da molto tempo in ecologia; parte della letteratura antica (oltre a un aspetto più moderno) è
I principali riferimenti alla curva principale sono
Con il primo è una presentazione molto ecologica.