Che cos'è "effetto ferro di cavallo" e / o "effetto arco" nell'analisi PCA / corrispondenza?


20

Esistono molte tecniche nelle statistiche ecologiche per l'analisi dei dati esplorativi di dati multidimensionali. Queste sono chiamate tecniche di 'ordinazione'. Molti sono uguali o strettamente correlati a tecniche comuni altrove nelle statistiche. Forse l'esempio prototipico sarebbe l'analisi dei componenti principali (PCA). Gli ecologi potrebbero usare la PCA e le relative tecniche per esplorare i "gradienti" (non sono del tutto chiaro che cos'è un gradiente, ma ne ho letto un po '.)

In questa pagina , l'ultimo elemento in Analisi componenti principali (PCA) recita:

  • La PCA ha un grave problema per i dati sulla vegetazione: l'effetto a ferro di cavallo. Ciò è causato dalla curvilinearità delle distribuzioni delle specie lungo i gradienti. Poiché le curve di risposta delle specie sono in genere unimodali (cioè molto fortemente curvilinee), gli effetti a ferro di cavallo sono comuni.

Più in basso nella pagina, in Analisi di corrispondenza o Media reciproca (RA) , si riferisce a "l'effetto arco":

  • RA ha un problema: l'effetto arco. È anche causato dalla non linearità delle distribuzioni lungo i gradienti.
  • L'arco non è così grave come l'effetto a ferro di cavallo del PCA, perché le estremità del gradiente non sono contorte.

Qualcuno può spiegare questo? Di recente ho visto questo fenomeno in grafici che rappresentano nuovamente i dati in uno spazio dimensionale inferiore (vale a dire, analisi della corrispondenza e analisi dei fattori).

  1. A cosa corrisponderebbe un "gradiente" più in generale (ovvero, in un contesto non ecologico)?
  2. Se questo accade con i tuoi dati, è un "problema" ("problema serio")? Per cosa?
  3. Come si dovrebbe interpretare l'output in cui si presenta un ferro di cavallo / arco?
  4. È necessario applicare un rimedio? Che cosa? Le trasformazioni dei dati originali sarebbero di aiuto? Cosa succede se i dati sono classificazioni ordinali?

Le risposte possono esistere in altre pagine di quel sito (ad esempio, per PCA , CA e DCA ). Ho provato a lavorare attraverso quelli. Ma le discussioni si basano su una terminologia ecologica sufficientemente sconosciuta ed esempi sul fatto che è più difficile comprendere la questione.


1
(+1) Ho trovato una risposta ragionevolmente chiara su ordination.okstate.edu/PCA.htm . La spiegazione della "curvilinearità" nella tua citazione è totalmente sbagliata - che è ciò che la rende così confusa.
whuber

2
Vedi anche Diaconis, et al. (2008), Ferri di cavallo in scala multidimensionale e metodi del kernel locale , Ann. Appl. Statistica. , vol. 2, no. 3, 777-807.
cardinale il

Ho cercato di rispondere alle tue domande, ma non sono sicuro di come ho ottenuto che vedere come sono ecologista e gradienti è il modo in cui penso a queste cose.
Ripristina Monica - G. Simpson,

@whuber: La spiegazione della "curvilinearità" citata potrebbe essere confusa e non molto chiara, ma non penso che sia "totalmente sbagliato". Se le abbondanze delle specie in funzione della posizione lungo il vero "gradiente" (usando un esempio dal tuo collegamento) fossero tutte lineari (forse corrotte da qualche rumore), allora la nuvola di punti sarebbe (approssimativamente) monodimensionale e PCA lo troverei. La nuvola di punti si piega / curva perché le funzioni non sono lineari. Un caso speciale di gaussiani spostati porta a un ferro di cavallo.
ameba dice Reinstate Monica il

@Amoeba Tuttavia, l'effetto a ferro di cavallo non deriva dalla curvilinearità dei gradienti delle specie: deriva dalle non linearità nei rapporti di distribuzione . La citazione, nell'attribuire l'effetto alle forme dei gradienti stessi, non identifica correttamente la causa del fenomeno.
whuber

Risposte:


19

Q1

Gli ecologi parlano sempre di gradienti. Esistono molti tipi di gradienti, ma potrebbe essere meglio pensarli come una combinazione delle variabili che desideri o che sono importanti per la risposta. Quindi un gradiente potrebbe essere il tempo, o lo spazio, l'acidità del suolo, i nutrienti o qualcosa di più complesso come una combinazione lineare di una gamma di variabili richieste dalla risposta in qualche modo.

Parliamo di gradienti perché osserviamo specie nello spazio o nel tempo e tutta una serie di cose varia con quello spazio o tempo.

Q2

Sono giunto alla conclusione che in molti casi il ferro di cavallo in PCA non è un problema serio se capisci come si presenta e non fai cose sciocche come prendere PC1 quando il "gradiente" è effettivamente rappresentato da PC1 e PC2 (bene è anche diviso in PC più alti, ma si spera che una rappresentazione 2-d sia OK).

In CA credo di pensare lo stesso (ora sono stato costretto a pensarci un po '). La soluzione può formare un arco quando non c'è una forte seconda dimensione nei dati in modo tale che una versione piegata del primo asse, che soddisfi i requisiti di ortogonalità degli assi CA, spieghi più "inerzia" di un'altra direzione nei dati. Questo può essere più grave in quanto è costituito da una struttura in cui con PCA l'arco è solo un modo per rappresentare l'abbondanza di specie nei siti lungo un singolo gradiente dominante.

Non ho mai capito bene perché la gente si preoccupi così tanto dell'ordinamento sbagliato lungo PC1 con un ferro di cavallo forte. Direi che non dovresti prendere solo PC1 in questi casi, e poi il problema scompare; le coppie di coordinate su PC1 e PC2 eliminano le inversioni su uno di questi due assi.

Q3

Se vedessi il ferro di cavallo in un biplot di PCA, interpreterei i dati come aventi un singolo gradiente o direzione di variazione dominante.

Se vedessi l'arco, probabilmente concluderei lo stesso, ma sarei molto cauto nel cercare di spiegare l'asse 2 CA.

Non applicherei il DCA - semplicemente stravolge l'arco (nelle migliori circostanze) in modo tale da non vedere le stranezze nei grafici 2D, ma in molti casi produce altre strutture spurie come diamanti o forme di tromba al disposizione dei campioni nello spazio DCA. Per esempio:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

inserisci qui la descrizione dell'immagine

Vediamo un tipico smazzamento di punti campione verso la sinistra della trama.

Q4

m

Ciò suggerirebbe di trovare una direzione non lineare nello spazio ad alta dimensione dei dati. Uno di questi metodi è la curva principale di Hastie & Stuezel, ma sono disponibili altri metodi non lineari che potrebbero essere sufficienti.

Ad esempio, per alcuni dati patologici

inserisci qui la descrizione dell'immagine

Vediamo un ferro di cavallo forte. La curva principale tenta di recuperare questo gradiente sottostante o disposizione / ordinamento dei campioni tramite una curva uniforme nelle dimensioni m dei dati. La figura seguente mostra come l'algoritmo iterativo converge su qualcosa che si avvicina al gradiente sottostante. (Penso che si allontani dai dati nella parte superiore della trama in modo da essere più vicini ai dati in dimensioni più elevate, e in parte a causa del criterio di auto-coerenza per una curva da dichiarare una curva principale.)

inserisci qui la descrizione dell'immagine

Ho maggiori dettagli tra cui il codice sul mio post sul blog da cui ho preso quelle immagini. Ma il punto principale qui è che le curve principali recuperano facilmente l'ordinamento noto dei campioni mentre PC1 o PC2 da soli non lo fanno.

Nel caso PCA, è comune applicare trasformazioni in ecologia. Le trasformazioni popolari sono quelle che si può pensare di restituire una distanza non euclidea quando la distanza euclidea viene calcolata sui dati trasformati. Ad esempio, la distanza di Hellinger è

DHellionger(X1,X2)=Σj=1p[y1jy1+-y2jy2+]2

yiojjioyio+io esimo campione. Se convertiamo i dati in proporzioni e applichiamo una trasformazione con radice quadrata, il PCA euclideo che preserva la distanza rappresenterà le distanze di Hellinger nei dati originali.

Il ferro di cavallo è noto e studiato da molto tempo in ecologia; parte della letteratura antica (oltre a un aspetto più moderno) è

I principali riferimenti alla curva principale sono

Con il primo è una presentazione molto ecologica.


Grazie Gavin. Considera le valutazioni ordinali 1: 5 di un set di dati con domande del tipo: "Mi piace il mio dottore" e "Sento che il mio dottore si prende cura di me come persona". Questi non sono distribuiti in modo significativo né nello spazio né nel tempo. Quale sarebbe il 'gradiente' qui?
gung - Ripristina Monica

Con una tabella 5x5 e una N elevata, un modo per visualizzare i dati è con CA. I dati sono ordinali, ma CA non lo riconosce; così possiamo verificare se le righe / colonne adiacenti sono più vicine di quelle più distanti. Entrambe le serie di punti cadono lungo una linea libera nell'ordine appropriato, ma la linea curva in modo tale che gli estremi siano più vicini l'uno rispetto al punto medio nello spazio 2D. Come dovrebbe essere interpretato?
gung - Ripristina Monica

CA trova un ordinamento per entrambe le righe (campioni) e variabili (cols) che massimizza la dispersione dei "punteggi" del campione. Trova una variabile latente (una combinazione lineare delle variabili) che massimizza quella dispersione. Chiamiamo quella variabile latente un gradiente.
Ripristina Monica - G. Simpson il

Per compressione, intendi più vicino l'uno all'altro sull'asse CA 1 o più vicini l'uno all'altro in termini di distanza euclidea nella scala del biplot? Ad ogni modo, questo è davvero un problema nella proiezione dei dati in uno spazio a bassa dimensione. DCA tenta di annullare questo effetto separando i campioni alla fine dell'asse DCA 1 danneggiato e comprimendo i campioni vicino all'origine. Quindi sì, è un problema, ma è dovuto alla mancanza di flessibilità del metodo di acquisire il gradiente sottostante in modo appropriato. Possiamo conviverci o usare un approccio più flessibile (almeno in ecologia).
Ripristina Monica - G. Simpson il

1
Se lo guardassi in più dimensioni, il problema sparirebbe. Penso che questo sia solo un limite del metodo; va bene in molti casi ma fallisce in altri.
Ripristina Monica - G. Simpson il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.