Interpretazione dei grafici di analisi della corrispondenza 2D


19

Ho cercato su Internet in lungo e in largo ... Devo ancora trovare una buona panoramica su come interpretare i grafici di analisi della corrispondenza 2D. Qualcuno potrebbe offrire qualche consiglio sull'interpretazione delle distanze tra i punti?

Forse un esempio potrebbe aiutare, ecco una trama che si trova su molti dei siti Web che ho visto che discutono di analisi della corrispondenza. I triangoli rossi rappresentano il colore degli occhi e i punti neri rappresentano il colore dei capelli.

testo alternativo

Guardando il grafico sopra, potresti fare alcune affermazioni su ciò che vedi in questi dati. Punti di interesse sulle diverse dimensioni e relazioni tra triangoli e punti?

Una spiegazione dei punti riga rispetto ai punti colonna e l'uso della parola "profilo" con particolare attenzione all'esempio sarebbe strumentale.


1
Oltre all'eccellente account di @ chl qui sotto, considera anche questo considerando la semplice CA e PCA come semplici forme di "analisi del biplot".
ttnphns,

Risposte:


24

Innanzitutto, ci sono diversi modi per costruire i cosiddetti biplot nel caso dell'analisi della corrispondenza. In tutti i casi, l'idea di base è quella di trovare un modo per mostrare la migliore approssimazione 2D delle "distanze" tra celle di riga e celle di colonna. In altre parole, cerchiamo una gerarchia (parliamo anche di "ordinazione") delle relazioni tra righe e colonne di una tabella di contingenza.

χ2

corresp()MASSRtC=NN

io=1,...,ioj=1,...,Jfj|io=nioj/niofio|j=nioj/njiofioJfjχ2ioio'

dχ22(io,io')=Σj=1Jnnj(niojnio-nio'jnio')2

χ2H0nio×nj/n(io,j)

χ2cos2iojχ2chisq.test(tab)$expected-chisq.test(tab)$observed

χ2nφ2

In realtà, ci sono diversi pacchetti che possono fornire con CA migliorate rispetto alla funzione disponibile nel MASSpackage: ade4 , FactoMineR , Anacor , e ca .

L'ultima è quella che è stata utilizzata per il vostro particolare illustrazione, e un documento è stato pubblicato sul Journal of Statistical Software che spiega la maggior parte dei suoi functionnalities: analisi delle corrispondenze in R, con una grafica a due e tre dimensioni: il ca pacchetto .

Quindi, il tuo esempio sui colori degli occhi / dei capelli può essere riprodotto in molti modi:

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

In tutti i casi, ciò che leggiamo nel biplot risultante è sostanzialmente (limito la mia interpretazione al 1 ° asse che ha spiegato la maggior parte dell'inerzia):

  • il primo asse evidenzia la chiara opposizione tra il colore chiaro e scuro dei capelli e tra gli occhi blu e castani;
  • le persone con i capelli biondi tendono ad avere anche gli occhi blu e le persone con i capelli neri tendono ad avere gli occhi castani.

Ci sono molte risorse aggiuntive sull'analisi dei dati nel laboratorio di bioinformatica di Lione, in Francia. Questo è principalmente in francese, ma penso che non sarebbe un grosso problema per te. Le seguenti due dispense dovrebbero essere interessanti come primo avvio:

K


1
@Brandon Il 1 ° asse è un asse di "dominio" (chiaro -> scuro) per entrambe le modalità, ma possiamo anche vedere che il 1 ° asse si oppone agli occhi blu e verde agli occhi castani e nocciola (le loro coordinate sono di segni opposti), e la combinazione capelli rossi / occhi verdi - che è abbastanza rara - contribuisce principalmente all'asse del 2o fattore. Poiché questo asse spiega solo il 9,5% dell'inerzia totale, è piuttosto difficile trarre conclusioni definitive (in particolare ipotesi genetiche wrt.).
chl

1
@Brandon Altri due riferimenti (questa volta in inglese): il corso PBIL ( j.mp/cHZT7X ) e le risorse di Michael Friendly ( pacchetti j.mp/cYHyVn + vcde vcdExtraR, quest'ultimo con una bella vignetta).
chl

2
@Brandon Sì, una modalità = una categoria per la tua variabile. Per la tua seconda domanda, corè la correlazione al quadrato con l'asse, ed ctrè il contributo (deve essere diviso per 10 per essere letto in%). Quindi i "capelli rossi" contribuiscono al 55,1% dell'inerzia del 2 ° asse. In un certo senso ho trovato l'output di FactoMineR più "intuitivo" ( CA(tab, graph=FALSE)$row$contribti dà direttamente la%).
chl,

1
@chl: wow, per qualcuno che non sa nulla della CCA o della "via francese", questa è stata un'ottima lettura! Grazie molto. Ho anche trovato questo con alcuni googling che potrebbero essere di interesse: www-stat.stanford.edu/~susan/papers/dfc.pdf
ars

1
@ars (+1) Grazie per il link (non sapevo di questa monografia, sembra interessante). Le mie migliori raccomandazioni per gli sviluppi recenti sono in realtà TUTTI i documenti di Jan de Leeuw e questi due libri: analisi delle corrispondenze multiple e metodi correlati di Greenacre e analisi dei dati geometrici: dall'analisi delle corrispondenze all'analisi dei dati strutturati di Le Roux & Rouanet (alla francese) .
chl
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.