Dati discreti e alternative alla PCA


9

Ho un set di dati di variabili discrete (ordinali, meristiche e nominali) che descrivono i caratteri morfologici delle ali su diverse specie di insetti strettamente correlate. Quello che sto cercando di fare è condurre una sorta di analisi che mi darebbe una rappresentazione visiva della somiglianza delle diverse specie in base alle caratteristiche morfologiche. La prima cosa che mi è venuta in mente è stata la PCA (questo è il tipo di visualizzazione che sto cercando di creare), ma dopo averci esaminato (in particolare altre domande come: L' analisi dei componenti principali può essere applicata a set di dati contenenti un mix di continuo e variabili categoriche?), sembra che la PCA possa essere inappropriata per i dati discreti (la PCA è utilizzata in questi tipi di studi in letteratura, ma sempre con dati continui). Ignorando lo sfondo statistico del perché questi dati siano inappropriati, la PCA mi dà risultati relativamente perfetti per quanto riguarda la mia domanda biologica (i gruppi ibridi di interesse cadono proprio nel mezzo dei loro gruppi paterni).

Ho anche provato l'analisi della corrispondenza multipla per placare le statistiche (almeno per quanto riguarda la mia comprensione), ma non riesco a ottenere un diagramma analogo a quello che otterrei con PCA, in cui le mie osservazioni (gli individui biologici) sono separati diciamo per colore per mostrare i diversi raggruppamenti (diverse specie, biologicamente parlando). Sembra che questa analisi abbia lo scopo di descrivere come le variabili (qui, le mie caratteristiche morfologiche) sono correlate tra loro, non le singole osservazioni. E quando tracciamo osservazioni colorate per gruppo, ottengo solo un singolo valore (forse una media) che descrive l'intero insieme di individui. Ho fatto l'analisi in R, quindi forse non sono nemmeno abbastanza R-savy da far funzionare la mia idea della trama.

Sono corretto nel provare questo tipo di analisi con i miei dati o sono fuori strada? Se non potessi dirlo, la mia competenza statistica è limitata, quindi le equazioni che si verificano al di sotto di queste analisi sono completamente sopra la mia testa. Sto provando a condurre questa analisi in modo completamente descrittivo (non ho bisogno di fare altro scricchiolio di numeri a valle) e ho letto che se questo è il caso, PCA sarà sufficiente, ma voglio assicurarmi che non lo sia violando troppe ipotesi statistiche.


1
Dovresti essere in grado di ottenere il tipo di trama che desideri con l'analisi della corrispondenza multipla. Se puoi darci un link ai tuoi dati, potremmo dare un'occhiata. Il ridimensionamento multidimensionale è un'altra possibilità, ma l'MCA può essere visto come una sorta di ridimensionamento multidimensionale
kjetil b halvorsen

Il clustering di classe latente è un'altra opzione metodologica. Fondamentalmente, LCA crea un "modello" l'eterogeneità nel residuo da cui viene utilizzato per raggruppare. Storicamente ci sono stati 2 ampi flussi di ricerca in letteratura, entrambi sociologici. La LCA originale risale a Lazarsfeld alla Columbia negli anni '50, era incustodita e utilizzava dati categorici: la poLCA di R ne è un esempio. Sono stati sviluppati più recentemente modelli di miscele finite supervisionate per LCA. Non sono a conoscenza dei moduli R ma esiste un software commerciale economico che lo fa ( Latent Gold ). Il sito Web di LG contiene buoni documenti su LCA
Mike Hunter,

Risposte:


1

Dipende un po 'dal tuo scopo, ma se stai cercando uno strumento di visualizzazione c'è un trucco con l'applicazione del ridimensionamento multidimensionale all'output di prossimità casuale della foresta che può produrre belle immagini e funzionerà per una miscela di dati categorici e continui. Qui classificheresti le specie in base ai tuoi predittori. Ma - ed è un grande avvertimento - non so se qualcuno sappia veramente cosa significhi l'output di queste visualizzazioni.

Un'altra alternativa potrebbe essere quella di applicare il ridimensionamento multidimensionale a qualcosa di simile alla somiglianza di Gower.

C'è una domanda sospesa: qual è il tuo scopo ultimo? A quale domanda vuoi rispondere? Mi piacciono queste tecniche come strumenti esplorativi per condurti forse a fare domande migliori e migliori, ma non sono sicuro di cosa ti spieghino o ti raccontino da soli.

Forse sto leggendo troppo nella tua domanda, ma se vuoi esplorare quali variabili predittive hanno i valori per gli ibridi che si trovano tra le due specie pure, potresti essere meglio costruire un modello per stimare i valori delle variabili predittive che portano direttamente alle specie e agli ibridi. Se vuoi misurare il modo in cui le variabili sono correlate tra loro, forse costruisci una matrice di correlazione - e ci sono molte visualizzazioni accurate per questo.


Grazie per l'input. In definitiva, tutto ciò che desidero da questa analisi è avere una misura quantitativa della somiglianza di alcune specie rispetto ad altre (ho due specie che basandosi semplicemente sull'aspetto gestaltico sembrano altre specie strettamente correlate, ma sembrano geneticamente simili a una specie diversa, suggerendo un'antica ibridazione). Il punto principale di questa domanda di ricerca è studiare la genetica del gruppo, e questa analisi morfologica si aggiungerà semplicemente all'intera storia biologica. Questo ridimensionamento multidimensionale porterebbe a una visualizzazione simile alla PCA?
JD,

Ottieni visualizzazioni simili. L'idea / intuizione di MDS è quella di costruire una mappatura da uno spazio ad alta dimensione (per te lo spazio delle caratteristiche morfologiche) ad uno spazio a bassa dimensione (come un piano piano 2D) in modo tale che la distanza nello spazio ad alta dimensione sia "praticamente il stesso "del basso spazio dimensionale. È quindi possibile tracciare il piano piatto 2D. Ma dipende da ottenere una metrica di distanza per lo spazio ad alta dimensione da qualche parte.
Patrick Caldon,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.