Ho un set di dati di variabili discrete (ordinali, meristiche e nominali) che descrivono i caratteri morfologici delle ali su diverse specie di insetti strettamente correlate. Quello che sto cercando di fare è condurre una sorta di analisi che mi darebbe una rappresentazione visiva della somiglianza delle diverse specie in base alle caratteristiche morfologiche. La prima cosa che mi è venuta in mente è stata la PCA (questo è il tipo di visualizzazione che sto cercando di creare), ma dopo averci esaminato (in particolare altre domande come: L' analisi dei componenti principali può essere applicata a set di dati contenenti un mix di continuo e variabili categoriche?), sembra che la PCA possa essere inappropriata per i dati discreti (la PCA è utilizzata in questi tipi di studi in letteratura, ma sempre con dati continui). Ignorando lo sfondo statistico del perché questi dati siano inappropriati, la PCA mi dà risultati relativamente perfetti per quanto riguarda la mia domanda biologica (i gruppi ibridi di interesse cadono proprio nel mezzo dei loro gruppi paterni).
Ho anche provato l'analisi della corrispondenza multipla per placare le statistiche (almeno per quanto riguarda la mia comprensione), ma non riesco a ottenere un diagramma analogo a quello che otterrei con PCA, in cui le mie osservazioni (gli individui biologici) sono separati diciamo per colore per mostrare i diversi raggruppamenti (diverse specie, biologicamente parlando). Sembra che questa analisi abbia lo scopo di descrivere come le variabili (qui, le mie caratteristiche morfologiche) sono correlate tra loro, non le singole osservazioni. E quando tracciamo osservazioni colorate per gruppo, ottengo solo un singolo valore (forse una media) che descrive l'intero insieme di individui. Ho fatto l'analisi in R, quindi forse non sono nemmeno abbastanza R-savy da far funzionare la mia idea della trama.
Sono corretto nel provare questo tipo di analisi con i miei dati o sono fuori strada? Se non potessi dirlo, la mia competenza statistica è limitata, quindi le equazioni che si verificano al di sotto di queste analisi sono completamente sopra la mia testa. Sto provando a condurre questa analisi in modo completamente descrittivo (non ho bisogno di fare altro scricchiolio di numeri a valle) e ho letto che se questo è il caso, PCA sarà sufficiente, ma voglio assicurarmi che non lo sia violando troppe ipotesi statistiche.