Come interpretare questo biplot PCA proveniente da un sondaggio su quali aree le persone sono interessate?


10

Antefatto: ho chiesto a centinaia di partecipanti al mio sondaggio quanto fossero interessati ad aree selezionate (in cinque punti Likert scala con 1 che indica "non interessato" e 5 che indica "interessato").

Poi ho provato PCA. L'immagine sotto è una proiezione nei primi due componenti principali. I colori sono usati per i sessi e le frecce PCA sono variabili originali (cioè interessi).

Ho notato che:

  • I punti (intervistati) sono abbastanza ben separati dal secondo componente.
  • Nessun punto freccia rimasto.
  • Alcune frecce sono molto più corte di altre.
  • Le variabili tendono a formare cluster, ma non osservazioni.
  • Sembra che le frecce rivolte verso il basso (ai maschi) siano principalmente interessi dei maschi e le frecce rivolte verso l'alto siano principalmente interessi delle femmine.
  • Alcune frecce non puntano né verso il basso né verso l'alto.

Domande: come interpretare correttamente le relazioni tra punti (intervistati), colori (generi) e frecce (variabili)? Quali altre conclusioni sugli intervistati e i loro interessi possono essere estratti da questa trama?

I dati possono essere trovati qui .

Analisi PCA


Cosa pensi rappresenti il ​​primo PC? Il livello complessivo di interesse del rispondente?
Placidia,

Questa foto è il biplot di PCA . Ti consiglio di cercare il termine per leggere come interpretarlo. In breve, sono sia i punteggi del PC sia i caricamenti variabili mostrati (giunzione per concisione) sulla stessa immagine. Vedi anche le mie foto esplicative . È chiaro sulla tua foto che PC2 è principalmente la dimensione dell'eterogeneità di genere definita in modo più forte da 2 variabili: cura + un'altra che non riesco a discernere.
ttnphns,

@MiroslavSabo: mi piace la tua trama perché dimostra che uomini e donne non formano due gruppi separati (rispetto ai loro interessi), ma in realtà formano uno spettro. Suppongo che stavi preparando un documento di ricerca; è stato pubblicato? sarà ancora?
ameba,

1
@amoeba I dati del post (insieme ad altri elementi nel questionario) sono ora pubblici .
Miroslav Sabo,

1
@DarwinPC I dati del post (insieme ad altri elementi nel questionario) sono ora pubblici .
Miroslav Sabo,

Risposte:


7

I punti sono gli intervistati e i colori sono i sessi. Questo lo sai. Gli assi principali della trama rappresentano il primo e il secondo punteggio PC e gli individui vengono tracciati su quella base. Qualcuno nel quadrante in basso a sinistra ha ottenuto punteggi bassi su entrambi. PC2 sembra segnalare interessi "maschili" e "femminili". Non so cosa significhi PC1, ma probabilmente rappresenta un punteggio di interesse complessivo: le persone con molti interessi ottengono un punteggio elevato. O forse rappresenta le persone con interessi appassionati (punteggio 5).

I vettori sono un sistema di coordinate proiettato per le variabili originali. Quindi, se si proietta un punto perpendicolarmente, per esempio, sul vettore di lettura, si dovrebbe ottenere il punteggio di lettura di quella persona. La posizione relativa è importante qui.

Prendi un vettore "maschile" come "sport adrenalinici". Ora immagina di proiettare una macchia rosa su di essa dall'alto nel quadrante in alto a destra. Il coordinatore di quella persona sugli "sport adrenalinici" sarà negativo.

Quindi perché le frecce sono tutte nella metà destra del grafico? Data la geometria, più profonda è una persona nella parte sinistra del grafico, meno proiezioni saranno positive. Ciò suggerisce che PC1 è una misura del livello di interesse generale.

Non sono sicuro di cos'altro potresti imparare qui. Potresti voler guardare PC3 e PC4, se PC1 e PC2 ti dicono solo che alcune persone hanno più interessi di altre e che gli uomini sono diversi dalle donne.

La trama sembra quasi simmetrica attorno all'asse PC1 e simmetrica rispetto al genere. Come molti uomini hanno interessi femminili come le donne hanno interessi maschili ... o è vero? Sto solo guardando i punti. Potrebbe essere interessante esaminare aree in cui la mappa non è simmetrica: PC1 di grandi dimensioni, PC2 moderatamente negativo --- quel settore ha molta azione. Perché?


Potresti darmi i tuoi pensieri sul mio biplot? Sto facendo fatica a interpretarlo. Grazie. stats.stackexchange.com/questions/276421/…
Seanosapien,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.