Gli Stati Uniti arrestano i dati in bundle con R sono solo un esempio qui, ma noto che i calcoli dei caricamenti nella domanda provengono da un PCA della matrice di covarianza . Questo è un punto tra arbitrario e senza senso, poiché le variabili sono misurate su scale diverse.
La popolazione urbana sembra una percentuale. La California è il 91% e la più alta.
Le tre variabili criminali sembrano essere il numero di arresti per crimini espressi in relazione alla dimensione della popolazione (presumibilmente per un certo periodo di tempo). Presumibilmente è documentato da qualche parte se si tratta di arresti per 1000 o 10000 o altro.
La media della variabile d'assalto nelle unità date è di circa 171 e l'omicidio medio di circa 8. Quindi, la spiegazione dei tuoi caricamenti è che in gran parte il modello è un artefatto: dipende dalla variabilità molto diversa delle variabili.
Quindi, sebbene i dati abbiano senso in quanto vi sono molti più arresti per aggressioni che per omicidi, ecc., Il fatto noto (o non sorprendente) domina l'analisi.
Ciò dimostra che, come qualsiasi altro posto nelle statistiche, devi pensare a cosa stai facendo in un PCA.
Se vai oltre:
Direi che il percento urbano è meglio escluso dall'analisi. Non è un crimine essere urbani; potrebbe ovviamente servire da proxy per le variabili che influenzano il crimine.
Un PCA basato su una matrice di correlazione avrebbe più senso a mio avviso. Un'altra possibilità è quella di lavorare con i logaritmi dei tassi di arresto, non con i tassi di arresto (tutti i valori sono positivi; vedi sotto).
Nota: la risposta di @ random_guy usa deliberatamente la matrice di covarianza.
Ecco alcune statistiche riassuntive. Ho usato Stata, ma è abbastanza irrilevante.
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
urban_pop | 50 65.54 14.47476 32 91
murder | 50 7.788 4.35551 .8 17.4
rape | 50 21.232 9.366384 7.3 46
assault | 50 170.76 83.33766 45 337