Tecnica di riduzione dei dati per identificare i tipi di paesi


11

Insegno a un corso introduttivo di geografia economica. Per aiutare i miei studenti a sviluppare una migliore comprensione dei tipi di paesi presenti nell'economia mondiale contemporanea e un apprezzamento delle tecniche di riduzione dei dati, voglio costruire un compito che crei una tipologia di diversi tipi di paesi (ad es. valore aggiunto mfg aspettativa di lunga vita; esportatore di risorse naturali ad alto reddito aspettativa di vita medio-alta; con la Germania come elemento del primo tipo e lo Yemen un esempio del secondo tipo). Ciò userebbe i dati UNDP disponibili al pubblico (che se ricordo bene contiene dati socioeconomici su un po 'meno di 200 paesi; mi dispiace che non siano disponibili dati regionali).

Prima di questo compito sarebbe un altro che chiede loro (usando gli stessi dati --- in gran parte intervallo o livello di rapporto ---) di esaminare le correlazioni tra queste stesse variabili.

La mia speranza è che prima di tutto sviluppino un'intuizione per i tipi di relazioni tra variabili diverse (ad esempio, una relazione positiva tra aspettativa di vita e [vari indicatori di] ricchezza; una relazione positiva tra ricchezza e diversità delle esportazioni). Quindi, quando si utilizza la tecnica di riduzione dei dati, i componenti o i fattori avrebbero un senso intuitivo (ad esempio, il fattore / componente 1 cattura l'importanza della ricchezza; il fattore / componente 2 cattura l'importanza dell'istruzione).

Dato che si tratta di studenti dal secondo al quarto anno, spesso con un'esposizione limitata al pensiero analitico più in generale, quale singola tecnica di riduzione dei dati suggeriresti come più appropriata per il secondo incarico? Questi sono dati sulla popolazione, quindi le statistiche inferenziali (valori p, ecc.) Non sono realmente necessarie.

Risposte:


10

Come metodo esplorativo, PCA è una buona prima scelta per un incarico come questo IMO. Sarebbe anche bello per loro esporsi ad esso; sembra che molti di loro non abbiano mai visto componenti principali prima d'ora.

In termini di dati, vorrei anche indicarti gli Indicatori della Banca mondiale, che sono straordinariamente completi: http://data.worldbank.org/indicator .


5

Concordo con JMS e PCA sembra una buona idea dopo aver esaminato le correlazioni iniziali e i grafici a dispersione tra le variabili per ciascuna contea. Questo thread ha alcuni suggerimenti utili per introdurre PCA in termini non matematici.

Vorrei anche suggerire di utilizzare piccole mappe multiple per visualizzare le distribuzioni spaziali di ciascuna delle variabili (e ci sono alcuni buoni esempi in questa domanda sul sito gis.se). Penso che funzionino particolarmente bene se hai un numero limitato di unità areale da confrontare e usi una buona combinazione di colori (come questo esempio sul blog di Andrew Gelman).

Sfortunatamente, la natura di qualsiasi set di dati di "paesi del mondo", sospetto, porterebbe spesso a dati scarsi (cioè molti paesi mancanti), rendendo difficile la visualizzazione geografica. Ma tali tecniche di visualizzazione dovrebbero essere utili anche in altre situazioni per il tuo corso.


+1, bei riferimenti. Anche il confronto tra mappe delle variabili e mappe dei punteggi PCA potrebbe essere interessante.
JMS,

Il collegamento all'introduzione della PCA in termini non matematici è stato utile, poiché mi ha aiutato a capire la sottile differenza tra PCA e analisi dei fattori. Anche i suggerimenti GIS / cartografici sono piuttosto utili, poiché non avevo pensato di visualizzare la distribuzione spaziale delle variabili. Per questa popolazione di studenti, ciò li aiuterebbe a cogliere le strutture sottostanti all'economia mondiale in un modo che non farebbe tutto il mio bla bla bla.
rabidotter,

1
Trame piacevoli battono spesso blah blah blah :)
JMS,

4

Una breve nota aggiunta: qualunque delle tecniche sopra usate, ti consigliamo di controllare prima le distribuzioni delle tue variabili poiché molte di esse "richiedono" che tu le trasformi per prime usando un logaritmo. In questo modo rivelerai alcune delle relazioni molto meglio dell'uso delle variabili originali.


3
+1 Normalmente una risposta come questa dovrebbe essere pubblicata solo come commento, ma il consiglio è così importante qui che beneficia di ogni possibile enfasi. I risultati dell'APC, in particolare, saranno probabilmente non informativi fino a quando le variabili non verranno adeguatamente represse.
whuber

2

È possibile utilizzare la decomposizione CUR come alternativa al PCA. Per la decomposizione CUR, è possibile fare riferimento a [1] o [2]. Nella decomposizione CUR, C sta per le colonne selezionate, R sta per le righe selezionate e U è la matrice di collegamento. Consentitemi di parafrasare l'intuizione dietro la decomposizione CUR come indicato in [1];

uiovio

[(1/2)age − (1/ √2)height + (1/2)income]

essere uno dei “fattori” o “caratteristiche” significativi non correlati da un set di dati delle caratteristiche delle persone, non è particolarmente informativo o significativo.

La cosa bella di CUR è che le colonne di base sono colonne (o righe) effettive e meglio da interpretare rispetto a PCA (che utilizza SVD tranciato).

L'algoritmo fornito in [1] è facile da implementare e puoi giocarci modificando la soglia di errore e ottenendo un numero diverso di basi.

[1] MW Mahoney e P. Drineas, "Decomposizioni di matrici CUR per una migliore analisi dei dati." Atti della National Academy of Sciences degli Stati Uniti d'America, vol. 106, gennaio 2009, pagg. 697-702.

[2] J. Sun, Y. Xie, H. Zhang e C. Faloutsos, "Less is more: decomposizione a matrice compatta per grafici sparsi di grandi dimensioni", Atti della settima conferenza internazionale SIAM sull'estrazione di dati, Citeseer, 2007, p . 366.


2

A seconda dei tuoi obiettivi, la classificazione dei registri sui gruppi potrebbe essere ottenuta meglio con un metodo di raggruppamento. Per un numero relativamente piccolo di casi il clustering gerarchico è di solito il più adatto, almeno nella fase esplorativa, mentre per una soluzione più raffinata potresti cercare un processo iterativo come K-medie. Secondo quale software stai usando è anche possibile usare un processo, che è in SPSS ma non so dove altro, chiamato cluster in due fasi, che è veloce, sebbene opaco, e sembra dare buoni risultati.

L'analisi del cluster produce una soluzione di classificazione che massimizza la varianza tra i gruppi riducendo al minimo la varianza all'interno di detti gruppi. Probabilmente produrrà risultati più facili da interpretare.



1

Un'altra opzione sarebbe quella di utilizzare le mappe auto-organizzate (SOM). Qualche idea di quale software utilizzeranno gli studenti? So che R, ad esempio, ha un paio di implementazioni SOM. Tuttavia, i SOM potrebbero non superare il test "I fattori componenti hanno un senso intuitivo". (Non necessariamente vero con PCA, o ...)


Ci scusiamo per il ritardo nella risposta. Gli studenti userebbero Minitab 16, che ha alcune delle più tradizionali tecniche di riduzione dei dati sopra menzionate. Esaminerò le mappe auto-organizzanti, ma dubito che sarebbe appropriato per il tipo di studenti che ottengo in un corso di laurea del secondo anno.
rabidotter,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.