Prima occhiata veloce a un set di dati


10

Per favore, perdona la mia ignoranza, ma ...

Continuo a trovarmi in una situazione, in cui mi trovo di fronte a un sacco di nuovi dati che sono riuscito a trovare. Questi dati di solito hanno un aspetto simile al seguente:

Date     Number1  Number2  Category1  Category2
20120125      11      101        Dog      Brown
20120126      21       90        Cat      Black
20120126      31      134        Cat      Brown
(...)

Di solito a prima vista non posso davvero dire se ci sono tendenze qui. Le correlazioni tra le varie colonne potrebbero non essere molto significative, ma sarei felice se non dovessi creare manualmente un diagramma per ogni possibile combinazione di colonne / categorie.

Esiste uno strumento là fuori che accetterebbe una tabella di dati insieme alle informazioni quali colonne dovrebbero essere trattate come numeri, date e categorie e quindi procedere alla trama:

  • correlazioni tra ciascuna due colonne numeriche
  • correlazioni tra ciascuna due colonne numeriche, con linee di tendenza separate per ogni categoria
  • ogni colonna numerica come serie temporale,
  • ogni colonna numerica come serie temporale, separata per categoria,
  • eccetera.

Alla fine ciò genererebbe un gran numero di grafici, la maggior parte dei quali mostrerebbe solo rumore. Idealmente, lo strumento potrebbe valutare i grafici in base alla correlazione e, alla fine, visualizzare una presentazione che inizia con i grafici con il punteggio più alto. Questo sarebbe un primo sguardo molto imperfetto, ma utile al set di dati.

Così? C'è uno strumento che tutti usano per questo e io proprio non lo so, o è qualcosa che dobbiamo fare?


Grazie mille per le vostre risposte. Sto prendendo il mio tempo per testare ciascuno degli strumenti che menzioni sui miei dati. Sceglierò una risposta dopo i miei test. Immagino sia un
peccato che

Risposte:


15

@Ondrej e @Michelle hanno fornito alcune buone informazioni qui. Mi chiedo se posso contribuire affrontando alcuni punti non menzionati altrove. Non mi batterei per non essere in grado di ricavare molto dai dati in forma tabellare, le tabelle non sono generalmente un ottimo modo per presentare informazioni (cfr. Gelman et al., Trasformare le tabelle in grafici ). D'altra parte, chiedere uno strumento che genererà automaticamente tutti i grafici giusti per aiutarti a esplorare un nuovo set di dati è quasi come chiedere uno strumento che ti farà pensare. (Non prenderla nel modo sbagliato, riconosco che la tua domanda chiarisce che non stai andando così lontano; intendo solo che non ci sarà mai davvero uno strumento del genere.) Una bella discussione correlata a questo può essere trovata qUI .

Detto questo, volevo parlare un po 'dei tipi di grafici che potresti voler usare per esplorare i tuoi dati. Le trame elencate nella domanda sarebbero un buon inizio, ma potremmo essere in grado di ottimizzarlo un po '. Per cominciare, creare "un gran numero di grafici" che correlano coppie di variabili potrebbe non essere l'ideale. Un grafico a dispersione mostra solo la relazione marginale tra due variabili. Le relazioni importanti possono spesso essere nascoste in una combinazione di più variabili. Quindi il primo modo per rinforzare questo approccio è creare una matrice scatterplotche visualizza contemporaneamente tutti i grafici a dispersione a coppie. Le matrici di scatterplot possono essere migliorate in vari modi: ad esempio, possono essere combinate con grafici univariati di densità del kernel della distribuzione di ciascuna variabile, diversi marker / colori possono essere usati per tracciare gruppi diversi e possibili relazioni non lineari possono essere valutate sovrapponendo un adattamento loess. La scatterplot.matrixfunzione nel pacchetto auto in R può fare tutte queste cose bene (un esempio può essere visto a metà pagina in basso).

Tuttavia, mentre le matrici scatterplot sono un buon inizio, stanno ancora visualizzando solo le proiezioni marginali. Ci sono alcuni modi per provare ad andare oltre. Uno è esplorare i grafici tridimensionali usando il pacchetto rgl in R. Un altro approccio è usare i grafici condizionali; i coploti possono aiutare con le relazioni tra 3 o 4 variabili contemporaneamente. Un approccio particolarmente utile è l'uso interattivo di una matrice scatterplot(anche se ciò richiederà maggiori sforzi per apprendere), ad esempio "spazzolando". Il pennello consente di evidenziare un punto o punti in un fotogramma di una matrice e quei punti verranno contemporaneamente evidenziati in tutti gli altri fotogrammi. Spostando il pennello, puoi vedere come tutte le variabili cambiano insieme. AGGIORNAMENTO: Un'altra possibilità che avevo dimenticato di menzionare è quella di utilizzare un diagramma di coordinate parallele . Ciò ha uno svantaggio nel non rendere distinta la variabile di risposta, ma potrebbe essere utile, ad esempio, nell'esame delle correlazioni tra le variabili X.

Voglio anche lodarti per aver esaminato i tuoi dati ordinati per data di raccolta. Sebbene i dati siano sempre raccolti nel tempo, le persone non lo fanno sempre. Tracciare un grafico a linee è bello, ma ti suggerirei di completarlo con grafici di autocorrelazioni e autocorrelazioni parziali . In R, le funzioni per questi sono acfe pacfrispettivamente.

Riconosco che tutto ciò non risponde alla tua domanda nel senso di darti uno strumento che ti farà automaticamente tutte le trame, ma un'implicazione è che non dovresti davvero fare tutte le trame che temi , ad esempio, una matrice scatterplot è solo una riga di codice. Inoltre, in R, dovrebbe essere possibile scrivere una funzione / un codice riutilizzabile per te stesso che ne automatizzerebbe in parte parte (ad esempio, posso immaginare una funzione che comprende un elenco di variabili e un ordine di data, li ordina , apre una nuova finestra per ciascuno con grafici line, acf e pacf).


Come sempre, punti eccellenti. :)
Michelle,

2
(+1) Da non perdere ggobi e marginal.plotdal pacchetto latticeExtra .
chl

7

Le correlazioni tra ciascuna coppia di colonne numeriche possono essere mostrate in una matrice di correlazione. Non deve essere puramente numerico, può essere codificato a colori per consentire una rapida valutazione. Scopri corrplot pacchetto per R.

Per ulteriori analisi, Rattle è uno strumento GUI abbastanza utile.

Se cerchi Stack Exchange usando le parole chiave "corrplot" o piuttosto "Rattle", troverai diversi argomenti in cui sono trattati questi strumenti e le loro alternative. Come questo .

In bocca al lupo!


4

@Ondrej ha dato alcuni buoni consigli, quindi mi concentrerò sulla tua domanda su come il software tratta i dati importati. Con i dati sui personaggi, "Categoria 1" e "Categoria 2", il software li tratta automaticamente come gruppi o fattori perché non è possibile eseguire operazioni matematiche su questi dati. Ciò significa che ti verrà impedito di inserire qualsiasi cosa di quelle categorie (in alternativa, otterrai un errore se provi se stai usando la sintassi o una riga di comando invece di un sistema guidato da menu) in un'analisi che richiede numeri.

Per dati come "Numero 1" e "Numero 2", il software li legge come numerici. Se si dispone di gruppi / fattori che contengono dati puramente numerici, è necessario indicare al software che si tratta di gruppi / fattori.

A volte le date possono essere importate male nel software statistico. Dopo aver importato i dati, dovresti vedere che il tipo di dati nel tuo software statistico mostra una forma di "data" per "Data". Se vedi il tipo di dati come qualcosa di diverso dalla data, hai un problema. Anche se viene visualizzato come data, controlla l'importazione di alcune righe in cui hai date come giorni come il 13 o il 25 del mese - a seconda di come è impostato il software, a volte la formattazione della data americana / britannica causa l'importazione di dati errati , a causa dell'inversione del giorno / mese.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.