Linee guida per scoprire nuove conoscenze nei dati


9

Traccio qualcosa per evidenziare me stesso o qualcun altro. Di solito, una domanda avvia questo processo e spesso la persona che chiede spera in una risposta particolare.

Come posso imparare cose interessanti sui dati in modo meno distorto?

In questo momento sto seguendo approssimativamente questo metodo:

  1. Statistiche riassuntive.
  2. Stripchart.
  3. Trama a dispersione.
  4. Magari ripeti con un interessante sottoinsieme di dati.

Ma questo non sembra abbastanza metodico o scientifico.

Ci sono linee guida o procedure da seguire che rivelano cose sui dati che non penserei di chiedere? Come faccio a sapere se ho effettuato un'analisi adeguata?

Risposte:


6

C'è un intero campo di analisi dei dati esplorativi (EDA) e un eccellente libro su questo argomento chiamato Exploratory Data Analysis , di John W. Tukey.

Mi piace che tu stia usando dei grafici - ci sono molti altri grafici che possono essere utili, a seconda dei tuoi dati - quante variabili? Di che natura sono le variabili (categorico? Numerico? Continuo? Conta? Ordinale?)

Un grafico che è spesso utile per i dati con più variabili è una matrice scatterplot.

Puoi cercare vari tipi di valori anomali, che sono spesso punti interessanti.

Ma non penso che l'intero processo possa essere reso veramente metodico e scientifico - l'esplorazione è ciò che viene PRIMA che gli approcci metodici e scientifici possano essere introdotti. Qui, penso che l'aspetto chiave sia la giocosità.


(+1) Puoi fornire un link al libro citato?
Steffen,

EDA dal Manuale di ingegneria e statistica itl.nist.gov/div898/handbook/eda/eda.htm .
Selden,

Le variabili di @Peter Flom 13 vengono prodotte confrontando due serie di output prodotte da un programma in esecuzione su due serie di input. Il programma viene eseguito periodicamente. Le variabili sono ordinali, categoria, categoria, categoria, categoria, conteggio, conteggio, conteggio, conteggio, numerico, numerico, conteggio e conteggio. I nomi sono id, machineA, inputA, machineB, inputB, new, same, missing, newP, missingP, lengthA, lengthB, scoreA, scoreB. Ma la decisione di confrontare solo i risultati più recenti è anche la mia idea buona / cattiva.
Selden,

Il libro in realtà si chiama Exploratory Data Analysis (non EDA) è di John W. Tukey (la mia memoria mi ha ingannato perché la copertina della mia edizione è etichettata EDA) Link: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…
Peter Flom

@selden Bene, ID probabilmente non è una variabile utile. Tra due variabili categoriali puoi guardare i grafici a mosaico; tra un grafico categorico e uno numerico, i grafici a scatole parallele possono essere buoni.
Peter Flom

1

Se si dispone di dati cronologici i dati della serie ietime, allora ci sono "noti" e in attesa di essere scoperti sono gli "sconosciuti". Ad esempio se si dispone di una sequenza di punti dati per 10 periodi come 1,9,1,9,1,5,1,9,1,9, in base a questo campione ci si può ragionevolmente aspettare 1,9,1,9 , ... sorgere in futuro. Ciò che l'analisi dei dati rivela è che esiste una lettura "insolita" al periodo 6 anche se rientra nei limiti di + -3 sigma, suggerendo che il DGF non ha tenuto. Smascherare l'Inlier / Outlier ci permette di rivelare cose sui dati. Notiamo inoltre che il valore medio non è il valore atteso. Questa idea si estende facilmente al rilevamento di turni medi e / o tendenze dell'ora locale che potrebbero essere state sconosciute prima dell'analisi dei dati (generazione di ipotesi). Ora è del tutto possibile che le prossime 10 letture siano anche 1,9,1,9, 1,5,1,9,1,9 suggerendo che il "5" non è necessariamente spiacevole. Se osserviamo un processo di errore da un modello adatto che presenta una varianza non costante dimostrabile, potremmo rivelare uno dei seguenti stati di natura: 1) i parametri potrebbero essere cambiati in un determinato momento; 2. Potrebbe essere necessaria un'analisi ponderata (GLS); 3. Potrebbe essere necessario trasformare i dati tramite una trasformazione di potenza; 4. Potrebbe essere necessario modellare effettivamente la varianza degli errori. Se si dispone di dati giornalieri, una buona analisi potrebbe rivelare che esiste una finestra di risposta (lead, contemporanea e struttura di ritardo) intorno a ogni festività che riflette un comportamento coerente / prevedibile. Potresti anche essere in grado di rivelare che determinati giorni del mese hanno un effetto significativo o che il venerdì prima di una festività del lunedì ha un'attività eccezionale. 9 suggerendo che il "5" non è necessariamente spiacevole. Se osserviamo un processo di errore da un modello adatto che presenta una varianza non costante dimostrabile, potremmo rivelare uno dei seguenti stati di natura: 1) i parametri potrebbero essere cambiati in un determinato momento; 2. Potrebbe essere necessaria un'analisi ponderata (GLS); 3. Potrebbe essere necessario trasformare i dati tramite una trasformazione di potenza; 4. Potrebbe essere necessario modellare effettivamente la varianza degli errori. Se si dispone di dati giornalieri, una buona analisi potrebbe rivelare che esiste una finestra di risposta (lead, contemporanea e struttura di ritardo) intorno a ogni festività che riflette un comportamento coerente / prevedibile. Potresti anche essere in grado di rivelare che determinati giorni del mese hanno un effetto significativo o che il venerdì prima di una festività del lunedì ha un'attività eccezionale. 9 suggerendo che il "5" non è necessariamente spiacevole. Se osserviamo un processo di errore da un modello adatto che presenta una varianza non costante dimostrabile, potremmo rivelare uno dei seguenti stati di natura: 1) i parametri potrebbero essere cambiati in un determinato momento; 2. Potrebbe essere necessaria un'analisi ponderata (GLS); 3. Potrebbe essere necessario trasformare i dati tramite una trasformazione di potenza; 4. Potrebbe essere necessario modellare effettivamente la varianza degli errori. Se si dispone di dati giornalieri, una buona analisi potrebbe rivelare che esiste una finestra di risposta (lead, contemporanea e struttura di ritardo) intorno a ogni festività che riflette un comportamento coerente / prevedibile. Potresti anche essere in grado di rivelare che determinati giorni del mese hanno un effetto significativo o che il venerdì prima di una festività del lunedì ha un'attività eccezionale. non è necessariamente spiacevole. Se osserviamo un processo di errore da un modello adatto che presenta una varianza non costante dimostrabile, potremmo rivelare uno dei seguenti stati di natura: 1) i parametri potrebbero essere cambiati in un determinato momento; 2. Potrebbe essere necessaria un'analisi ponderata (GLS); 3. Potrebbe essere necessario trasformare i dati tramite una trasformazione di potenza; 4. Potrebbe essere necessario modellare effettivamente la varianza degli errori. Se si dispone di dati giornalieri, una buona analisi potrebbe rivelare che esiste una finestra di risposta (lead, contemporanea e struttura di ritardo) intorno a ogni festività che riflette un comportamento coerente / prevedibile. Potresti anche essere in grado di rivelare che determinati giorni del mese hanno un effetto significativo o che il venerdì prima di una festività del lunedì ha un'attività eccezionale. non è necessariamente spiacevole. Se osserviamo un processo di errore da un modello adatto che presenta una varianza non costante dimostrabile, potremmo rivelare uno dei seguenti stati di natura: 1) i parametri potrebbero essere cambiati in un determinato momento; 2. Potrebbe essere necessaria un'analisi ponderata (GLS); 3. Potrebbe essere necessario trasformare i dati tramite una trasformazione di potenza; 4. Potrebbe essere necessario modellare effettivamente la varianza degli errori. Se si dispone di dati giornalieri, una buona analisi potrebbe rivelare che esiste una finestra di risposta (lead, contemporanea e struttura di ritardo) intorno a ogni festività che riflette un comportamento coerente / prevedibile. Potresti anche essere in grado di rivelare che determinati giorni del mese hanno un effetto significativo o che il venerdì prima di una festività del lunedì ha un'attività eccezionale. Se osserviamo un processo di errore da un modello adatto che presenta una varianza non costante dimostrabile, potremmo rivelare uno dei seguenti stati di natura: 1) i parametri potrebbero essere cambiati in un determinato momento; 2. Potrebbe essere necessaria un'analisi ponderata (GLS); 3. Potrebbe essere necessario trasformare i dati tramite una trasformazione di potenza; 4. Potrebbe essere necessario modellare effettivamente la varianza degli errori. Se si dispone di dati giornalieri, una buona analisi potrebbe rivelare che esiste una finestra di risposta (lead, contemporanea e struttura di ritardo) intorno a ogni festività che riflette un comportamento coerente / prevedibile. Potresti anche essere in grado di rivelare che determinati giorni del mese hanno un effetto significativo o che il venerdì prima di una festività del lunedì ha un'attività eccezionale. Se osserviamo un processo di errore da un modello adatto che presenta una varianza non costante dimostrabile, potremmo rivelare uno dei seguenti stati di natura: 1) i parametri potrebbero essere cambiati in un determinato momento; 2. Potrebbe essere necessaria un'analisi ponderata (GLS); 3. Potrebbe essere necessario trasformare i dati tramite una trasformazione di potenza; 4. Potrebbe essere necessario modellare effettivamente la varianza degli errori. Se si dispone di dati giornalieri, una buona analisi potrebbe rivelare che esiste una finestra di risposta (lead, contemporanea e struttura di ritardo) intorno a ogni festività che riflette un comportamento coerente / prevedibile. Potresti anche essere in grado di rivelare che determinati giorni del mese hanno un effetto significativo o che il venerdì prima di una festività del lunedì ha un'attività eccezionale. Potrebbe essere necessaria l'analisi ponderata (GLS); 3. Potrebbe essere necessario trasformare i dati tramite una trasformazione di potenza; 4. Potrebbe essere necessario modellare effettivamente la varianza degli errori. Se si dispone di dati giornalieri, una buona analisi potrebbe rivelare che esiste una finestra di risposta (lead, contemporanea e struttura di ritardo) intorno a ogni festività che riflette un comportamento coerente / prevedibile. Potresti anche essere in grado di rivelare che determinati giorni del mese hanno un effetto significativo o che il venerdì prima di una festività del lunedì ha un'attività eccezionale. Potrebbe essere necessaria l'analisi ponderata (GLS); 3. Potrebbe essere necessario trasformare i dati tramite una trasformazione di potenza; 4. Potrebbe essere necessario modellare effettivamente la varianza degli errori. Se si dispone di dati giornalieri, una buona analisi potrebbe rivelare che esiste una finestra di risposta (lead, contemporanea e struttura di ritardo) intorno a ogni festività che riflette un comportamento coerente / prevedibile. Potresti anche essere in grado di rivelare che determinati giorni del mese hanno un effetto significativo o che il venerdì prima di una festività del lunedì ha un'attività eccezionale. struttura contemporanea e di ritardo) attorno a ogni festività che riflette un comportamento coerente / prevedibile. Potresti anche essere in grado di rivelare che determinati giorni del mese hanno un effetto significativo o che il venerdì prima di una festività del lunedì ha un'attività eccezionale. struttura contemporanea e di ritardo) attorno a ogni festività che riflette un comportamento coerente / prevedibile. Potresti anche essere in grado di rivelare che determinati giorni del mese hanno un effetto significativo o che il venerdì prima di una festività del lunedì ha un'attività eccezionale.


0

Il datamining potrebbe essere suddiviso in due categorie. Se sei interessato a misurare l'effetto di un set di dati / variabili su una specifica variabile, questo sarebbe considerato apprendimento supervisionato. Per un apprendimento profondo ed esplorativo senza obiettivi, stai subendo un apprendimento senza supervisione.

La rappresentazione grafica e l'analisi statistica dei dati (comprensione delle distribuzioni e acquisizione dell'intuizione) sono i primi passi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.