Che cos'è un processo di analisi dei dati praticamente buono?


15

Vorrei sapere, o fare riferimento a, il processo di analisi che la maggior parte degli analisti di dati statistici passa attraverso ogni progetto di analisi dei dati.

Se faccio una "lista", per completare il progetto di analisi dei dati, un analista deve:

  1. prima raccogliere i requisiti per il progetto,
  2. pianificare / progettare la sua analisi dei dati sulla base di tali requisiti prima
  3. effettivamente pre-elaborazione dei dati,
  4. eseguire l'analisi dei dati e
  5. scrivere un rapporto basato sui suoi risultati di analisi.

Per questa domanda, sono interessato a maggiori dettagli del passaggio 2. Ma capisco che questo non è praticamente chiaro in quanto l'analista potrebbe dover modificare il suo piano o progetto in base all'output dell'analisi dei dati. C'è qualche riferimento su questo argomento?

Risposte:


17

Il mio "piano" o "elenco" preferito è il documento di Scott Emerson Organizing Your Approach to a Data Analysis .

Nota: le ultime due pagine sono sotto il titolo "Requisiti generali per l'esame di dottorato applicato", ma i consigli forniti in questa sede si generalizzano a lavorare su qualsiasi problema di analisi.


Adoro ogni parte del documento. Grazie per il prezioso riferimento.
Tae-Sung Shin,

5

Ho trovato Il flusso di lavoro di analisi dei dati usando Stata per essere un buon libro, in particolare (ma non solo) come utente Stata. Ho trovato molte cose con cui non essere d'accordo, ma anche questo mi ha aiutato a chiarire perché faccio le cose in determinati modi.


4
+1 ma, avvertimento : questo libro è prezioso solo se sei un utente Stata. Non uso Stata (in effetti non l'ho mai fatto). D'altra parte, mi piace Long, quindi l'ho verificato dalla libreria. Sono sicuro che ci sono molte buone informazioni per tutti, ma è così strettamente intrecciato con l'uso di Stata che è impossibile estrarre le informazioni generali del dominio.
gung - Ripristina Monica

2

CRISP-DM , coniato dalla società SPSS (ora appartiene a IBM) è un acronimo per il processo di data mining, che è lo stesso di "analisi dei dati". SAS ha un processo simile chiamato SEMMA .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.