Buoni libri riguardanti la preelaborazione dei dati e le tecniche di rilevamento anomalo


11

Come dice il titolo, qualcuno conosce un buon libro aggiornato che tratta la preelaborazione dei dati in generale e soprattutto le tecniche di rilevamento anomalo?

Non è necessario che il libro si concentri esclusivamente su questo, ma dovrebbe occuparsi in modo esauriente degli argomenti di cui sopra - Non sarei contento di qualcosa che è un punto di partenza e cita un elenco di articoli, le spiegazioni delle varie tecniche devono apparire in il libro stesso.

Tecniche per la gestione dei dati mancanti preferibili, ma non necessarie ...


Potresti dirci che tipo di dati (campo scientifico o tecnica di misurazione) stai esaminando?
cbeleites insoddisfatto di SX il

Dati raccolti dagli utenti Web (non può essere più specifico). Sono inclusi timestamp (sebbene i dati non siano strettamente correlati al tempo, almeno intuitivamente), attributi categorici e attributi continui. I valori anomali possono essere causati da innumerevoli motivi, incl. robot web, utenti malintenzionati e molte altre fonti. Anche i dati sono piuttosto grandi (GB in formato CSV, diversi milioni di voci)
em70,

Per me è abbastanza specifico: non c'è bisogno di annoiarvi con la preelaborazione per set di dati chimici o spettroscopici ...
cbeleites insoddisfatti di SX

Risposte:


3

Sebbene specifico per Stata, ho trovato il libro di Scott Long, Il flusso di lavoro di analisi dei dati che utilizza Stata , inestimabile nell'area della gestione e della preparazione dei dati. L'autore fornisce molti consigli utili sulle buone pratiche nella gestione dei dati, come la pulizia e l'archiviazione dei dati, il controllo degli outlier e la gestione dei dati mancanti.


2
Adoro anche questo libro, ma sono un utente Stata tinto di lana per quanto riguarda la gestione dei dati. Mentre non sono d'accordo, altri in questo elenco hanno sostenuto che è troppo specifico per essere utile, quindi avvertimento emptor / lector.
Dimitriy V. Masterov,

Molto stato-ish da quello che raccolgo, e non ho familiarità con stata, né sarebbe utile per questo progetto se fossi (i dati sono troppo grandi, usando tecnologie diverse)
em70,

Il libro è davvero molto idiosincratico. Le particolari tecniche di gestione dei dati (e in particolare i metadati) sono specifiche di Stata, ma le idee generali sono trasferibili tra piattaforme. Sono sorpreso che con il rapporto di circa 20 libri Stata / 100 libri R sul mercato, non ci siano libri comparabili sull'organizzazione del flusso di lavoro in R - è quest'ultimo impossibile? La più grande quantità di memoria che ricordo vividamente di allocare a Stata era di 48 Gb su una macchina da 64 Gb - questo è se le dimensioni contano. Se hai bisogno di manipolare oggetti di struttura selvaggiamente diversa, ti consigliamo di farlo in R, non in Stata.
StasK,

0

Per SAS, esistono tecniche di pulizia dei dati di Ron Cody che utilizzano il software SAS . C'è un detto su SAS-L: "Non si può mai sbagliare con un libro di Ron Cody"


Temo che SAS non sia lo strumento prescelto nel mio ambiente né ne ho familiarità. Inoltre, sto cercando un approccio, piuttosto che un libro di cucina. Diciamo che sto cercando qualcosa che è più sul lato matematico e modellistico delle cose.
em70,

0

Se hai le basi (identificare valori anomali, valori mancanti, ponderazione, codifica) a seconda dell'argomento, troverai molto di più nella semplice letteratura accademica. Ad esempio nella ricerca di sondaggi (che è un argomento in cui molte cose possono andare storte e inclini a molte fonti di parzialità) ci sono molti buoni articoli da trovare.

Quando si prepara una regressione trasversale regolare, le cose possono essere meno complesse. Ad esempio, il problema potrebbe essere la rimozione di troppi "valori anomali" e il corretto adattamento artificiale del modello.

Ti consiglio quindi anche di apprendere buone tecniche, tenere presente anche il buon senso. Assicurati di applicare le tecniche giustamente e non alla cieca. Per quanto riguarda la discussione sul software nelle altre risposte. Penso che SPSS non sia male per la preparazione dei dati (ho anche sentito cose positive su SAS) a seconda delle dimensioni del set di dati. I menu a discesa sono molto intuitivi.

Ma come risposta diretta alla tua domanda, la letteratura accademica può o meno essere un'ottima fonte per la preparazione dei tuoi dati a seconda dell'argomento e dell'analisi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.