Pulizia automatica dei dati


10

Un problema comune è che ML è la scarsa qualità dei dati: errori nei valori delle caratteristiche, istanze errate, ecc. Ecc.

Un modo per affrontare questo problema è di esaminare manualmente i dati e verificare, ma ci sono altre tecniche? (Scommetto che ci sono!)

Quali sono i migliori e perché?


Google Refine potrebbe valere la pena dare un'occhiata.
Dimitriy V. Masterov,

Risposte:


6

La riduzione della dimensionalità tramite qualcosa come PCA sarebbe utile per avere un'idea del numero di dimensioni che sono fondamentali per rappresentare i tuoi dati.

Per verificare la presenza di istanze classificate erroneamente, è possibile eseguire un raggruppamento rudimentale di k-medie dei dati per farsi un'idea di come i dati grezzi si adatterebbero alle categorie proposte. Sebbene non automatico, la visualizzazione in questa fase sarebbe utile, poiché il tuo cervello visivo è un potente classificatore in sé e per sé.

In termini di dati che mancano del tutto, le statistiche dispongono già di numerose tecniche per far fronte a tale situazione, tra cui imputazione, acquisizione di dati dall'insieme esistente o da un altro insieme per colmare le lacune.


3
La stampa dei dati è un controllo manuale.
Andreister

@andreister Considero il controllo punto per punto su un foglio di calcolo un controllo manuale, ma okay, vedo che cosa stai ottenendo.
jonsca,

5

Non puoi davvero rimuovere una persona esperta dal ciclo e aspettarti risultati ragionevoli. Ciò non significa che la persona debba esaminare ogni singolo elemento individualmente, ma alla fine ci vuole una conoscenza effettiva per sapere se i riassunti / grafici dei dati sono ragionevoli. (Ad esempio: la variabile A può essere negativa, la variabile B può essere più grande della variabile A o ci sono 4 o 5 scelte per la variabile categoriale C?)

Una volta che hai avuto uno sguardo umano ben informato sui dati, puoi probabilmente creare una serie di regole che potresti utilizzare per testare i dati automaticamente. Il problema è che possono sorgere altri errori a cui non hai pensato. (Ad esempio, un errore di programmazione nel processo di raccolta dei dati che duplica la variabile A nella variabile C.)


Bella risposta. Aggiungerei solo per assicurarmi che la sintassi usata per pulire le variabili sia mantenuta nella documentazione, con commenti se non passaggi descrittivi sul perché le cose sono cambiate. :)
Michelle,

1

Se sai che i tuoi dati non sono abbastanza buoni, è sempre bene controllare anche i valori anomali. Il più delle volte ci sono anomalie.

Se hai molte funzioni, la riduzione della dimensionalità è d'obbligo. PCA è abbastanza efficiente per questo.

Se mancano dei dati, è possibile utilizzare l'imputazione o l'interpolazione, ma se le esigenze lo consentono, il caso vincente è utilizzare il filtro collaborativo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.