Domande taggate «data-cleaning»

4
Dati di pulizia di formato incoerente in R?
Mi occupo spesso di dati di sondaggi disordinati che richiedono molta pulizia prima di poter fare statistiche. Lo facevo "manualmente" in Excel, a volte usando le formule di Excel e talvolta controllando le voci una per una. Ho iniziato a svolgere sempre più di questi compiti scrivendo script per eseguirli …
16 r  data-cleaning 

1
Lo stato dell'arte nella deduplicazione
Quali sono i metodi all'avanguardia nella deduplicazione record? La deduplicazione viene talvolta chiamata: collegamento dei record, risoluzione dell'entità, risoluzione dell'identità, unione / eliminazione. Conosco ad esempio CBLOCK [1]. Gradirei se le risposte includessero anche riferimenti a software esistenti che implementano i metodi. So per esempio che Mahout implementa il raggruppamento …


3
Pulizia automatica dei dati
Un problema comune è che ML è la scarsa qualità dei dati: errori nei valori delle caratteristiche, istanze errate, ecc. Ecc. Un modo per affrontare questo problema è di esaminare manualmente i dati e verificare, ma ci sono altre tecniche? (Scommetto che ci sono!) Quali sono i migliori e perché?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.