La scienza dei dati è la stessa del data mining?


22

Sono sicuro che la scienza dei dati, come sarà discusso in questo forum, ha diversi sinonimi o almeno campi correlati in cui vengono analizzati dati di grandi dimensioni.

La mia domanda particolare riguarda il Data Mining. Ho preso un corso di laurea in Data Mining qualche anno fa. Quali sono le differenze tra Data Science e Data Mining e in particolare cosa dovrei guardare di più per diventare esperto in Data Mining?


Per quanto riguarda la seconda parte della tua domanda, ho proposto una discussione in meta: meta.datascience.stackexchange.com/questions/5/… Il modo in cui ciò che viene ricevuto potrebbe determinare se la tua competenza di competenza è responsabile o nell'ambito.
Clayton,

Risposte:


25

@statsRus inizia a gettare le basi per la tua risposta in un'altra domanda /datascience/1/what-characterises-the-difference-b Between-data-science-and-statistics :

  • Raccolta dati : web scraping e sondaggi online
  • Manipolazione dei dati : ricodifica dei dati disordinati ed estrazione di significato dai dati linguistici e dei social network
  • Scala dei dati : lavorare con set di dati estremamente grandi
  • Data mining : ricerca di schemi in set di dati complessi e di grandi dimensioni, con particolare attenzione alle tecniche algoritmiche
  • Comunicazione dei dati : aiutare a trasformare i dati "leggibili meccanicamente" in informazioni "leggibili dall'uomo" tramite la visualizzazione

Definizione

può essere visto come un elemento (o un insieme di competenze e applicazioni) nel toolkit del data scientist. Mi piace come separa la definizione di estrazione mineraria dalla raccolta in una sorta di gergo commerciale specifico.

Tuttavia, penso che il data mining sarebbe sinonimo di raccolta di dati in una definizione colloquiale inglese-americana.

Quanto a dove andare per diventare competente? Penso che la domanda sia troppo ampia in quanto è attualmente dichiarata e riceverebbe risposte principalmente basate sull'opinione. Forse se potessi perfezionare la tua domanda, potrebbe essere più facile vedere cosa stai chiedendo.


11

Quello che @Clayton ha pubblicato mi sembra giusto, per quei termini, e per "data mining" che è uno strumento del data scientist. Tuttavia, non ho davvero usato il termine "raccolta di dati" e non mi sembra sinonimo di "data mining".

La mia risposta alla tua domanda: no , i termini non sono gli stessi. Le definizioni possono essere vaghe in questo campo, ma non ho visto quei termini usati in modo intercambiabile. Nel mio lavoro, a volte li usiamo per distinguere tra obiettivi o metodologie. Per noi, riguarda di più la verifica di un'ipotesi e in genere i dati sono stati raccolti proprio a tale scopo. riguarda più il setaccio dei dati esistenti, la ricerca di strutture e forse la generazione di ipotesi. Il data mining può iniziare con un'ipotesi, ma è spesso molto debole o generale e può essere difficile da risolvere con sicurezza. (Scava abbastanza a lungo e troverai qualcosa , anche se potrebbe rivelarsi una pirite.)

Tuttavia, abbiamo anche usato "data science" come termine più ampio, per includere "data mining". Parliamo anche di "modellizzazione dei dati", che per noi riguarda la ricerca di un modello per un sistema di interesse, basato su dati, nonché su altre conoscenze e obiettivi. A volte questo significa cercare di trovare la matematica che spiega il sistema reale, e talvolta significa trovare un modello predittivo che sia abbastanza buono per uno scopo.


8

La mia risposta sarebbe no. Considero il data mining come uno dei vari campi della scienza dei dati. L'estrazione dei dati è principalmente considerata per la produzione di domande piuttosto che per la risposta. Viene spesso definito come "rilevare qualcosa di nuovo", rispetto alla scienza dei dati, in cui lo scienziato dei dati cerca di risolvere problemi complessi per essere in grado di raggiungere i risultati finali. Tuttavia entrambi i termini hanno molti punti in comune tra loro. Ad esempio ... se hai un terreno agricolo dove miri a trovare le piante colpite ... Il data mining spaziale gioca un ruolo chiave nel fare questo lavoro. Ci sono buone possibilità che potresti finire per scoprire non solo le piante colpite nella terra ma anche nella misura in cui sono colpiti ....... questo non è possibile con la scienza dei dati.


La tua risposta è molto bella, e lo sarebbe anche se aggiungessi un piccolo esempio, in modo da enfatizzare il tuo punto sul data mining che è più correlato al rilevamento di qualcosa di nuovo piuttosto che cercare di risolvere e raggiungere risultati .
Rubens,

6

Esistono molte sovrapposizioni tra data mining e datascience. Direi che le persone con il ruolo di datamining si occupano della raccolta dei dati e dell'estrazione di funzionalità da set di dati non filtrati, non organizzati e per lo più grezzi / selvaggi. Alcuni dati molto importanti potrebbero essere difficili da estrarre, non per i problemi di implementazione ma perché potrebbero avere artefatti estranei.

Per esempio. se avessi bisogno di qualcuno che guardasse i dati finanziari dalle dichiarazioni dei redditi scritte negli anni '70, che erano state scannerizzate e lette automaticamente per scoprire se le persone risparmiavano di più sull'assicurazione auto; un dataminer sarebbe la persona da ottenere.

Se avessi bisogno di qualcuno che esaminasse l'influenza del profilo Twitter di Nike nei tweet del Brasile e identificasse le caratteristiche chiave positive del profilo, avrei cercato un esperto di dati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.