Qual è la differenza tra il data mining e l'analisi statistica?


19

Qual è la differenza tra il data mining e l'analisi statistica?

Per alcuni retroscena, la mia educazione statistica è stata, penso, piuttosto tradizionale. Viene posta una domanda specifica, viene progettata la ricerca e i dati vengono raccolti e analizzati per offrire alcune informazioni su tale domanda. Di conseguenza, sono sempre stato scettico su ciò che consideravo "dragaggio dei dati", ovvero la ricerca di schemi in un ampio set di dati e l'utilizzo di questi schemi per trarre conclusioni. Tendo ad associare quest'ultimo al data mining e ho sempre considerato questo un po 'senza principi (insieme a cose come routine di selezione di variabili algoritmiche).

Tuttavia, esiste una vasta e crescente letteratura sul data mining. Spesso, vedo questa etichetta riferirsi a tecniche specifiche come il clustering, la classificazione basata su alberi, ecc. Tuttavia, almeno dal mio punto di vista, queste tecniche possono essere "liberate" su un insieme di dati o utilizzate in modo strutturato per indirizzare un domanda. Chiamerei il primo data mining e la seconda analisi statistica.

Lavoro nell'amministrazione accademica e mi è stato chiesto di fare un po 'di "data mining" per identificare problemi e opportunità. Coerentemente con il mio background, le mie prime domande sono state: cosa vuoi imparare e quali sono le cose che pensi contribuiscano al problema? Dalla loro risposta, è stato chiaro che io e la persona che ponevamo la domanda avevamo idee diverse sulla natura e sul valore del data mining.



3
Se è duplicato, posso immaginare che il data mining e l'apprendimento automatico siano la stessa cosa!
George Dontas,

@ George Dontas Sì, sono venuto qui da un link nei commenti se l'altra domanda nella speranza di vedere ci fosse una differenza tra ML e data mining.
DJG,

Risposte:


20

Jerome Friedman ha scritto un articolo qualche tempo fa: Data mining e statistiche: qual è la connessione? , che penso che troverai interessante.

Il data mining è stato in gran parte un problema commerciale e guidato dalle esigenze aziendali (insieme alla "necessità" per i venditori di vendere sistemi software e hardware alle imprese). Una cosa che Friedman notò fu che tutte le "caratteristiche" che venivano pubblicizzate erano originate al di fuori delle statistiche - da algoritmi e metodi come reti neurali all'analisi dei dati guidata dalla GUI - e nessuna delle offerte statistiche tradizionali sembrava far parte di nessuno di questi sistemi (regressione, verifica delle ipotesi, ecc.). "La nostra metodologia di base è stata ampiamente ignorata." È stato anche venduto come utente guidato sulla falsariga di ciò che hai notato: ecco i miei dati, ecco la mia "domanda commerciale", dammi una risposta.

Penso che Friedman stesse cercando di provocare. Non pensava che il data mining avesse basi intellettuali serie per quanto riguardava la metodologia, ma che ciò sarebbe cambiato e che gli statistici dovevano svolgere un ruolo piuttosto che ignorarlo.

La mia impressione è che sia successo più o meno. Le linee sono state sfocate. Gli statistici ora pubblicano su riviste di data mining. Oggigiorno i data mining sembrano avere una sorta di formazione statistica. Sebbene i pacchetti di data mining non promuovano ancora modelli lineari generalizzati, la regressione logistica è ben nota tra gli analisti, oltre al clustering e alle reti neurali. Il design sperimentale ottimale potrebbe non far parte del core di data mining, ma il software può essere coassiale per sputare valori p. Progresso!


1
Questo è un ottimo documento ed è coerente con la mia prospettiva su cosa sia il data mining e su come differisce dalle statistiche. Il trucco è, è del 1997! Nota una denuncia del documento o della tua raccomandazione, ma il grado in cui ho tenuto il passo con il data mining. Sembra che devo recuperare un libro attuale sul data mining per recuperare il ritardo.
Brett,

Heh, ho tenuto apposta la data perché pensavo che sarebbe stato divertente notare il lasso di tempo. :) I libri di Michael Berry e Gordon Linoff sono piuttosto buoni e faranno appello agli statistici (per una più ampia esposizione piuttosto che per l'apprendimento delle tecniche statistiche). Se vuoi avere un'idea del lato "sfocato" di questo campo, sfogliare uno dei libri su un prodotto del fornitore, come Enterprise Miner di SAS o Clementine di SPSS, può essere d'aiuto. Non consiglierei di acquistarli a meno che tu non abbia intenzione di lavorare con il prodotto stesso.
ARS

10

La differenza tra statistica e data mining è in gran parte storica, poiché provengono da tradizioni diverse: statistica e informatica. Il data mining è cresciuto parallelamente senza lavoro nell'area dell'intelligenza artificiale e delle statistiche.

La sezione 1.4 di Witten & Frank riassume il mio punto di vista, quindi lo citerò a lungo:

Qual è la differenza tra apprendimento automatico e statistiche? I cinici, guardando ironicamente all'esplosione dell'interesse commerciale (e della pubblicità) in quest'area, equiparano il data mining alle statistiche e al marketing. In verità, non dovresti cercare una linea di demarcazione tra machine learning e statistica perché esiste un continuum - e uno multidimensionale - delle tecniche di analisi dei dati. Alcuni derivano dalle competenze insegnate nei corsi di statistica standard, e altri sono più strettamente associati al tipo di apprendimento automatico che è nato dall'informatica. Storicamente, le due parti hanno avuto tradizioni piuttosto diverse. Se costretto a indicare una sola differenza di enfasi, potrebbe essere che le statistiche si siano preoccupate maggiormente di verificare le ipotesi,

In passato, metodi molto simili si sono sviluppati in parallelo nell'apprendimento automatico e nelle statistiche ...

Ma ora le due prospettive sono convergenti.

NB1 IMO, data mining e machine learning sono molto strettamente termini correlati. In un certo senso, le tecniche di apprendimento automatico sono utilizzate nel data mining. Vedo regolarmente questi termini come intercambiabili, e nella misura in cui sono diversi, di solito vanno insieme. Suggerirei di leggere il documento "Le due culture" e gli altri thread della mia domanda originale.

NB2 Il termine "data mining" può avere una connotazione negativa se usato in modo colloquiale per indicare la perdita di un algoritmo sui dati senza alcuna comprensione concettuale. La sensazione è che il data mining porti a risultati spuri e a un eccesso di adattamento. Di solito evito di usare il termine quando parlo con non esperti di conseguenza, e invece uso l'apprendimento automatico o l'apprendimento statistico come sinonimo.


Informazioni su NB2 - Penso che tu abbia esattamente ragione riguardo alla connotazione del data mining e non avevo stabilito la connessione all'apprendimento automatico. La mia formazione ha sempre enfatizzato i problemi di eccesso di adattamento, falsità e capitalizzazione del caso e come tale sono stato scettico sul DM - e lo sono ancora, forse fino a quando qualcuno non mi dice effettivamente COSA stanno facendo e COME. Grazie.
Brett,

1
Il mio unico cavillo sulla distinzione ML / DM sarebbe che penso che il DM sia più ampio. Ad esempio, OLAP e gli strumenti correlati includono tecnologie di mining. Ma questi provengono dal lato del database dell'informatica piuttosto che dall'apprendimento automatico. Il ruolo del commercio nel plasmare il "significato" del data mining è difficile da ignorare: introduce elementi di scienze gestionali, ricerca operativa, apprendimento automatico e statistica, come richiesto. Dà anche l'impressione di qualcosa di fragile, ma di solito è un problema per i puristi e non per i praticanti.
ars

@ars: sono d'accordo. Stavo cercando di dire che un po 'dicendo "le tecniche di apprendimento automatico sono utilizzate nel data mining" (ovvero il data mining è un super-set). Anche il tuo punto sulle applicazioni commerciali è esatto. Anche se qualcuno in un'applicazione commerciale al giorno d'oggi potrebbe riferirsi al proprio lavoro come qualcos'altro (ad esempio "scienza dei dati").
Shane,

Bene, avrei dovuto dire che stavo cercando di appianare le differenze, piuttosto che in realtà cavillo con quello che hai scritto. Ci scusiamo per la direzione sbagliata. Un buon punto su come cambiare tempi e termini come l'adozione della "scienza dei dati". Uno dei libri di Gelman non inizia con qualcosa come "la statistica è la scienza dei dati"? Quindi "stanno" rubando agli statistici. Ancora. :)
ars

8

Il data mining è classificato come descrittivo o predittivo. Il data mining descrittivo consiste nel cercare enormi set di dati e scoprire le posizioni di strutture o relazioni impreviste, modelli, tendenze, cluster e valori anomali nei dati. D'altro canto, Predictive consiste nel costruire modelli e procedure per attività di regressione, classificazione, riconoscimento di modelli o apprendimento automatico e valutare l'accuratezza predittiva di tali modelli e procedure quando applicati a nuovi dati.

Il meccanismo utilizzato per cercare modelli o strutture in dati ad alta dimensione potrebbe essere manuale o automatizzato; la ricerca potrebbe richiedere l'interrogazione interattiva di un sistema di gestione del database o potrebbe comportare l'utilizzo di un software di visualizzazione per individuare anomalie nei dati. In termini di apprendimento automatico, il data mining descrittivo è noto come apprendimento non supervisionato, mentre il data mining predittivo è noto come apprendimento supervisionato.

La maggior parte dei metodi utilizzati nel data mining sono correlati a metodi sviluppati in statistica e apprendimento automatico. I primi fra questi metodi sono gli argomenti generali di regressione, classificazione, raggruppamento e visualizzazione. A causa delle enormi dimensioni dei set di dati, molte applicazioni del data mining si concentrano sulle tecniche di riduzione della dimensionalità (ad esempio, la selezione delle variabili) e situazioni in cui si sospetta che i dati ad alta dimensione si trovino su iperpiani di dimensione inferiore. L'attenzione recente è stata rivolta ai metodi per identificare i dati ad alta dimensione che giacciono su superfici o varietà non lineari.

Ci sono anche situazioni nel data mining in cui l'inferenza statistica - nel suo senso classico - non ha alcun significato o è di dubbia validità: la prima si verifica quando abbiamo l' intera popolazione a cercare risposte e la seconda si verifica quando una serie di dati è un Campione di "convenienza" anziché essere un campione casuale prelevato da una vasta popolazione. Quando i dati vengono raccolti nel tempo (ad es. Transazioni al dettaglio, transazioni in borsa, registri dei pazienti, registri meteorologici), anche il campionamento potrebbe non avere senso; l'ordinamento temporale delle osservazioni è cruciale per comprendere il fenomeno che genera i dati e trattare le osservazioni come indipendenti quando possono essere altamente correlate fornirà risultati distorti.

I componenti centrali del data mining sono - oltre alla teoria e ai metodi statistici - efficienza informatica e computazionale, elaborazione automatica dei dati, tecniche di visualizzazione dinamica e interattiva dei dati e sviluppo di algoritmi.

Uno dei problemi più importanti nel data mining è il problema computazionale della scalabilità . Gli algoritmi sviluppati per il calcolo di metodi statistici esplorativi e di conferma standard sono stati progettati per essere veloci e computazionalmente efficienti quando applicati a insiemi di dati di piccole e medie dimensioni; tuttavia, è stato dimostrato che la maggior parte di questi algoritmi non è all'altezza della sfida di gestire enormi set di dati. Man mano che i set di dati crescono, molti algoritmi esistenti dimostrano la tendenza a rallentare notevolmente (o addirittura arrestarsi).


8

Il data mining è statistico, con alcune piccole differenze. Puoi pensarlo come statistiche di re-branding, perché gli statistici sono un po 'strani.

È spesso associato a statistiche computazionali, ovvero solo cose che puoi fare con un computer.

I minatori di dati hanno rubato una parte significativa delle statistiche multivariate e l'hanno definita propria. Controlla il sommario di qualsiasi libro multivariato degli anni '90 e confrontalo con un nuovo libro di data mining. Molto simile.

La statistica è associata al test delle ipotesi e alla costruzione del modello, mentre il data mining è più associato alla previsione e alla classificazione, indipendentemente dal fatto che esista un modello comprensibile.


1
Qual è il duplicato? Non vedo nulla di ovvio.
Rob Hyndman,

1
Abbastanza simile a questo, ho pensato: stats.stackexchange.com/questions/6/…
Neil McGuigan,

1
ok. Stavo cercando il data mining, non l'apprendimento automatico. Si prega di votare per chiudere se si ritiene che sia un duplicato.
Rob Hyndman,

Hmm, quindi Data Mining == Machine Learning?
ars

1
1) Non vedo la distinzione comp stat. Non c'è molto che gli statistici facciano che non richiede un computer. Suppongo che intendi procedure di elaborazione intensiva come soluzioni iterative, ecc.? Ma poi, questi sono anche comuni nel moderno lavoro statistico che non è il data mining. 2) Nel mio lavoro (stats), mi sono interessato alla costruzione di modelli per la spiegazione e la previsione, a seconda del problema, non avrei considerato quel data mining. 3) Sono rimasto con la conclusione che il DM moderno è una particolare applicazione delle statistiche, che ritengo un'ottima conclusione.
Brett,

6

In precedenza ho scritto un post in cui ho fatto alcune osservazioni confrontando il data mining con la psicologia. Penso che queste osservazioni possano cogliere alcune delle differenze che stai identificando:

  1. "Il data mining sembra più interessato alla previsione usando le variabili osservate che alla comprensione del sistema causale di variabili latenti; la psicologia è in genere più interessata al sistema causale di variabili latenti.
  2. Il data mining in genere comporta set di dati di grandi dimensioni (ad esempio oltre 10.000 righe) raccolti per uno scopo diverso da quello del data mining. I set di dati psicologici sono in genere piccoli (ad esempio, meno di 1.000 o 100 righe) e raccolti esplicitamente per esplorare una domanda di ricerca.
  3. L'analisi psicologica in genere comporta il test di modelli specifici. Gli approcci di sviluppo di modelli automatizzati tendono a non essere teoricamente interessanti. "- Data Mining e R

Penso che i punti 2 e 3 siano commenti utili e coerenti con quella che vedo come distinzione tra le due SA e DM. Non sono così sicuro del tuo primo punto. Ho svolto un lavoro statistico in cui ero interessato a migliorare la comprensione delle relazioni causali. Tuttavia, ho anche svolto un lavoro statistico in cui il compito era quello di prendere relazioni note e sviluppare modelli con il solo scopo di prevedere, ma che condividevano non le altre caratteristiche del "data mining".
Brett,

4

Non credo che la distinzione che fai sia realmente correlata alla differenza tra data mining e analisi statistica. Stai parlando della differenza tra analisi esplorativa e approccio alla previsione di modelli.

Penso che la tradizione della statistica sia costruita con tutti i passaggi: analisi esplorativa, quindi modellazione, quindi stima, quindi test, quindi previsione / inferenza. Lo statistico esegue analisi esplorative per capire come appaiono i dati (riepilogo delle funzioni in R!) Immagino che il datamining sia meno strutturato e possa essere identificato con l'analisi esplorativa. Tuttavia utilizza tecniche tratte da statistiche provenienti da stime, previsioni, classificazione ....


Posso comprarlo. Il data mining è un'applicazione più esplorativa di tecniche statistiche. Tuttavia, non penso che la distinzione sia sufficiente. Quando sto facendo EDA sulla mia serie di 100 osservazioni da un esperimento progettato, non penso che qualcuno chiamerebbe quel data mining, vero?
Brett,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.