Il data mining è classificato come descrittivo o predittivo. Il data mining descrittivo consiste nel cercare enormi set di dati e scoprire le posizioni di strutture o relazioni impreviste, modelli, tendenze, cluster e valori anomali nei dati. D'altro canto, Predictive consiste nel costruire modelli e procedure per attività di regressione, classificazione, riconoscimento di modelli o apprendimento automatico e valutare l'accuratezza predittiva di tali modelli e procedure quando applicati a nuovi dati.
Il meccanismo utilizzato per cercare modelli o strutture in dati ad alta dimensione potrebbe essere manuale o automatizzato; la ricerca potrebbe richiedere l'interrogazione interattiva di un sistema di gestione del database o potrebbe comportare l'utilizzo di un software di visualizzazione per individuare anomalie nei dati. In termini di apprendimento automatico, il data mining descrittivo è noto come apprendimento non supervisionato, mentre il data mining predittivo è noto come apprendimento supervisionato.
La maggior parte dei metodi utilizzati nel data mining sono correlati a metodi sviluppati in statistica e apprendimento automatico. I primi fra questi metodi sono gli argomenti generali di regressione, classificazione, raggruppamento e visualizzazione. A causa delle enormi dimensioni dei set di dati, molte applicazioni del data mining si concentrano sulle tecniche di riduzione della dimensionalità (ad esempio, la selezione delle variabili) e situazioni in cui si sospetta che i dati ad alta dimensione si trovino su iperpiani di dimensione inferiore. L'attenzione recente è stata rivolta ai metodi per identificare i dati ad alta dimensione che giacciono su superfici o varietà non lineari.
Ci sono anche situazioni nel data mining in cui l'inferenza statistica - nel suo senso classico - non ha alcun significato o è di dubbia validità: la prima si verifica quando abbiamo l' intera popolazione a cercare risposte e la seconda si verifica quando una serie di dati è un Campione di "convenienza" anziché essere un campione casuale prelevato da una vasta popolazione. Quando i dati vengono raccolti nel tempo (ad es. Transazioni al dettaglio, transazioni in borsa, registri dei pazienti, registri meteorologici), anche il campionamento potrebbe non avere senso; l'ordinamento temporale delle osservazioni è cruciale per comprendere il fenomeno che genera i dati e trattare le osservazioni come indipendenti quando possono essere altamente correlate fornirà risultati distorti.
I componenti centrali del data mining sono - oltre alla teoria e ai metodi statistici - efficienza informatica e computazionale, elaborazione automatica dei dati, tecniche di visualizzazione dinamica e interattiva dei dati e sviluppo di algoritmi.
Uno dei problemi più importanti nel data mining è il problema computazionale della scalabilità . Gli algoritmi sviluppati per il calcolo di metodi statistici esplorativi e di conferma standard sono stati progettati per essere veloci e computazionalmente efficienti quando applicati a insiemi di dati di piccole e medie dimensioni; tuttavia, è stato dimostrato che la maggior parte di questi algoritmi non è all'altezza della sfida di gestire enormi set di dati. Man mano che i set di dati crescono, molti algoritmi esistenti dimostrano la tendenza a rallentare notevolmente (o addirittura arrestarsi).