Sfortunatamente, la differenza tra queste aree è in gran parte dove vengono insegnate: la statistica si basa sui dipartimenti di matematica, ai, l'apprendimento automatico nei dipartimenti di informatica e il data mining è più applicato (utilizzato dai dipartimenti di business o di marketing, sviluppato da società di software) .
In primo luogo l'IA (sebbene possa significare qualsiasi sistema intelligente) ha tradizionalmente significato approcci basati sulla logica (ad esempio sistemi esperti) piuttosto che una stima statistica. La statistica, basata sui dipartimenti matematici, ha avuto un'ottima comprensione teorica, insieme a una forte esperienza applicata nelle scienze sperimentali, dove esiste un modello scientifico chiaro, e sono necessarie statistiche per gestire i limitati dati sperimentali disponibili. L'attenzione si è spesso concentrata sulla compressione delle informazioni massime da insiemi di dati molto piccoli. inoltre c'è una propensione per le prove matematiche: non verrai pubblicato se non puoi provare cose sul tuo approccio. Ciò ha teso a significare che le statistiche sono rimaste indietro nell'uso dei computer per automatizzare l'analisi. Ancora, la mancanza di conoscenze di programmazione ha impedito agli statistici di lavorare su problemi su larga scala in cui le questioni computazionali diventano importanti (considerare GPU e sistemi distribuiti come hadoop). Credo che settori come la bioinformatica abbiano spostato le statistiche più in questa direzione. Infine, direi che gli statistici sono un gruppo più scettico: non sostengono che tu scopra la conoscenza con le statistiche, piuttosto uno scienziato fornisce un'ipotesi e il compito dello statista è di verificare che l'ipotesi sia supportata dai dati. L'apprendimento automatico viene insegnato nei dipartimenti CS, che purtroppo non insegnano la matematica appropriata: calcolo multivariabile, probabilità, statistica e ottimizzazione non sono all'ordine del giorno ... si hanno vaghi concetti "glamour" come l'apprendimento da esempi ...Elementi di apprendimento statistico pagina 30. Ciò tende a significare che la comprensione teorica è molto ridotta e un'esplosione di algoritmi poiché i ricercatori possono sempre trovare alcuni set di dati sui quali il loro algoritmo si rivela migliore. Quindi ci sono enormi fasi di hype mentre i ricercatori ML inseguono la prossima grande cosa: reti neurali, apprendimento profondo ecc. Sfortunatamente ci sono molti più soldi nei dipartimenti CS (pensate a Google, Microsoft, insieme con l'apprendimento più commerciabile) quindi più statistici scettici vengono ignorati. Infine, c'è un empirista inclinato: fondamentalmente c'è una convinzione di fondo che se si lanciano abbastanza dati nell'algoritmo, "apprenderanno" le previsioni corrette. Mentre sono di parte contro la ML, c'è una visione fondamentale nella ML che gli statistici hanno ignorato: che i computer possono rivoluzionare l'applicazione della statistica.
Esistono due modi: a) automatizzare l'applicazione di test e modelli standard. Ad esempio, eseguendo una batteria di modelli (regressione lineare, foreste casuali, ecc., Provando diverse combinazioni di input, impostazioni dei parametri, ecc.). Questo non è realmente accaduto, anche se sospetto che i concorrenti su Kaggle sviluppino le proprie tecniche di automazione. b) applicare modelli statistici standard a dati enormi: pensate ad esempio a google translate, a raccomandare sistemi ecc. (nessuno sostiene che, ad esempio, le persone traducano o raccomandino in questo modo ... ma è uno strumento utile). I modelli statistici sottostanti sono semplici ma ci sono enormi problemi computazionali nell'applicare questi metodi a miliardi di punti dati.
Il data mining è il culmine di questa filosofia ... lo sviluppo di modi automatizzati per estrarre la conoscenza dai dati. Tuttavia, ha un approccio più pratico: essenzialmente viene applicato ai dati comportamentali, dove non esiste una teoria scientifica globale (marketing, rilevamento di frodi, spam ecc.) E l'obiettivo è quello di automatizzare l'analisi di grandi volumi di dati: senza dubbio un un team di statistici potrebbe produrre analisi migliori con un tempo sufficiente, ma è più conveniente utilizzare un computer. Inoltre, come spiega D. Hand, è l'analisi dei dati secondari - i dati che vengono comunque registrati anziché i dati che sono stati esplicitamente raccolti per rispondere a una domanda scientifica in un solido progetto sperimentale. Statistiche di data mining e altro, D Hand
Quindi riassumo che l'IA tradizionale è basata sulla logica piuttosto che sulla statistica, l'apprendimento automatico è la statistica senza teoria e la statistica è "statistica senza computer", e il data mining è lo sviluppo di strumenti automatizzati per l'analisi statistica con un intervento minimo da parte dell'utente.