Qual è la differenza tra data mining, statistiche, machine learning e AI?


208

Qual è la differenza tra data mining, statistiche, machine learning e AI?

Sarebbe preciso dire che sono 4 campi che tentano di risolvere problemi molto simili ma con approcci diversi? Cosa hanno esattamente in comune e dove differiscono? Se ci fosse una sorta di gerarchia tra loro, quale sarebbe?

Domande simili sono state poste in precedenza ma ancora non capisco:

Risposte:


109

Vi è una considerevole sovrapposizione tra questi, ma si possono fare alcune distinzioni. Per necessità, dovrò semplificare eccessivamente alcune cose o dare una scarsità agli altri, ma farò del mio meglio per dare un senso a queste aree.

Innanzitutto, l'intelligenza artificiale è abbastanza distinta dal resto. L'intelligenza artificiale è lo studio di come creare agenti intelligenti. In pratica, è come programmare un computer per comportarsi ed eseguire un'attività come farebbe un agente intelligente (diciamo, una persona). Questo non deve necessariamente implicare l'apprendimento o l'induzione, può solo essere un modo per "costruire una trappola per topi migliore". Ad esempio, le applicazioni AI hanno incluso programmi per monitorare e controllare i processi in corso (ad esempio, aumentare l'aspetto A se sembra troppo basso). Nota che l'intelligenza artificiale può includere maledettamente qualsiasi cosa faccia una macchina, purché non lo faccia "stupidamente".

In pratica, tuttavia, la maggior parte dei compiti che richiedono intelligenza richiedono la capacità di indurre nuove conoscenze dalle esperienze. Pertanto, un'ampia area all'interno dell'intelligenza artificiale è l'apprendimento automatico . Si dice che un programma per computer apprenda alcuni compiti dall'esperienza se le sue prestazioni sul lavoro migliorano con l'esperienza, secondo alcune misure prestazionali. L'apprendimento automatico prevede lo studio di algoritmi in grado di estrarre automaticamente le informazioni (ovvero, senza la guida umana in linea). È certamente vero che alcune di queste procedure includono idee derivate direttamente o ispirate da statistiche classiche, ma non hannoessere. Analogamente all'intelligenza artificiale, l'apprendimento automatico è molto ampio e può includere quasi tutto, purché vi sia una componente induttiva. Un esempio di algoritmo di apprendimento automatico potrebbe essere un filtro Kalman.

Il data mining è un settore che ha tratto gran parte della sua ispirazione e delle sue tecniche dall'apprendimento automatico (e alcuni, anche, dalle statistiche), ma che ha scopi diversi . Il data mining viene eseguito da una persona , in una situazione specifica, su un determinato set di dati, con un obiettivo in mente. In genere, questa persona vuole sfruttare il potere delle varie tecniche di riconoscimento dei modelli sviluppate nell'apprendimento automatico. Molto spesso, il set di dati è enorme , complicato e / o può presentare problemi speciali(come ad esempio ci sono più variabili che osservazioni). Di solito, l'obiettivo è quello di scoprire / generare alcune intuizioni preliminari in un'area in cui in realtà c'era poca conoscenza in anticipo, o di essere in grado di prevedere accuratamente le osservazioni future. Inoltre, le procedure di data mining potrebbero essere "non supervisionate" (non conosciamo la risposta - scoperta) o "supervisionate" (conosciamo la risposta - previsione). Si noti che l'obiettivo non è generalmente quello di sviluppare una comprensione più sofisticata del processo di generazione dei dati sottostante. Tecniche di data mining comuni includono analisi di cluster, alberi di classificazione e regressione e reti neurali.

Suppongo di non aver bisogno di dire molto per spiegare quali sono le statistiche su questo sito, ma forse posso dire alcune cose. La statistica classica (qui intendo sia frequentista che bayesiana) è un argomento secondario della matematica. Lo considero in gran parte l'intersezione di ciò che sappiamo sulla probabilità e ciò che sappiamo sull'ottimizzazione. Sebbene le statistiche matematiche possano essere studiate semplicemente come un oggetto platonico di indagine, è per lo più inteso come più pratico e applicato nel carattere rispetto ad altre aree matematiche più rarefatte. Come tale (e in particolare in contrasto con il data mining di cui sopra), viene principalmente utilizzato per comprendere meglio alcuni particolari processi di generazione dei dati. Pertanto, di solito inizia con un modello formalmente specificatoe da ciò derivano procedure per estrarre con precisione quel modello da istanze rumorose (ad es. stima - ottimizzando alcune funzioni di perdita) e per poterlo distinguere da altre possibilità (ad es. inferenze basate su proprietà note delle distribuzioni di campionamento). La tecnica statistica prototipica è la regressione.


1
Sono d'accordo con la maggior parte del post, ma direi che l'IA la maggior parte delle volte non cerca di creare agenti intelligenti (che cos'è l'intelligenza, comunque?), Ma agenti razionali. Per razionale si intende "ottimale data la conoscenza disponibile sul mondo". Anche se certamente l'obiettivo finale è qualcosa di simile a un risolutore di problemi generali.
Kutschkem,

3
scusate, ancora non capisco la differenza tra data mining e machine learning. da quello che vedo, data mining = apprendimento non supervisionato di machine learning. l'apprendimento automatico non è incustodito sulla scoperta di nuove intuizioni?
dtc,

Un utente anonimo ha suggerito questo blogpost per una tabella che suddivide le differenze tra data mining e machine learning su base di parametri.
gung

1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.È sicuro affermare che una rete neurale è un esempio di uno strumento di apprendimento automatico utilizzato nel data mining, rispetto a un'analisi del cluster che è un algoritmo non progettato per l'apprendimento automatico utilizzato per il data mining?
t0mgs

In realtà è tutto abbastanza sfocato, @ TomGranot-Scalosub. Direi che le reti neurali sono sicuramente ML, e certamente l'analisi dei cluster e il CART sono studiati dai ricercatori ML. Cerco di rendere le idee un po 'più chiare e distinte, ma non c'è davvero una linea luminosa tra queste categorie.
gung

41

Molte delle altre risposte hanno coperto i punti principali, ma hai chiesto una gerarchia se ne esiste una e il modo in cui la vedo io, sebbene siano tutte discipline a sé stanti, esiste una gerarchia che nessuno sembra aver ancora menzionato da quando ognuna si basa su il precedente.

Le statistiche riguardano solo i numeri e la quantificazione dei dati. Esistono molti strumenti per trovare le proprietà pertinenti dei dati, ma questo è abbastanza vicino alla matematica pura.

L'estrazione dei dati riguarda l'utilizzo delle statistiche e di altri metodi di programmazione per trovare schemi nascosti nei dati in modo da poter spiegare alcuni fenomeni. Data Mining sviluppa intuizione su ciò che sta realmente accadendo in alcuni dati ed è ancora poco più orientato alla matematica che alla programmazione, ma utilizza entrambi.

L'apprendimento automatico utilizza tecniche di data mining e altri algoritmi di apprendimento per costruire modelli di ciò che sta accadendo dietro alcuni dati in modo da poter prevedere i risultati futuri. La matematica è la base di molti algoritmi, ma è più orientata alla programmazione.

L'intelligenza artificiale utilizza modelli costruiti da Machine Learning e altri modi per ragionare sul mondo e dare vita a comportamenti intelligenti sia che si tratti di giocare o guidare un robot / auto. L'intelligenza artificiale ha alcuni obiettivi da raggiungere prevedendo in che modo le azioni influenzeranno il modello del mondo e sceglie le azioni che meglio raggiungeranno tale obiettivo. Molto basato sulla programmazione.

In breve

  • La statistica quantifica i numeri
  • Il data mining spiega i modelli
  • L'apprendimento automatico prevede modelli
  • L'intelligenza artificiale si comporta e ragiona

Detto questo, ci saranno alcuni problemi di intelligenza artificiale che rientrano solo nell'intelligenza artificiale e in modo simile per gli altri campi, ma la maggior parte dei problemi interessanti di oggi (ad esempio le auto a guida autonoma) potrebbero essere facilmente e correttamente chiamati tutti questi. Spero che questo chiarisca la relazione tra loro di cui hai chiesto.


Hai mai usato WEKA o RapidMiner? Ad esempio, EM è all'interno del data mining e applica un modello. A parte questo, controlla la definizione data da Mariana Soffer e confrontala con la tua risposta. Sono passati un paio d'anni da quando ho letto Bishop e Russell / Norvig, ma per quanto mi ricordo la def. di mariana soffer è più adatto. btw data mining è ("solo") il passo principale prima della scoperta della conoscenza. il data mining sta solo afferrando i dati - e successivamente per le informazioni - quando si utilizza un algoritmo con parametri adeguati. il data mining non può spiegare schemi.
mnemonico,

No, @mnemonic, questa definizione di AI è molto più in linea con Russell e Norvig rispetto a quella di Mariana, che è piuttosto datata
nealmcb

2
Penso che la descrizione delle statistiche sia scarsa; i numeri di quantificazione sono le statistiche riportate dal dipartimento nazionale di statistica, ma questo non è lo stesso della scienza statistica che crea modelli per i dati, ne stima i parametri e fa l'inferenza. Inoltre, la relazione tra data mining e machine learning è sottosopra; la scienza dei dati utilizza tecniche di apprendimento automatico, non viceversa. Vedi anche la risposta di Ken van Haren.
Richard Hardy,

25
  • Le statistiche riguardano i modelli probabilistici, in particolare l'inferenza su questi modelli utilizzando i dati.
  • L'apprendimento automatico si preoccupa di prevedere un risultato particolare dati alcuni dati. Quasi ogni ragionevole metodo di apprendimento automatico può essere formulato come un modello probabilistico formale, quindi in questo senso l'apprendimento automatico è molto simile alle statistiche, ma differisce dal fatto che generalmente non si preoccupa delle stime dei parametri (solo previsione) e si concentra sull'efficienza computazionale e grandi set di dati.
  • Il data mining è (a quanto ho capito) l'apprendimento automatico applicato. Si concentra maggiormente sugli aspetti pratici della distribuzione di algoritmi di apprendimento automatico su set di dati di grandi dimensioni. È molto simile all'apprendimento automatico.
  • L'intelligenza artificiale è tutto ciò che riguarda (qualche definizione arbitraria di) intelligenza nei computer. Quindi include molte cose.

In generale, i modelli probabilistici (e quindi le statistiche) hanno dimostrato di essere il modo più efficace per strutturare formalmente la conoscenza e la comprensione in una macchina, a tal punto che tutti e tre gli altri (AI, ML e DM) sono oggi per lo più sottocampi di statistiche. Non è la prima disciplina a diventare un braccio ombra della statistica ... (Economia, psicologia, bioinformatica, ecc.)


5
@Ken - Sarebbe inesatto descrivere la psicologia economica o l'IA come bracci oscuri delle statistiche - anche se le statistiche sono usate pesantemente all'interno di ciascuna per analizzare molti dei problemi a cui questi campi sono interessati. Non vorrai suggerire che la medicina sia un braccio oscuro delle statistiche anche se la maggior parte delle conclusioni mediche si basano fortemente sull'analisi dei dati.
mpacer,

@Ken - Questa è un'ottima risposta ma potresti descrivere più in dettaglio in cosa consistono le altre cose in cui l'IA è composta. Ad esempio, storicamente l'IA ha incluso anche grandi quantità di analisi di modelli non probabilistici (ad es. Sistemi di produzione, automi cellulari ecc., Ad es. Vedi Newell e Simon 1972). Naturalmente tutti questi modelli stanno limitando i casi di alcuni modelli probabilistici, ma non sono stati analizzati in tale vena fino a molto tempo dopo.
mpacer,

4
il data mining va oltre l'apprendimento automatico, in quanto comporta in realtà il modo in cui i dati vengono archiviati e indicizzati per rendere gli algoritmi molto più veloci. Può essere caratterizzato come prendendo principalmente metodi da AI, ML e statistiche e combinandoli con tecniche di gestione e layout dei dati efficienti e intelligenti. Quando non comporta la gestione dei dati, spesso si può semplicemente chiamarlo "apprendimento automatico". Esistono tuttavia alcuni compiti, in particolare "senza supervisione", in cui non è coinvolto "apprendimento", ma anche gestione dei dati, che vengono comunque chiamati "data mining" (clustering, rilevamento anomalo).
Anony-Mousse

21

Possiamo dire che sono tutti collegati, ma sono tutte cose diverse. Sebbene tu possa avere cose in comune tra loro, come quello nelle statistiche e nel data mining usi metodi di clustering.
Vorrei provare a definire brevemente ciascuno:

  • La statistica è una disciplina molto antica principalmente basata sui metodi matematici classici, che può essere utilizzata per lo stesso scopo del data mining a volte che sta classificando e raggruppando le cose.

  • Il data mining consiste nella creazione di modelli al fine di rilevare i modelli che ci consentono di classificare o prevedere situazioni alla luce di una serie di fatti o fattori.

  • L'intelligenza artificiale (controlla Marvin Minsky *) è la disciplina che cerca di emulare il modo in cui il cervello lavora con i metodi di programmazione, ad esempio costruendo un programma che gioca a scacchi.

  • L'apprendimento automatico è il compito di costruire conoscenze e memorizzarle in qualche forma nel computer; quella forma può essere di modelli matematici, algoritmi, ecc ... Tutto ciò che può aiutare a rilevare schemi.


2
No, la maggior parte dell'IA moderna non segue l'approccio iniziale di "emulazione del cervello". Si concentra sulla creazione di "agenti razionali" che agiscono in un ambiente per massimizzare l'utilità ed è più strettamente correlato all'apprendimento automatico. Vedi il libro di Russell e Norvig.
nealmcb,

1
Non vedo la differenza tra ML e data mining nella tua definizione
Martin Thoma,

16

Conosco molto bene l'apprendimento automatico - l'asse del data mining - quindi mi concentrerò su questo:

L'apprendimento automatico tende a interessarsi all'inferenza in situazioni non standard, ad esempio dati non iid, apprendimento attivo, apprendimento semi supervisionato, apprendimento con dati strutturati (ad esempio stringhe o grafici). ML tende anche ad interessarsi ai limiti teorici su ciò che è apprendibile, che spesso costituisce la base per gli algoritmi utilizzati (ad esempio la macchina vettoriale di supporto). ML tende ad essere di natura bayesiana.

Il data mining è interessato a trovare modelli in dati che non si conoscono già. Non sono sicuro che sia significativamente diverso dall'analisi dei dati esplorativi nelle statistiche, mentre nell'apprendimento automatico vi è generalmente un problema più ben definito da risolvere.

ML tende ad essere più interessato a piccoli set di dati in cui il problema è l'eccessivo adattamento e il data mining tende ad essere interessato a set di dati su larga scala in cui il problema riguarda le quantità di dati.

La statistica e l'apprendimento automatico forniscono molti degli strumenti di base utilizzati dai data mining.


Non sono d'accordo con "ML tende ad essere più interessato a piccoli set di dati".
Martin Thoma,

il data mining diventa molto più difficile con piccoli set di dati in quanto aumenta la possibilità di trovare un'associazione spuria (e aumenta la difficoltà di rilevarla). Con piccoli set di dati inferenze che fanno il minor numero di scelte possibili tendono ad essere molto più sicure.
Dikran Marsupial,

13

Ecco la mia opinione. Cominciamo con le due categorie molto ampie:

  • tutto ciò che finge di essere intelligente è l'intelligenza artificiale (compresi ML e DM).
  • tutto ciò che sintetizza i dati sono statistiche , anche se di solito si applica solo a metodi che prestano attenzione alla validità dei risultati (spesso utilizzati in ML e DM)

Sia ML che DM sono di solito entrambi, AI e statistiche, poiché di solito coinvolgono metodi di base da entrambi. Ecco alcune delle differenze:

  • nell'apprendimento automatico , hai un obiettivo ben definito (di solito previsione )
  • nel data mining , hai essenzialmente l'obiettivo " qualcosa che non sapevo prima "

Inoltre, il data mining di solito comporta una gestione molto maggiore dei dati , ovvero come organizzare i dati in strutture di indice e database efficienti.

Sfortunatamente, non sono così facili da separare. Ad esempio, esiste un "apprendimento senza supervisione", che è spesso più strettamente correlato al DM che al ML, in quanto non può ottimizzare verso l'obiettivo. D'altra parte, i metodi DM sono difficili da valutare (come giudichi qualcosa che non conosci?) E spesso valutati sugli stessi compiti dell'apprendimento automatico, tralasciando alcune informazioni. Ciò, tuttavia, di solito li farà apparire peggio dei metodi di apprendimento automatico in grado di ottimizzare verso l'obiettivo di valutazione reale.

Inoltre, vengono spesso utilizzati in combinazioni. Ad esempio, un metodo di data mining (ad esempio clustering o rilevamento di valori anomali non supervisionati) viene utilizzato per preelaborare i dati, quindi il metodo di apprendimento automatico viene applicato sui dati preelaborati per formare classificatori migliori.

L'apprendimento automatico di solito è molto più facile da valutare: esiste un obiettivo come il punteggio o la previsione della classe. Puoi calcolare precisione e richiamo. Nel data mining, la maggior parte della valutazione viene effettuata tralasciando alcune informazioni (come le etichette di classe) e quindi verificando se il metodo ha scoperto la stessa struttura. Questo è ingenuo nel senso, dato che si presume che le etichette di classe codifichino completamente la struttura dei dati; in realtà punisci l'algoritmo di data mining che scopre qualcosa di nuovo nei tuoi dati. Un altro modo di - indirettamente - valutarlo, è come la struttura scoperta migliora le prestazioni dell'attuale algoritmo ML (ad es. Quando si partizionano i dati o si rimuovono valori anomali). Tuttavia, questa valutazione si basa sulla riproduzione dei risultati esistenti, che non è proprio l'obiettivo del data mining ...


1
La tua risposta è molto perspicace. Apprezzo in particolare l'ultimo paragrafo, sulle differenze nella valutazione delle prestazioni di ML e nella valutazione delle prestazioni di DM.
justis,

8

Aggiungerei alcune osservazioni a ciò che è stato detto ...

L'intelligenza artificiale è un termine molto ampio per tutto ciò che ha a che fare con le macchine che svolgono attività di ragionamento o di apparenza senziente, che vanno dalla pianificazione di un'attività o alla cooperazione con altre entità, all'apprendimento di operare sugli arti per camminare. Una definizione pithy è che l'intelligenza artificiale è qualcosa correlato al computer che non sappiamo ancora fare bene. (Una volta che sappiamo come farlo bene, generalmente ottiene il suo nome e non è più "AI".)

La mia impressione, contrariamente a Wikipedia, è che Pattern Recognition e Machine Learning siano lo stesso campo, ma il primo è praticato da persone di informatica mentre il secondo è praticato da statistici e ingegneri. (Molti campi tecnici vengono scoperti più e più volte da diversi sottogruppi, che spesso portano sul tavolo il proprio gergo e la propria mentalità.)

L'estrazione dei dati, nella mia mente, prende comunque Machine Learning / Pattern Recognition (le tecniche che funzionano con i dati) e li avvolge in database, infrastrutture e tecniche di convalida / pulizia dei dati.


6
L'apprendimento automatico e il riconoscimento di schemi non sono la stessa cosa, l'apprendimento automatico è anche interessato a cose come la regressione e l'inferenza causale ecc. Il riconoscimento di schemi è solo uno dei problemi di interesse nell'apprendimento automatico. La maggior parte delle persone che conoscono l'apprendimento automatico sono nei dipartimenti di informatica.
Dikran Marsupial,

2
@Dikran Sono d'accordo, ma ML e PR sono spesso aliasati e presentati su argomenti simili di analisi dei dati. Il mio libro preferito è sicuramente Pattern Recognition And Machine Learning , di Christophe M. Bishop. Ecco una recensione di John MainDonald su JSS, j.mp/etg3w1 .
chl

Sento anche che la parola "machine learning" è molto più comune del "riconoscimento di modelli" nel mondo CS.
Bayerj,

Senti anche qui che ML è più un termine CS.
Karl Morrison,

3

Sfortunatamente, la differenza tra queste aree è in gran parte dove vengono insegnate: la statistica si basa sui dipartimenti di matematica, ai, l'apprendimento automatico nei dipartimenti di informatica e il data mining è più applicato (utilizzato dai dipartimenti di business o di marketing, sviluppato da società di software) .

In primo luogo l'IA (sebbene possa significare qualsiasi sistema intelligente) ha tradizionalmente significato approcci basati sulla logica (ad esempio sistemi esperti) piuttosto che una stima statistica. La statistica, basata sui dipartimenti matematici, ha avuto un'ottima comprensione teorica, insieme a una forte esperienza applicata nelle scienze sperimentali, dove esiste un modello scientifico chiaro, e sono necessarie statistiche per gestire i limitati dati sperimentali disponibili. L'attenzione si è spesso concentrata sulla compressione delle informazioni massime da insiemi di dati molto piccoli. inoltre c'è una propensione per le prove matematiche: non verrai pubblicato se non puoi provare cose sul tuo approccio. Ciò ha teso a significare che le statistiche sono rimaste indietro nell'uso dei computer per automatizzare l'analisi. Ancora, la mancanza di conoscenze di programmazione ha impedito agli statistici di lavorare su problemi su larga scala in cui le questioni computazionali diventano importanti (considerare GPU e sistemi distribuiti come hadoop). Credo che settori come la bioinformatica abbiano spostato le statistiche più in questa direzione. Infine, direi che gli statistici sono un gruppo più scettico: non sostengono che tu scopra la conoscenza con le statistiche, piuttosto uno scienziato fornisce un'ipotesi e il compito dello statista è di verificare che l'ipotesi sia supportata dai dati. L'apprendimento automatico viene insegnato nei dipartimenti CS, che purtroppo non insegnano la matematica appropriata: calcolo multivariabile, probabilità, statistica e ottimizzazione non sono all'ordine del giorno ... si hanno vaghi concetti "glamour" come l'apprendimento da esempi ...Elementi di apprendimento statistico pagina 30. Ciò tende a significare che la comprensione teorica è molto ridotta e un'esplosione di algoritmi poiché i ricercatori possono sempre trovare alcuni set di dati sui quali il loro algoritmo si rivela migliore. Quindi ci sono enormi fasi di hype mentre i ricercatori ML inseguono la prossima grande cosa: reti neurali, apprendimento profondo ecc. Sfortunatamente ci sono molti più soldi nei dipartimenti CS (pensate a Google, Microsoft, insieme con l'apprendimento più commerciabile) quindi più statistici scettici vengono ignorati. Infine, c'è un empirista inclinato: fondamentalmente c'è una convinzione di fondo che se si lanciano abbastanza dati nell'algoritmo, "apprenderanno" le previsioni corrette. Mentre sono di parte contro la ML, c'è una visione fondamentale nella ML che gli statistici hanno ignorato: che i computer possono rivoluzionare l'applicazione della statistica.

Esistono due modi: a) automatizzare l'applicazione di test e modelli standard. Ad esempio, eseguendo una batteria di modelli (regressione lineare, foreste casuali, ecc., Provando diverse combinazioni di input, impostazioni dei parametri, ecc.). Questo non è realmente accaduto, anche se sospetto che i concorrenti su Kaggle sviluppino le proprie tecniche di automazione. b) applicare modelli statistici standard a dati enormi: pensate ad esempio a google translate, a raccomandare sistemi ecc. (nessuno sostiene che, ad esempio, le persone traducano o raccomandino in questo modo ... ma è uno strumento utile). I modelli statistici sottostanti sono semplici ma ci sono enormi problemi computazionali nell'applicare questi metodi a miliardi di punti dati.

Il data mining è il culmine di questa filosofia ... lo sviluppo di modi automatizzati per estrarre la conoscenza dai dati. Tuttavia, ha un approccio più pratico: essenzialmente viene applicato ai dati comportamentali, dove non esiste una teoria scientifica globale (marketing, rilevamento di frodi, spam ecc.) E l'obiettivo è quello di automatizzare l'analisi di grandi volumi di dati: senza dubbio un un team di statistici potrebbe produrre analisi migliori con un tempo sufficiente, ma è più conveniente utilizzare un computer. Inoltre, come spiega D. Hand, è l'analisi dei dati secondari - i dati che vengono comunque registrati anziché i dati che sono stati esplicitamente raccolti per rispondere a una domanda scientifica in un solido progetto sperimentale. Statistiche di data mining e altro, D Hand

Quindi riassumo che l'IA tradizionale è basata sulla logica piuttosto che sulla statistica, l'apprendimento automatico è la statistica senza teoria e la statistica è "statistica senza computer", e il data mining è lo sviluppo di strumenti automatizzati per l'analisi statistica con un intervento minimo da parte dell'utente.


Questa risposta è sconclusionata, quindi è difficile da seguire ed è inutilmente lunga, ma colpisce davvero il segno che le differenze hanno più a che fare con le tradizioni e le sottolineature disciplinari di ogni altra cosa.
Tripartio,

1

Il data mining riguarda la scoperta di schemi nascosti o conoscenze sconosciute, che possono essere utilizzate per il processo decisionale delle persone.

L'apprendimento automatico riguarda l'apprendimento di un modello per classificare nuovi oggetti.


L'apprendimento automatico riguarda solo la classificazione? L'apprendimento automatico non può essere utilizzato per raggiungere altri obiettivi?
gung

@gung Assolutamente no. L'apprendimento per rinforzo è, IMHO, il sottocampo più caratterizzante della ML e non direi che si basa sulla classificazione ma sul raggiungimento degli obiettivi.
nbro,

@nbro, quel commento avrebbe dovuto essere un suggerimento per l'OP per riconsiderare quanto strettamente stessero definendo ML.
gung

0

A mio avviso, l'intelligenza artificiale potrebbe essere considerata il "superset" di campi come l'apprendimento automatico, il data mining, il riconoscimento di modelli, ecc.

  • La statistica è un campo della matematica che comprende tutti i modelli matematici, le tecniche e i teoremi utilizzati nell'intelligenza artificiale.

  • L'apprendimento automatico è un campo dell'intelligenza artificiale che include tutti gli algoritmi che applicano i modelli statistici sopra menzionati e dà un senso ai dati, ovvero all'analisi predittiva come il clustering e la classificazione.

  • Il data mining è la scienza che utilizza tutte le tecniche sopra (principalmente apprendimento automatico) al fine di estrarre modelli utili e importanti dai dati. Il data mining di solito ha a che fare con l'estrazione di informazioni utili da enormi set di dati, ovvero Big Data.


-1

Che ne dici di: insegnare alle macchine per imparare

Riconoscere modelli significativi nei dati: data mining

Prevedere i risultati da schemi noti: ML

Trova nuove funzionalità per rimappare i dati grezzi: AI

Questo cervello di uccello ha davvero bisogno di definizioni semplici.


-1

Spesso il data mining cerca di "prevedere" alcuni dati futuri o di "spiegare" perché succede qualcosa.

Le statistiche sono più utilizzate per convalidare l'ipotesi ai miei occhi. Ma questa è una discussione soggettiva.

Un'ovvia differenza tra statistici e minatori di dati può essere trovata nel tipo di statistiche riassuntive che guardano.

Le statistiche si limitano spesso a R² e accuratezza, mentre i minatori di dati esamineranno AUC, curve ROC, curve di sollevamento ecc. E potrebbero anche essere preoccupati impiegando una curva di precisione relativa ai costi.

I pacchetti di data mining (ad esempio Weka open source) hanno tecniche incorporate per la selezione degli input, supportano la classificazione di macchine vettoriali, ecc. Mentre questi sono per la maggior parte assenti in pacchetti statistici come JMP. Di recente ho partecipato a un corso sul "data mining in jmp" da parte delle persone jmp, e sebbene sia un pacchetto visivamente forte, mancano solo alcune tecniche pre / post / mid di data mining essenziali. La selezione dell'input è stata fatta manualmente, per ottenere informazioni dettagliate sui dati, sempre nel data mining, è solo tua intenzione rilasciare algoritmi, in modo intelligente, su dati di grandi dimensioni e vedere automaticamente cosa viene fuori. Il corso è stato ovviamente tenuto da persone statistiche, che ha sottolineato la diversa mentalità tra i due.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.