Per quanto riguarda la previsione, le statistiche e le scienze dell'apprendimento automatico hanno iniziato a risolvere principalmente lo stesso problema da diverse prospettive.
Fondamentalmente la statistica presuppone che i dati siano stati prodotti da un dato modello stocastico. Quindi, da un punto di vista statistico, viene assunto un modello e dati vari presupposti vengono trattati gli errori e dedotti i parametri del modello e altre domande.
L'apprendimento automatico proviene da una prospettiva informatica. I modelli sono algoritmici e di solito sono richiesti pochissimi presupposti sui dati. Lavoriamo con spazio di ipotesi e pregiudizi di apprendimento. La migliore esposizione di machine learning che ho trovato è contenuta nel libro di Tom Mitchell chiamato Machine Learning .
Per un'idea più esaustiva e completa delle due culture, puoi leggere il documento di Leo Breiman chiamato Statistical Modeling: The Two Cultures
Tuttavia, ciò che deve essere aggiunto è che anche se le due scienze hanno iniziato con prospettive diverse, ora entrambe condividono una discreta quantità di conoscenze e tecniche comuni. Perché, perché i problemi erano gli stessi, ma gli strumenti erano diversi. Quindi ora l'apprendimento automatico viene trattato principalmente da una prospettiva statistica (controlla Hastie, Tibshirani, il libro di Friedman The Elements of Statistical Learning da un punto di vista dell'apprendimento automatico con un trattamento statistico, e forse il libro di Kevin P. Murphy Machine Learning: A prospettiva probabilistica , per citare solo alcuni dei migliori libri disponibili oggi).
Anche la storia dello sviluppo di questo campo mostra i vantaggi di questa fusione di prospettive. Descriverò due eventi.
La prima è la creazione di alberi CART, che è stata creata da Breiman con un solido background statistico. Più o meno allo stesso tempo, Quinlan ha sviluppato ID3, C45, See5 e così via, una suite di alberi decisionali con un background più informatico. Ora sia questa famiglia di alberi che i metodi di insieme come insaccamento e foreste diventano abbastanza simili.
La seconda storia riguarda il potenziamento. Inizialmente furono sviluppati da Freund e Shapire quando scoprirono AdaBoost. Le scelte per la progettazione di AdaBoost sono state fatte principalmente da una prospettiva computazionale. Persino gli autori non hanno capito bene perché funzioni. Solo 5 anni dopo Breiman (di nuovo!) Descrisse il modello adaboost da una prospettiva statistica e fornì una spiegazione del perché funzionasse. Da allora, vari eminenti scienziati, con entrambi i tipi di sfondi, hanno sviluppato ulteriormente quelle idee che portano a una Pleiade di algoritmi di potenziamento, come potenziamento logistico, gradiente, graduale e così via. È difficile ora pensare a potenziare senza un solido background statistico.
I modelli lineari generalizzati sono uno sviluppo statistico. Tuttavia i nuovi trattamenti bayesiani inseriscono questo algoritmo anche nel parco giochi di machine learning. Quindi credo che entrambe le affermazioni potrebbero essere giuste, poiché l'interpretazione e il trattamento di come funziona potrebbero essere diversi.