GLM è un modello statistico o di apprendimento automatico?


11

Ho pensato che il modello lineare generalizzato (GLM) sarebbe stato considerato un modello statistico, ma un amico mi ha detto che alcuni articoli lo classificano come una tecnica di apprendimento automatico. Quale è vero (o più preciso)? Qualsiasi spiegazione sarebbe apprezzata.


1
Penso che l'apprendimento automatico sia di solito un'applicazione della modellistica statistica, quindi direi che è entrambe le cose.
Joews,

Risposte:


21

Un GLM è assolutamente un modello statistico, ma i modelli statistici e le tecniche di apprendimento automatico non si escludono a vicenda. In generale, le statistiche si occupano maggiormente di inferire i parametri, mentre nell'apprendimento automatico la previsione è l'obiettivo finale.


15

Per quanto riguarda la previsione, le statistiche e le scienze dell'apprendimento automatico hanno iniziato a risolvere principalmente lo stesso problema da diverse prospettive.

Fondamentalmente la statistica presuppone che i dati siano stati prodotti da un dato modello stocastico. Quindi, da un punto di vista statistico, viene assunto un modello e dati vari presupposti vengono trattati gli errori e dedotti i parametri del modello e altre domande.

L'apprendimento automatico proviene da una prospettiva informatica. I modelli sono algoritmici e di solito sono richiesti pochissimi presupposti sui dati. Lavoriamo con spazio di ipotesi e pregiudizi di apprendimento. La migliore esposizione di machine learning che ho trovato è contenuta nel libro di Tom Mitchell chiamato Machine Learning .

Per un'idea più esaustiva e completa delle due culture, puoi leggere il documento di Leo Breiman chiamato Statistical Modeling: The Two Cultures

Tuttavia, ciò che deve essere aggiunto è che anche se le due scienze hanno iniziato con prospettive diverse, ora entrambe condividono una discreta quantità di conoscenze e tecniche comuni. Perché, perché i problemi erano gli stessi, ma gli strumenti erano diversi. Quindi ora l'apprendimento automatico viene trattato principalmente da una prospettiva statistica (controlla Hastie, Tibshirani, il libro di Friedman The Elements of Statistical Learning da un punto di vista dell'apprendimento automatico con un trattamento statistico, e forse il libro di Kevin P. Murphy Machine Learning: A prospettiva probabilistica , per citare solo alcuni dei migliori libri disponibili oggi).

Anche la storia dello sviluppo di questo campo mostra i vantaggi di questa fusione di prospettive. Descriverò due eventi.

La prima è la creazione di alberi CART, che è stata creata da Breiman con un solido background statistico. Più o meno allo stesso tempo, Quinlan ha sviluppato ID3, C45, See5 e così via, una suite di alberi decisionali con un background più informatico. Ora sia questa famiglia di alberi che i metodi di insieme come insaccamento e foreste diventano abbastanza simili.

La seconda storia riguarda il potenziamento. Inizialmente furono sviluppati da Freund e Shapire quando scoprirono AdaBoost. Le scelte per la progettazione di AdaBoost sono state fatte principalmente da una prospettiva computazionale. Persino gli autori non hanno capito bene perché funzioni. Solo 5 anni dopo Breiman (di nuovo!) Descrisse il modello adaboost da una prospettiva statistica e fornì una spiegazione del perché funzionasse. Da allora, vari eminenti scienziati, con entrambi i tipi di sfondi, hanno sviluppato ulteriormente quelle idee che portano a una Pleiade di algoritmi di potenziamento, come potenziamento logistico, gradiente, graduale e così via. È difficile ora pensare a potenziare senza un solido background statistico.

I modelli lineari generalizzati sono uno sviluppo statistico. Tuttavia i nuovi trattamenti bayesiani inseriscono questo algoritmo anche nel parco giochi di machine learning. Quindi credo che entrambe le affermazioni potrebbero essere giuste, poiché l'interpretazione e il trattamento di come funziona potrebbero essere diversi.


5

Oltre alla risposta di Ben, la sottile distinzione tra modelli statistici e modelli di apprendimento automatico è che, nei modelli statistici, si decide esplicitamente la struttura dell'equazione di output prima di costruire il modello. Il modello è costruito per calcolare i parametri / coefficienti.

Prendi ad esempio un modello lineare o GLM,

y = a1x1 + a2x2 + a3x3

Le variabili indipendenti sono x1, x2, x3 e i coefficienti da determinare sono a1, a2, a3. Definisci la struttura delle equazioni in questo modo prima di costruire il modello e calcolare a1, a2, a3. Se ritieni che y sia in qualche modo correlato a x2 in modo non lineare, potresti provare qualcosa del genere.

y = a1x1 + a2(x2)^2 + a3x3.

Pertanto, si pone una limitazione in termini di struttura di output. I modelli statistici intrinsecamente sono modelli lineari a meno che non si applichino esplicitamente trasformazioni come sigmoid o kernel per renderli non lineari (GLM e SVM).

Nel caso dei modelli di apprendimento automatico, raramente si specifica la struttura di output e gli algoritmi come gli alberi decisionali sono intrinsecamente non lineari e funzionano in modo efficiente.

Contrariamente a quanto ha sottolineato Ben, i modelli di machine learning non riguardano solo la previsione, ma la classificazione, la regressione, ecc. Che possono essere utilizzati per fare previsioni che sono anche fatte da vari modelli statistici.


L'uso di tale logica neurale è un modello statistico poiché l'architettura viene decisa in anticipo. Non credo che i tentativi di definire un netto taglio tra statistica e apprendimento automatico siano possibili o necessari.
Marc Claesen,

Questo è esattamente il motivo per cui ho citato la parola "raramente" nel paragrafo sull'apprendimento automatico. Non ho detto che assolutamente no! Bene, per le persone che iniziano a esplorare queste cose, è bene conoscere le sfumature tra l'apprendimento statistico e l'apprendimento automatico
binga,

Mi è piaciuta questa spiegazione. Ho scoperto che nel mondo delle statistiche c'è una grande enfasi sulla normalizzazione dei dati, sull'ingegnerizzazione delle funzionalità e sull'adattamento dei modelli. Nel mondo ML, sebbene sia ancora importante, sembra che le persone utilizzino la regolarizzazione e grandi quantità di dati per "trovare il modello giusto", che richiedono ipotesi iniziali meno avanzate. Nota: questo è il mio senso dopo aver fatto un Master in entrambi ma accolgo con favore gli altri che mi correggono se pensano che mi sbagli.
user1761806

2

GLM è assolutamente un modello statistico, mentre sempre più metodi statistici sono stati applicati nella produzione industriale come trucchi di apprendimento automatico . La meta-analisi che ho letto di più in questi giorni è un buon esempio in campo statistico.

Una perfetta applicazione industriale con GLM può spiegare perché il tuo amico ti ha detto che GLM era considerata una tecnica di apprendimento automatico . È possibile fare riferimento al documento di origine http://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdf a tale proposito.

Ne ho implementato uno semplificato che è stato trattato come quadro principale per il mio sistema di raccomandazioni nello scenario di produzione poche settimane fa. Molto apprezzato se mi dai qualche consiglio e puoi controllare il codice sorgente: https://github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala

Spero che questa volontà ti aiuti, buona giornata!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.