Modelli predittivi: le statistiche non possono forse battere l'apprendimento automatico? [chiuso]


14

Attualmente sto seguendo un programma master incentrato su statistiche / econometria. Nel mio master, tutti gli studenti hanno dovuto fare 3 mesi di ricerca. La scorsa settimana, tutti i gruppi hanno dovuto presentare le loro ricerche al resto degli studenti master.

Quasi tutti i gruppi hanno fatto alcuni modelli statistici e alcuni modelli di apprendimento automatico per i loro argomenti di ricerca e ogni singola previsione fuori campione è venuta a parlare dei semplici modelli di apprendimento automatico che hanno battuto i modelli statistici molto sofisticati su cui ognuno ha lavorato molto duramente negli ultimi 3 mesi. Non importa quanto siano validi i modelli statistici di tutti, una semplice foresta casuale ha quasi sempre errori di fuori campione inferiori.

Mi chiedevo se questa è un'osservazione generalmente accettata? Che se si tratta di previsioni fuori campione non c'è semplicemente modo di battere una semplice foresta casuale o un modello di potenziamento del gradiente estremo? Questi due metodi sono semplicissimi da implementare usando i pacchetti R, mentre tutti i modelli statistici che tutti hanno escogitato richiedono parecchia abilità, conoscenza e sforzo per stimare.

Cosa ne pensi di questo? L'unico vantaggio dei modelli statistici / econometrici che si ottiene l'interpretazione? O i nostri modelli non erano abbastanza buoni da non riuscire a superare significativamente le semplici previsioni casuali sulle foreste? Ci sono documenti che affrontano questo problema?


5
Questo potrebbe essere chiuso come "troppo ampio". (Spero non sia "basato sull'opinione"!) La mia opinione: non credo che ci sia una risposta universale. La mia esperienza è che i modelli statistici sono migliori se ci sono meno osservazioni, perché l'imposizione di un qualche tipo di struttura migliora su un approccio ampiamente privo di modelli. Al contrario, le RF sono migliori se ci sono molte osservazioni. ...
Stephan Kolassa,

4
... L'altra domanda è cosa sia stato valutato esattamente e come. Se le previsioni puntuali sono state valutate in modo appropriato (le misure di accuratezza possono essere sorprendentemente fuorvianti), è una questione diversa rispetto alle previsioni sulla densità. I modelli statistici possono essere migliori nelle previsioni di densità, anche perché sono necessari molti più dati.
Stephan Kolassa,

1
@StephanKolassa: Penso che una buona risposta (o un insieme di più risposte) a questa domanda comprenda i motivi per cui non esiste una risposta universale - teoricamente e praticamente -, come viene valutata la performance predittiva, come fare una distinzione tra statistica e macchina metodi di apprendimento, quali obiettivi potrebbero esserci oltre la previsione e un paio di cose a cui non ho pensato. Quindi un ampio ambito; ma non troppo ampio secondo me, e cercare di limitarlo potrebbe impedire di formulare utili punti generali.
Scortchi - Ripristina Monica

5
Quello che non vogliamo è una raccolta di aneddoti: esorto gli utenti a segnalare risposte di cancellazione che arrivano a poco più di un esempio: "Ho sempre trovato che le foreste casuali battono la regressione logistica", per quanto prolisso. Possiamo essere un po 'più lenti sui commenti, ma i thread lunghi verranno spostati nella chat.
Scortchi - Ripristina Monica

14
Non penso che ci sia una significativa distinzione tra statistica e apprendimento automatico. Ad esempio, Leo Breiman, un importante ricercatore di foreste casuali, era professore di statistica alla UC Berkeley. Nel contesto del tuo aneddoto, la RF è risultata essere migliore degli altri modelli che la gente si adattava, ma non vedo alcun motivo per cui questo debba essere vero in generale (vedi anche il teorema No Free Lunch). Forse questo dice di più sul set di dati (o persino sugli studenti) che sui metodi.
Sycorax dice di ripristinare Monica

Risposte:


20

La modellistica statistica è diversa dall'apprendimento automatico. Ad esempio, una regressione lineare è sia un modello statistico che un modello di apprendimento automatico. Quindi, se si confronta una regressione lineare con una foresta casuale, si sta solo confrontando un modello di apprendimento automatico più semplice con uno più complicato. Stai Non confrontando un modello statistico per un modello di apprendimento automatico.

La modellistica statistica fornisce più dell'interpretazione; in realtà fornisce un modello di alcuni parametri di popolazione. Dipende da un ampio quadro di matematica e teoria, che consente formule per cose come la varianza dei coefficienti, la varianza delle previsioni e il test delle ipotesi. Il potenziale rendimento della modellistica statistica è molto maggiore dell'apprendimento automatico, perché è possibile fare affermazioni forti sui parametri della popolazione invece di misurare solo l'errore in caso di blocco, ma è considerevolmente più difficile affrontare un problema con un modello statistico.


1
Per quanto ho capito, dici che con le statistiche ottieni più benefici come la varianza dei coefficienti, la varianza delle previsioni e il test delle ipotesi. Ma quando si tratta puramente di modelli predittivi, ovvero fare previsioni puntuali di alcune variabili di risposta, pensi che i modelli statistici possano battere i modelli di apprendimento automatico?
dubvice,

5
Questa è la risposta (+1!). Dal mio punto di vista (e forse anche di altri) ci sono diversi tipi di analisi statistiche: descrittive, inferenziali, predittive, esplorative, ecc. L'apprendimento automatico rientra principalmente nell'analisi predittiva e la maggior parte di essa non consente di fare inferenze affermazioni sulle cose, quindi tutto si riduce a "utilizzare lo strumento giusto per il lavoro da svolgere" (dato l'esempio di regressione lineare, può essere utilizzato in tutti i campi, ad esempio stimare le aspettative condizionali, che è un compito descrittivo).
Firebug

2
Questo suona come l'affermazione che la modellazione statistica standard può essere migliore per l'inferenza (rispetto alla previsione) rispetto all'apprendimento automatico, che può aiutare l'interpretazione del modello. Sebbene sia certamente vero se confrontiamo una normale regressione dei minimi quadrati con una rete neurale profonda, dato che la domanda originale fa riferimento in modo specifico alla foresta casuale (un buon algoritmo ML per l'inferenza), tale affermazione è un po 'confusa.
Greenstick,

2
Ecco alcune prove concrete del dominio delle serie temporali in cui i modelli statistici battono costantemente gli approcci di apprendimento automatico: Makridakis "Metodi di previsione statistica e di apprendimento automatico: preoccupazioni e prospettive" .
Richard Hardy,

1
Questa è solo la risposta perfetta. Ecco un esempio: supponiamo di avere una misura che prevede la sopravvivenza dei pazienti con una determinata malattia. Esistono standard internazionali su come definire se questa misura è clinicamente valida (sostanzialmente se il coefficiente è diverso da 0 con un valore inferiore al 5% in un modello univariato o multivariato). Anche se sono assolutamente sicuro che il 99% delle volte una foresta casuale con dati sufficienti sarebbe un modo migliore per prevedere il modello.
Rémy Nicolle,

5

È sbagliato affermare la domanda nel modo in cui è stata formulata. Ad esempio, una parte significativa dell'apprendimento automatico può essere definita apprendimento statistico . Quindi, il tuo confronto è come crostate di mele e frutta.

Tuttavia, seguirò il modo in cui l'hai inquadrata, e rivendicherò quanto segue: quando si tratta di previsione, nulla può essere fatto senza una qualche forma di statistica perché la previsione ha intrinsecamente casualità (incertezza). Considera questo: nonostante l'enorme successo dell'apprendimento automatico in alcune applicazioni che ha assolutamente nulla da mostrare nella previsione dei prezzi degli asset. Niente di niente. Perché? Perché nella maggior parte dei mercati liquidi sviluppati i prezzi delle attività sono intrinsecamente stocastici.

Puoi eseguire l'apprendimento automatico tutto il giorno per osservare e conoscere il decadimento radioattivo degli atomi e non sarà mai in grado di prevedere il tempo di decadimento dell'atomo successivo, semplicemente perché è casuale.

Come aspirante statistico sarebbe sciocco da parte tua non padroneggiare l'apprendimento automatico, perché è una delle applicazioni più calde della statistica, a meno che, ovviamente, non si sappia per certo che si andrà al mondo accademico. Chiunque probabilmente lavorerà nel settore deve padroneggiare ML. Non c'è affatto animosità o competizione tra statistiche e folle di ML. In effetti, se ti piace la programmazione ti sentirai a casa nel campo ML


2

Generalmente no, ma potenzialmente sì, se non specificato correttamente. Il problema che stai cercando si chiama ricevibilità. Una decisione è ammissibile se non esiste un modo meno rischioso per calcolarla.

Tutte le soluzioni bayesiane sono ammissibili e le soluzioni non bayesiane sono ammissibili nella misura in cui corrispondono a una soluzione bayesiana in ogni campione o al limite. Una soluzione Frequentista o Bayesiana ammissibile batterà sempre una soluzione ML a meno che non sia anche ammissibile. Detto questo, ci sono alcune osservazioni pratiche che rendono questa affermazione vera ma vacua.

Innanzitutto, il precedente per l'opzione bayesiana deve essere il tuo vero precedente e non una qualche distribuzione precedente utilizzata per rendere felice un editore di un diario. In secondo luogo, molte soluzioni di Frequentist sono inammissibili e al posto della soluzione standard avrebbe dovuto essere utilizzato uno stimatore di contrazione. Molte persone non sono consapevoli del lemma di Stein e delle sue implicazioni per un errore fuori campione. Infine, ML può essere un po 'più robusto, in molti casi, per errori di specificazione errata.

Quando ti sposti negli alberi delle decisioni e nei loro cugini nelle foreste, non stai usando una metodologia simile a meno che tu non stia usando anche qualcosa di simile a una rete di Bayes. Una soluzione grafica contiene al suo interno una notevole quantità di informazioni implicite, in particolare un grafico diretto. Ogni volta che aggiungi informazioni a un processo probabilistico o statistico riduci la variabilità del risultato e cambi ciò che sarebbe considerato ammissibile.

Se guardi l'apprendimento automatico dal punto di vista della composizione delle funzioni, diventa solo una soluzione statistica ma utilizza approssimazioni per rendere trattabile la soluzione. Per le soluzioni bayesiane, MCMC risparmia quantità incredibili di tempo, così come la discesa del gradiente per molti problemi di ML. Se o dovessi costruire un esatto posteriore per integrare o usare la forza bruta su molti problemi di ML, il sistema solare sarebbe morto la sua morte termica prima di ottenere una risposta.

La mia ipotesi è che tu abbia un modello errato per coloro che usano statistiche o statistiche inadeguate. Ho insegnato una lezione in cui ho dimostrato che i neonati galleggiano fuori dalle finestre se non opportunamente fasciati e in cui un metodo bayesiano ha surclassato così radicalmente un metodo frequentista su una scelta multinomiale che il metodo frequentista ha rotto anche, in attesa, mentre il metodo bayesiano ha raddoppiato il denaro dei partecipanti . Ora ho abusato delle statistiche nella prima e ho approfittato dell'inammissibilità dello stimatore frequentista nella seconda, ma un ingenuo utente di statistiche poteva facilmente fare quello che ho fatto. Li ho resi estremi per rendere ovvi gli esempi, ma ho usato dati assolutamente reali.

Le foreste casuali sono stimatori coerenti e sembrano assomigliare a determinati processi bayesiani. A causa del collegamento con gli stimatori del kernel, potrebbero essere abbastanza vicini. Se vedi una differenza sostanziale nelle prestazioni tra i tipi di soluzione, allora c'è qualcosa nel problema sottostante che stai fraintendendo e se il problema ha qualche importanza, allora devi davvero cercare l'origine della differenza poiché potrebbe anche essere il caso in cui tutti i modelli sono errati.


1

Un sacco di apprendimento automatico potrebbe non essere così diverso dal p-hacking, almeno per alcuni scopi.

Se testate ogni possibile modello per trovare quello che ha la massima precisione di previsione (previsione storica o previsione fuori dal gruppo) sulla base di dati storici, ciò non significa necessariamente che i risultati aiuteranno a capire cosa sta succedendo. Tuttavia, probabilmente troverà possibili relazioni che potrebbero informare un'ipotesi.

Motivare ipotesi specifiche e poi testarle usando metodi statistici può certamente essere similmente p-hacker (o simili).

Ma il punto è che se i criteri sono "massima precisione di previsione basata su dati storici", allora c'è un alto rischio di essere troppo sicuri in alcuni modelli che non si capiscono, senza avere davvero idea di cosa abbia guidato quei risultati storici e / o se possono essere informativi per il futuro.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.