È questa la metodologia di regressione allo stato dell'arte?


33

Seguo le competizioni di Kaggle da molto tempo e mi rendo conto che molte strategie vincenti prevedono l'utilizzo di almeno uno dei "tre grandi": insaccamento, potenziamento e accatastamento.

Per le regressioni, piuttosto che concentrarsi sulla costruzione di un modello di regressione migliore possibile, la costruzione di più modelli di regressione come regressione lineare (generalizzata), modelli casuali di foreste, KNN, NN e SVM e la fusione dei risultati in uno in un modo ragionevole sembra fuori -performare ogni singolo metodo molte volte.

Ovviamente, una solida comprensione di ciascun metodo è la chiave e una storia intuitiva può essere raccontata sulla base di un modello di regressione lineare, ma mi chiedo se questo sia diventato la metodologia all'avanguardia al fine di ottenere i migliori risultati possibili.


In alcuni casi, la rete neurale definisce chiaramente il modo "classico" di fare regressione. Ad esempio, in Quanto ha piovuto II . Ma è sicuramente una scatola nera.
YCR

@YCR Sono d'accordo che è una blackbox. Mentre ero al lavoro, ho creato un fantastico modello di machine learning e ho cercato di spiegare agli uomini d'affari o a qualcuno che non ha familiarità con il modello, la conversazione di solito finisce così: ho costruito un fantastico modello di Machine Learning, funziona come per magia, ma Non posso raccontarti una storia interessante.
Maxareo,

Risposte:


41

È risaputo, almeno dalla fine degli anni '60, che se si prendono diverse previsioni e si calcolano in media , la previsione aggregata risultante in molti casi supererà le singole previsioni. Insaccamento, potenziamento e accatastamento sono tutti basati esattamente su questa idea. Quindi sì, se il tuo obiettivo è puramente una previsione, nella maggior parte dei casi questo è il meglio che puoi fare. La cosa problematica di questo metodo è che si tratta di un approccio a scatola nera che restituisce il risultato ma non aiuta a comprenderlo e interpretarlo. Ovviamente, è anche più intensivo dal punto di vista computazionale rispetto a qualsiasi altro metodo poiché è necessario calcolare poche previsioni anziché una singola.

† Ciò riguarda qualsiasi previsione in generale, ma è spesso descritta nella letteratura di previsione.


Winkler, RL. e Makridakis, S. (1983). La combinazione di previsioni. JR Statis. Soc. A. 146 (2), 150-157.

Makridakis, S. e Winkler, RL (1983). Medie delle previsioni: alcuni risultati empirici. Management Science, 29 (9) 987-996.

Clemen, RT (1989). Previsioni combinate: una recensione e una bibliografia annotata. International Journal of Forecasting, 5, 559-583.

Bates, JM e Granger, CW (1969). La combinazione di previsioni. Oppure, 451-468.

Makridakis, S. e Hibon, M. (2000). Il concorso M3: risultati, conclusioni e implicazioni. Rivista internazionale di previsioni, 16 (4), 451-476.

Reid, DJ (1968). Combinazione di tre stime del prodotto interno lordo. Economica, 431-444.

Makridakis, S., Spiliotis, E. e Assimakopoulos, V. (2018). Il concorso M4: risultati, conclusioni, conclusioni e prospettive. Giornale internazionale delle previsioni.


1
Il link nella nota a pugnale non sembra funzionare per me?
Silverfish

@Silverfish grazie, risolto. Il collegamento era di importanza minore, ma comunque, se non funziona è inutile.
Tim

0

Arthur (1994) ha un breve esperimento scritto / di pensiero ben noto nella letteratura sulla complessità.

Una delle conclusioni è che gli agenti non possono selezionare modelli predittivi migliori (anche se ne hanno una "foresta") in condizioni di non equilibrio. Ad esempio, se la domanda viene applicata alla performance del mercato azionario, l'impostazione di Arthur (1994) potrebbe essere applicabile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.