Perché gli ensemble sono così irragionevolmente efficaci

14

Sembra che sia diventato assiomatico che un insieme di discenti porti ai migliori risultati di modello possibili - e sta diventando molto più raro, ad esempio, per i singoli modelli vincere competizioni come Kaggle. C'è una spiegazione teorica del perché gli ensemble siano così dannatamente efficaci?

machine-learning data-mining predictive-modeling

— Robert de Graaf
fonte

1

La mia ipotesi sarebbe The Central Limit Theorem, ma non ho giustificazioni.

13

Per un modello specifico i dati vengono forniti, scegliere le caratteristiche, scegliere iperparametri eccetera. Rispetto alla realtà commette tre tipi di errori:

Bias (a causa della complessità del modello troppo bassa, un bias di campionamento nei dati)
Varianza (a causa del rumore nei dati, eccesso di adattamento dei dati)
Casualità della realtà che stai cercando di prevedere (o mancanza di funzionalità predittive nel tuo set di dati)

Gli ensemble fanno una media di alcuni di questi modelli. Il bias dovuto al bias di campionamento non verrà risolto per ovvi motivi, ma può correggere alcuni bias di complessità del modello, tuttavia gli errori di varianza che vengono commessi sono molto diversi rispetto ai diversi modelli. I modelli particolarmente bassi correlati commettono errori molto diversi in queste aree, alcuni modelli si comportano bene in alcune parti dello spazio delle funzionalità. Facendo una media di questi modelli si riduce abbastanza questa varianza. Ecco perché gli ensemble brillano.

— Jan van der Vegt
fonte

6

La risposta selezionata è fantastica, ma vorrei aggiungere due cose:

È stato osservato che la media delle previsioni umane fornisce previsioni migliori rispetto a qualsiasi previsione individuale. Questa è conosciuta come la saggezza della folla . Ora, potresti obiettare che è perché alcune persone hanno informazioni diverse, quindi stai effettivamente calcolando la media delle informazioni. Ma no, questo è vero anche per compiti come indovinare il numero di fagioli in un barattolo. Ipotizzo che abbia a che fare con alcune delle ragioni sopra esposte sui modelli di data mining.
Alcune tecniche come il metodo di abbandono nelle reti neurali (dove in ogni iterazione durante l'allenamento usi solo una parte della tua rete neurale) danno risultati simili a un insieme di reti neurali. La logica è che stai forzando efficacemente i nodi a fare lo stesso lavoro predittivo degli altri nodi, creando in modo efficace un meta-ensemble. Lo dico per sottolineare che potremmo essere in grado di introdurre alcuni dei vantaggi degli ensemble nei modelli tradizionali.

— Ricardo Cruz
fonte

6

Gli ensemble vincono alla previsione per ragioni teoriche e pratiche.

Esiste una teoria fondamentale di previsione ottimale, se intendiamo prevedere il prossimo evento in una sequenza basata sulla conoscenza di eventi precedenti. La previsione di Solomonoff (Solomonoff 1964) è decisamente ottimale in molti sensi, incluso che "imparerà a prevedere correttamente qualsiasi sequenza calcolabile con solo la quantità minima assoluta di dati". (Hutter, Legg & Vitanyi 2007) Un predittore Solomonoff valuta tutti i programmi compatibili con i dati esistenti, secondo la complessità del programma Kolmogorov e la probabilità che il programma assegni finora ai dati, combinando le filosofie Epicurean ("mantenere tutte le teorie") e Ockham ("preferire le teorie semplici") in un quadro bayesiano.

Le proprietà di ottimalità della previsione Solomonoff spiegano la solida scoperta a cui fai riferimento: la media su modelli, fonti o esperti migliora le previsioni e le previsioni medie superano anche il miglior singolo predittore. I vari metodi di ensemble visti nella pratica possono essere visti come approssimazioni calcolabili della previsione di Solomonoff - e alcuni come MML (Wallace 2005) esplorano esplicitamente i legami, sebbene la maggior parte non lo faccia.

Wallace (2005) nota che un predittore di Solomonoff non è parsimonioso - mantiene un pool infinito di modelli - ma la maggior parte del potere predittivo ricade inevitabilmente su un insieme relativamente piccolo di modelli. In alcuni domini il singolo miglior modello (o famiglia di modelli quasi indistinguibili) può rappresentare una grande porzione del potere predittivo e sovraperformare gli insiemi generici, ma in domini complessi con poca teoria molto probabilmente nessuna singola famiglia cattura la maggior parte della probabilità posteriore, e quindi la media dei candidati plausibili dovrebbe migliorare le previsioni. Per vincere il premio Netflix, il team Bellkor ha miscelato oltre 450 modelli (Koren 2009).

Gli umani in genere cercano una sola buona spiegazione: in domini "di alta teoria" come la fisica, questi funzionano bene. Infatti se catturano le dinamiche causali sottostanti, dovrebbero essere quasi imbattibili. Ma laddove le teorie disponibili non si adattano perfettamente ai fenomeni (per esempio, raccomandazione del film o geopolitica), i singoli modelli avranno prestazioni inferiori: tutti sono incompleti, quindi nessuno dovrebbe dominare. Pertanto, la recente enfasi sugli ensemble (per l'apprendimento automatico) e Wisdom of the Crowds (per esperti) e il successo di programmi come IARPA ACE e in particolare il Good Judgment Project (Tetlock & Gardiner 2015).

Riferimenti

M. Hutter, S. Legg e P. Vitanyi, "Probabilità algoritmica", Scholarpedia, vol. 2, 2007, pag. 2572.
Y. Koren, "La soluzione BellKor al Gran Premio Netflix", 2009.
Solomonoff, Ray (marzo 1964). "Una teoria formale dell'inferenza induttiva Parte I" (PDF). Informazioni e controllo 7 (1): 1–22. DOI: 10.1016 / S0019-9958 (64) 90.223-2.
Solomonoff, Ray (giugno 1964). "Una teoria formale dell'inferenza induttiva Parte II" (PDF). Informazioni e controllo 7 (2): 224–254. DOI: 10.1016 / S0019-9958 (64) 90.131-7.
PE Tetlock, giudizio politico esperto: quanto è buono? How Can We Know ?, Princeton University Press, 2005.
Tetlock, PE e Gardner, D. (2015). Superforecasting: l'arte e la scienza della predizione. New York: corona.
CS Wallace, inferenza statistica e induttiva per lunghezza minima del messaggio, Springer-Verlag, 2005.

— ctwardy
fonte