Apprendimento d'insieme: perché lo stacking dei modelli è efficace?


11

Di recente mi sono interessato al raggruppamento di modelli come forma di apprendimento dell'ensemble. In particolare, ho sperimentato un po 'con alcuni set di dati giocattolo per problemi di regressione. Ho praticamente implementato singoli regressori di "livello 0", memorizzato le previsioni di output di ciascun regressore come una nuova funzionalità che un "meta-regressore" deve prendere come input e adattando questo meta-regressore a queste nuove funzionalità (le previsioni dal livello 0 regressori). Sono stato estremamente sorpreso di vedere miglioramenti anche modesti rispetto ai singoli regressori durante il test del meta-regressore rispetto a un set di validazione.

Quindi, ecco la mia domanda: perché lo stacking dei modelli è efficace? Intuitivamente, mi aspetto che il modello che sta eseguendo lo stacking abbia prestazioni scarse poiché sembra avere una rappresentazione delle caratteristiche impoverita rispetto a ciascuno dei modelli di livello 0. Cioè, se alleno 3 regressori di livello 0 su un set di dati con 20 funzioni e utilizzo queste previsioni dei regressori di livello 0 come input per il mio meta-regressore, ciò significa che il mio meta-regressore ha solo 3 funzionalità da cui imparare. Sembra che ci siano più informazioni codificate nelle 20 funzioni originali che i regressori di livello 0 hanno per l'allenamento rispetto alle 3 funzioni di output che il meta-regressore utilizza per l'allenamento.

Risposte:


5

Pensa a un insieme come fondamentalmente uno sfruttamento del teorema del limite centrale.

Il teorema del limite centrale dice vagamente che, all'aumentare della dimensione del campione, la media del campione diventerà una stima sempre più accurata della posizione effettiva della media della popolazione (supponendo che sia la statistica che stai osservando) e la varianza si restringerà .

Se si dispone di un modello e produce una previsione per la variabile dipendente, tale previsione sarà probabilmente alta o bassa in una certa misura. Ma se hai 3 o 5 o 10 modelli diversi che producono previsioni diverse, per ogni data osservazione, le previsioni elevate di alcuni modelli tenderanno a compensare gli errori bassi di alcuni altri modelli e l'effetto netto sarà una convergenza della media (o altra combinazione) delle previsioni verso "la verità". Non su ogni osservazione, ma in generale questa è la tendenza. E così, generalmente, un ensemble supererà il miglior singolo modello.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.