Di recente mi sono interessato al raggruppamento di modelli come forma di apprendimento dell'ensemble. In particolare, ho sperimentato un po 'con alcuni set di dati giocattolo per problemi di regressione. Ho praticamente implementato singoli regressori di "livello 0", memorizzato le previsioni di output di ciascun regressore come una nuova funzionalità che un "meta-regressore" deve prendere come input e adattando questo meta-regressore a queste nuove funzionalità (le previsioni dal livello 0 regressori). Sono stato estremamente sorpreso di vedere miglioramenti anche modesti rispetto ai singoli regressori durante il test del meta-regressore rispetto a un set di validazione.
Quindi, ecco la mia domanda: perché lo stacking dei modelli è efficace? Intuitivamente, mi aspetto che il modello che sta eseguendo lo stacking abbia prestazioni scarse poiché sembra avere una rappresentazione delle caratteristiche impoverita rispetto a ciascuno dei modelli di livello 0. Cioè, se alleno 3 regressori di livello 0 su un set di dati con 20 funzioni e utilizzo queste previsioni dei regressori di livello 0 come input per il mio meta-regressore, ciò significa che il mio meta-regressore ha solo 3 funzionalità da cui imparare. Sembra che ci siano più informazioni codificate nelle 20 funzioni originali che i regressori di livello 0 hanno per l'allenamento rispetto alle 3 funzioni di output che il meta-regressore utilizza per l'allenamento.