Durante l'apprendimento del Gradient Boosting, non ho sentito parlare di vincoli riguardanti le proprietà di un "classificatore debole" che il metodo utilizza per costruire e creare un modello. Tuttavia, non potevo immaginare un'applicazione di un GB che utilizza la regressione lineare, e infatti quando ho eseguito alcuni test, non funziona. Stavo testando l'approccio più standard con un gradiente di somma di residui quadrati e sommando i modelli successivi.
Il problema evidente è che i residui del primo modello sono popolati in modo tale che non esiste più alcuna linea di regressione per adattarsi. Un'altra mia osservazione è che una somma dei successivi modelli di regressione lineare può essere rappresentata anche come un singolo modello di regressione (aggiungendo tutte le intercettazioni e i coefficienti corrispondenti), quindi non riesco a immaginare come ciò possa mai migliorare il modello. L'ultima osservazione è che una regressione lineare (l'approccio più tipico) sta usando la somma dei residui quadrati come funzione di perdita, la stessa utilizzata da GB.
Ho anche pensato di abbassare il tasso di apprendimento o di utilizzare solo un sottoinsieme di predittori per ogni iterazione, ma alla fine questo potrebbe essere comunque riassunto in una rappresentazione di un singolo modello, quindi immagino che non porterebbe alcun miglioramento.
Cosa mi sto perdendo qui? La regressione lineare è in qualche modo inappropriata da usare con Gradient Boosting? È perché la regressione lineare utilizza la somma dei residui quadrati come funzione di perdita? Ci sono particolari vincoli sui predittori deboli in modo che possano essere applicati al Gradient Boosting?