Perché non usare sempre l'apprendimento d'insieme?


13

Mi sembra che l'apprendimento d'insieme fornirà sempre migliori prestazioni predittive rispetto a una singola ipotesi di apprendimento.

Quindi, perché non li usiamo sempre?

La mia ipotesi è forse a causa di limitazioni computazionali? (anche allora, usiamo predittori deboli, quindi non lo so).


2
Perché l'apprendimento d'insieme non sempre offre prestazioni migliori. Sia il bagging che il potenziamento funzionano in alcuni casi, ma possono compromettere gravemente le prestazioni in altri.
Marc Claesen,

Risposte:


12

In generale, non è vero che funzionerà sempre meglio. Esistono diversi metodi di ensemble, ognuno con i propri vantaggi / punti deboli. Quale utilizzare e quindi dipende dal problema in questione.

Ad esempio, se si dispone di modelli con varianza elevata (si adattano in modo eccessivo ai dati), è probabile che si tragga vantaggio dall'utilizzo del bagging. Se hai modelli distorti, è meglio combinarli con Boosting. Esistono anche diverse strategie per formare gruppi. L'argomento è troppo ampio per essere trattato in una risposta.

Ma il mio punto è: se usi il metodo dell'ensemble sbagliato per la tua impostazione, non farai meglio. Ad esempio, l'utilizzo del bagging con un modello distorto non è di aiuto.

Inoltre, se è necessario lavorare in un ambiente probabilistico, i metodi dell'ensemble potrebbero non funzionare neanche. È noto che Boosting (nelle sue forme più popolari come AdaBoost) fornisce stime di probabilità scarse. Cioè, se desideri avere un modello che ti permetta di ragionare sui tuoi dati, non solo sulla classificazione, potresti stare meglio con un modello grafico.


Un moncone decisionale è distorto, ma sono stati usati con successo con l'insacco.

sì, ma l'ensemble è ancora parziale. E se il pregiudizio è davvero un problema? Il bagging non aiuta a risolverlo. Potresti aggiungere un riferimento a quel caso che menzioni?
jpmuc,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.