In che modo i metodi di ensemble superano tutti i loro componenti?


16

Sono un po 'confuso riguardo all'apprendimento dell'ensemble. In poche parole, gestisce k modelli e ottiene la media di questi k modelli. Come si può garantire che la media dei modelli k sarebbe migliore di qualsiasi modello da solo? Capisco che la distorsione è "diffusa" o "mediata". Tuttavia, cosa succede se ci sono due modelli nell'ensemble (cioè k = 2) e uno dei due è peggio dell'altro - l'ensemble non sarebbe peggiore del modello migliore?



questa discussione mi interessa, ma ha sollevato più domande di quelle a cui ha risposto. Potremmo usare tutti un po 'di più per definire più rigorosamente tutte queste parole che stiamo usando? LATEX
Taylor,

Risposte:


23

Non è garantito Come dici tu, l'ensemble potrebbe essere peggio dei singoli modelli. Ad esempio, prendere la media del modello vero e di un modello cattivo darebbe un modello abbastanza cattivo.

La media di K modelli sarà un miglioramento solo se i modelli sono (in qualche modo) indipendenti l'uno dall'altro. Ad esempio, nel bagging, ogni modello viene creato da un sottoinsieme casuale di dati, quindi viene incorporata una certa indipendenza. O i modelli potrebbero essere creati utilizzando diverse combinazioni di funzionalità e quindi combinati mediante la media.

Inoltre, la media dei modelli funziona bene solo quando i singoli modelli presentano una varianza elevata. Ecco perché una foresta casuale è costruita usando alberi molto grandi. D'altra parte, la media di un gruppo di modelli di regressione lineare ti dà ancora un modello lineare, che probabilmente non sarà migliore dei modelli con cui hai iniziato (provalo!)

Altri metodi di ensemble, come il potenziamento e la fusione, funzionano prendendo gli output dei singoli modelli, insieme ai dati di addestramento, come input per un modello più grande. In questo caso, non sorprende che spesso funzionino meglio dei singoli modelli, poiché in realtà sono più complicati e usano ancora i dati di addestramento.


Non intendi dire che RF utilizza un gran numero di alberi per ottenere una grande varianza? Mi aspetto che, man mano che gli alberi crescono, estenderanno la maggior parte delle caratteristiche e la varianza tra i modelli diminuirà.
Itamar,

No, @Flounderer è corretto. Gli alberi decisionali sono chiamati modelli instabili. Se si modificano leggermente i dati, si ottengono alberi molto diversi. Le foreste casuali sono mezzi per stabilizzarle. Se si formano due RF con campioni di dati leggermente diversi, verranno prodotti modelli simili.
Ricardo Cruz,

"la media di un gruppo di modelli di regressione lineare ti dà ancora un modello lineare" <- cosa intendi per media qui? Inoltre di quale varianza stai parlando?
Taylor,

6

Nel tuo esempio, il tuo insieme di due modelli potrebbe essere peggiore di un singolo modello stesso. Ma il tuo esempio è artificiale, generalmente ne costruiamo più di due nel nostro ensemble.

Non esiste alcuna garanzia assoluta che un modello di ensemble funzioni meglio di un singolo modello, ma se ne costruisci molti di questi e il tuo classificatore individuale è debole . Le prestazioni complessive dovrebbero essere migliori di un singolo modello.

Nell'apprendimento automatico, l'addestramento di più modelli generalmente supera quello di un singolo modello. Questo perché hai più parametri da mettere a punto.


2

Voglio solo lanciare qualcosa che è raramente discusso in questo contesto e dovrebbe darti spunti di riflessione.

Ensemble funziona anche con gli umani!

È stato osservato che la media delle previsioni umane fornisce previsioni migliori rispetto a qualsiasi previsione individuale. Questa è conosciuta come la saggezza della folla.

Ora, potresti argomentare che è perché alcune persone hanno informazioni diverse, quindi stai effettivamente calcolando la media delle informazioni. Ma no, questo è vero anche per compiti come indovinare il numero di fagioli in un barattolo.

Ci sono molti libri ed esperimenti scritti su questo, e il fenomeno confonde ancora i ricercatori.

Detto questo, come sottolineato da @Flounderer, i vantaggi reali derivano dai cosiddetti modelli instabili come gli alberi delle decisioni, in cui ogni osservazione di solito ha un impatto sul confine delle decisioni. Quelli più stabili come gli SVM non guadagnano molto perché il ricampionamento di solito non influenza molto i vettori di supporto.


1
Questo è il motivo per cui ho sempre cercato di assumere persone che non erano proprio come me. Un buon consiglio per la creazione di team flessibili ed efficaci.
Matthew Drury,

0

In realtà è abbastanza possibile che i singoli modelli siano migliori degli ensemble.

Anche se non ci sono punti nei tuoi dati in cui alcuni dei tuoi modelli sono sopravvalutati e alcuni sono sottovalutati (in tal caso potresti sperare che l'errore medio venga annullato), alcune delle funzioni di perdita più popolari (come la perdita quadrata media) sono penalizzanti singole grandi deviazioni più di un certo numero di deviazioni moderate. Se i modelli che stai mediando sono in qualche modo diversi, potresti sperare che la varianza diventi "minore" poiché la media uccide le deviazioni in sospeso. Probabilmente è spiegabile con quello .


0

Sì, potrebbe essere il caso, ma l'idea per il montaggio è quella di formare modelli più semplici per evitare un adattamento eccessivo mentre si acquisiscono caratteristiche diverse dei dati da diversi gruppi. Ovviamente non esiste alcuna garanzia di un modello di ensemble per sovraperformare un singolo modello mentre viene addestrato con gli stessi dati di allenamento. La sovraperformance può essere ottenuta combinando modelli di ensemble e boosting (ad es. AdaBoost). Aumentando il tuo allenamento, esegui ogni modello di ensemble successivo assegnando pesi su ciascun punto dati e aggiornandoli in base all'errore. Quindi pensalo come un algoritmo di discesa coordinata, che consente all'errore di addestramento di diminuire con ogni iterazione mantenendo una complessità del modello media costante. Nel complesso, ciò ha un impatto sulle prestazioni. Ci sono molti

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.