Quali sono le garanzie teoriche di insaccamento


17

Ho (approssimativamente) sentito che:

il bagging è una tecnica per ridurre la varianza di un algoritmo predittore / stimatore / apprendimento.

Tuttavia, non ho mai visto una prova matematica formale di questa affermazione. Qualcuno sa perché questo è matematicamente vero? Sembra essere un fatto così ampiamente riconosciuto / conosciuto, che mi aspetterei un riferimento diretto a questo. Sarei sorpreso se non ci fosse. Inoltre, qualcuno sa quale effetto ha questo sulla distorsione?

Esistono altre garanzie teoriche sugli approcci di insaccamento che qualcuno conosce e pensa sia importante e voglia condividerli?

Risposte:


21

Il principale caso d'uso per il bagging è la riduzione della varianza dei modelli a bassa polarizzazione raggruppandoli insieme. Questo è stato studiato empiricamente nel documento di riferimento " Un confronto empirico di algoritmi di classificazione delle votazioni: insaccamento, potenziamento e varianti " di Bauer e Kohavi . Di solito funziona come pubblicizzato.

Tuttavia, contrariamente alla credenza popolare, il confezionamento non è garantito per ridurre la varianza . Una spiegazione più recente e (a mio avviso) migliore è che l'insaccamento riduce l'influenza dei punti di leva. I punti di leva sono quelli che influenzano in modo sproporzionato il modello risultante, come la regressione dei valori erratici nei minimi quadrati. È raro ma è possibile che i punti di leva influenzino positivamente i modelli risultanti, nel qual caso il bagging riduce le prestazioni. Dai un'occhiata a " Insaccamento equalizza l'influenza " di Grandvalet .

Quindi, per rispondere finalmente alla tua domanda: l'effetto del bagging dipende in gran parte dai punti di leva. Esistono poche garanzie teoriche, ad eccezione del fatto che l'insacchettamento aumenta linearmente i tempi di calcolo in termini di dimensioni della borsa! Detto questo, è ancora una tecnica ampiamente utilizzata e molto potente. Quando si impara con il rumore delle etichette, ad esempio, l' insacco può produrre classificatori più robusti .

Rao e Tibshirani hanno dato un'interpretazione bayesiana in " Il metodo out-of-bootstrap per la media e la selezione dei modelli " :

In questo senso, la distribuzione bootstrap rappresenta una distribuzione posteriore (approssimativa) non parametrica, non informativa per il nostro parametro. Ma questa distribuzione bootstrap si ottiene indolore- senza dover specificare formalmente un precedente e senza dover campionare dalla distribuzione posteriore. Quindi potremmo pensare alla distribuzione bootstrap come "Bayes posteriore di un povero".


1
In che modo la spiegazione dei "punti di leva" si applica agli alberi, che sono spesso consigliati per l'insaccamento? Mentre è chiaro quali sono i punti di leva elevati per la regressione lineare, quali sono questi punti per gli alberi?
David R

trovato un altro riferimento a questa domanda: quora.com/… cosa ne pensi? questo contraddice il fatto che hai detto che non riduce teoricamente la varianza?
Charlie Parker,

Ho visto che Wikipedia dice che il bagging (aka aggregazione bootstrap) riduce la varianza. Se non ci sono prove teoriche per questo, significa che l'articolo è sbagliato?
Charlie Parker,

Nella maggior parte dei casi, il bagging riduce la varianza, ma non è il suo meccanismo reale. Grandvalet ha mostrato esempi in cui aumenta la varianza e ha illustrato che il meccanismo è più vicino all'equalizzazione dell'influenza dei punti dati che influenzano fortemente il modello, come i valori anomali nella regressione dei minimi quadrati, che nella maggior parte dei casi riduce la varianza.
Marc Claesen,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.