Quali sono le garanzie teoriche di insaccamento

Ho (approssimativamente) sentito che:

il bagging è una tecnica per ridurre la varianza di un algoritmo predittore / stimatore / apprendimento.

Tuttavia, non ho mai visto una prova matematica formale di questa affermazione. Qualcuno sa perché questo è matematicamente vero? Sembra essere un fatto così ampiamente riconosciuto / conosciuto, che mi aspetterei un riferimento diretto a questo. Sarei sorpreso se non ci fosse. Inoltre, qualcuno sa quale effetto ha questo sulla distorsione?

Esistono altre garanzie teoriche sugli approcci di insaccamento che qualcuno conosce e pensa sia importante e voglia condividerli?

machine-learning mathematical-statistics bagging

— Charlie Parker
fonte

Il principale caso d'uso per il bagging è la riduzione della varianza dei modelli a bassa polarizzazione raggruppandoli insieme. Questo è stato studiato empiricamente nel documento di riferimento " Un confronto empirico di algoritmi di classificazione delle votazioni: insaccamento, potenziamento e varianti " di Bauer e Kohavi . Di solito funziona come pubblicizzato.

Tuttavia, contrariamente alla credenza popolare, il confezionamento non è garantito per ridurre la varianza . Una spiegazione più recente e (a mio avviso) migliore è che l'insaccamento riduce l'influenza dei punti di leva. I punti di leva sono quelli che influenzano in modo sproporzionato il modello risultante, come la regressione dei valori erratici nei minimi quadrati. È raro ma è possibile che i punti di leva influenzino positivamente i modelli risultanti, nel qual caso il bagging riduce le prestazioni. Dai un'occhiata a " Insaccamento equalizza l'influenza " di Grandvalet .

Quindi, per rispondere finalmente alla tua domanda: l'effetto del bagging dipende in gran parte dai punti di leva. Esistono poche garanzie teoriche, ad eccezione del fatto che l'insacchettamento aumenta linearmente i tempi di calcolo in termini di dimensioni della borsa! Detto questo, è ancora una tecnica ampiamente utilizzata e molto potente. Quando si impara con il rumore delle etichette, ad esempio, l' insacco può produrre classificatori più robusti .

Rao e Tibshirani hanno dato un'interpretazione bayesiana in " Il metodo out-of-bootstrap per la media e la selezione dei modelli " :

In questo senso, la distribuzione bootstrap rappresenta una distribuzione posteriore (approssimativa) non parametrica, non informativa per il nostro parametro. Ma questa distribuzione bootstrap si ottiene indolore- senza dover specificare formalmente un precedente e senza dover campionare dalla distribuzione posteriore. Quindi potremmo pensare alla distribuzione bootstrap come "Bayes posteriore di un povero".

— Marc Claesen
fonte

In che modo la spiegazione dei "punti di leva" si applica agli alberi, che sono spesso consigliati per l'insaccamento? Mentre è chiaro quali sono i punti di leva elevati per la regressione lineare, quali sono questi punti per gli alberi?

— David R

trovato un altro riferimento a questa domanda: quora.com/… cosa ne pensi? questo contraddice il fatto che hai detto che non riduce teoricamente la varianza?

— Charlie Parker,

Ho visto che Wikipedia dice che il bagging (aka aggregazione bootstrap) riduce la varianza. Se non ci sono prove teoriche per questo, significa che l'articolo è sbagliato?

— Charlie Parker,

Nella maggior parte dei casi, il bagging riduce la varianza, ma non è il suo meccanismo reale. Grandvalet ha mostrato esempi in cui aumenta la varianza e ha illustrato che il meccanismo è più vicino all'equalizzazione dell'influenza dei punti dati che influenzano fortemente il modello, come i valori anomali nella regressione dei minimi quadrati, che nella maggior parte dei casi riduce la varianza.

— Marc Claesen,