Non ho una risposta da manuale. Comunque ecco alcuni pensieri.
L'aumento può essere visto nel confronto diretto con l'insacco. Questi sono due diversi approcci del dilemma del compromesso della varianza di pregiudizio. Mentre l'insacchettamento ha come discenti deboli, alcuni studenti con distorsioni basse e varianza elevata, facendo la media dell'ensemble di insaccamento diminuiscono la varianza per un piccolo pregiudizio. Il potenziamento d'altra parte funziona bene con diversi studenti deboli. Gli studenti deboli che aumentano hanno un'alta propensione e una bassa varianza. Costruendo uno studente sulla cima di un altro, l'ensemble di potenziamento cerca di ridurre la distorsione, per una piccola variazione.
Di conseguenza, se si considera, ad esempio, di usare il bagging e il boosting con gli alberi come discenti deboli, il modo migliore di usare è alberi piccoli / corti con boosting e alberi molto dettagliati con bagging. Questo è il motivo per cui molto spesso una procedura di potenziamento utilizza un moncone decisionale come discente debole, che è l'albero più corto possibile (una singola condizione if su una singola dimensione). Questo moncone decisionale è molto stabile, quindi ha una varianza molto bassa.
Non vedo alcun motivo per usare gli alberi con procedure di potenziamento. Tuttavia, gli alberi corti sono semplici, facili da implementare e facili da capire. Tuttavia, penso che per avere successo con una procedura di potenziamento, il tuo discente debole deve avere una bassa varianza, deve essere rigido, con pochissimi gradi di libertà. Ad esempio, non vedo il punto di avere una rete neurale come discente debole.
Inoltre, è necessario notare che per alcuni tipi di procedure di potenziamento, ad esempio il potenziamento del gradiente, Breiman ha scoperto che se lo studente debole è un albero, una certa ottimizzazione nel modo in cui può essere fatto il potenziamento. Quindi abbiamo alberi che aumentano il gradiente. C'è una bella esposizione di potenziamento nel libro ESTL.