Vedi anche una domanda simile su stats.SE .
Nel potenziare gli algoritmi come AdaBoost e LPBoost , è noto che gli studenti "deboli" da combinare devono solo esibirsi meglio del caso per essere utili, da Wikipedia:
I classificatori che utilizza possono essere deboli (ad esempio, visualizzare un tasso di errore sostanziale), ma fintanto che le loro prestazioni non sono casuali (con conseguente tasso di errore di 0,5 per la classificazione binaria), miglioreranno il modello finale. Anche i classificatori con un tasso di errore superiore a quello che ci si aspetterebbe da un classificatore casuale saranno utili, poiché avranno coefficienti negativi nella combinazione lineare finale dei classificatori e quindi si comporteranno come i loro inversi.
Quali sono i vantaggi dell'utilizzo di discenti deboli anziché forti? (ad esempio, perché non potenziare con metodi di apprendimento "forti" - siamo più inclini al sovradimensionamento?)
Esiste una sorta di forza "ottimale" per gli studenti deboli? E questo è legato al numero di studenti dell'ensemble?
C'è qualche teoria per sostenere le risposte a queste domande?