Leggendo l'eccellente modellistica statistica: le due culture (Breiman 2001) , possiamo cogliere tutta la differenza tra modelli statistici tradizionali (ad es. Regressione lineare) e algoritmi di apprendimento automatico (ad es. Insaccamento, foresta casuale, alberi potenziati ...).
Breiman critica i modelli di dati (parametrici) perché si basano sul presupposto che le osservazioni siano generate da un modello formale noto prescritto dallo statistico, che potrebbe emulare male la natura. D'altra parte, gli algoritmi ML non assumono alcun modello formale e apprendono direttamente le associazioni tra le variabili di input e output dai dati.
Mi sono reso conto che Bagging / RF e Boosting sono anche una sorta di parametro: ad esempio, ntree , mtry in RF, frequenza di apprendimento , frazione di borsa , complessità degli alberi negli alberi potenziati con gradiente stocastico sono tutti parametri di regolazione . Stiamo anche valutando questi parametri dai dati poiché li stiamo usando per trovare valori ottimali di questi parametri.
Quindi qual è la differenza? I modelli parametrici RF e Boosted Trees?