È più facile iniziare con la seconda domanda e poi passare alla prima.
insacco
Random Forest è un algoritmo di insaccamento. Riduce la varianza.
Supponi di avere modelli molto inaffidabili, come gli alberi decisionali. (Perché inaffidabile? Perché se modifichi un po 'i tuoi dati, l'albero decisionale creato può essere molto diverso.) In tal caso, puoi creare un modello robusto (ridurre la varianza) attraverso il bagging - il bagging è quando crei modelli diversi ricampionando i tuoi dati per rendere più robusto il modello risultante.
La foresta casuale è ciò che chiamiamo insaccamento applicato agli alberi delle decisioni, ma non è diverso da altri algoritmi di insaccamento.
Perché vorresti farlo? Dipende dal problema. Ma di solito, è altamente desiderabile che il modello sia stabile.
Aumentare
L'aumento riduce la varianza e riduce anche la distorsione. Riduce la varianza perché si utilizzano più modelli (insaccamento). Riduce il pregiudizio addestrando il modello successivo dicendogli quali errori hanno commesso i modelli precedenti (la parte potenziante).
Esistono due algoritmi principali:
- Adaboost: questo è l'algoritmo originale; dici ai modelli successivi di punire più pesantemente le osservazioni errate dai modelli precedenti
- Aumento del gradiente: ti alleni ogni modello successivo usando i residui (la differenza tra i valori previsti e reali)
In questi gruppi, lo studente di base deve essere debole. Se si adatta ai dati, non ci saranno residui o errori su cui i modelli successivi si baseranno. Perché questi buoni modelli? Bene, la maggior parte delle competizioni su siti Web come Kaggle sono state vinte usando alberi a gradiente. La scienza dei dati è una scienza empirica, "perché funziona" è abbastanza buona. In ogni caso, nota che i modelli di potenziamento possono sovralimentare (anche se empiricamente non è molto comune).
Un altro motivo per cui l'aumento del gradiente, in particolare, è anche piuttosto interessante: perché rende molto facile usare diverse funzioni di perdita, anche quando la derivata non è convessa. Ad esempio, quando si utilizza la previsione probabilistica, è possibile utilizzare elementi come la funzione flipper come funzione di perdita; qualcosa che è molto più difficile con le reti neurali (perché la derivata è sempre costante).
[Interessante nota storica: il potenziamento era in origine un'invenzione teorica motivata dalla domanda " possiamo costruire un modello più forte usando modelli più deboli "]
Avviso: le persone a volte confondono alberi casuali con incrementi di gradiente e foresta, solo perché entrambi usano alberi decisionali, ma sono due famiglie di gruppi molto diverse.