Grazie per un'ottima domanda! Proverò a dare il mio intuito dietro di esso.
Per capirlo, ricorda gli "ingredienti" del classificatore di foresta casuale (ci sono alcune modifiche, ma questa è la pipeline generale):
- Ad ogni passo della costruzione di singoli alberi troviamo la migliore suddivisione dei dati
- Durante la costruzione di un albero non utilizziamo l'intero set di dati, ma un esempio di bootstrap
- Aggreghiamo gli output dei singoli alberi facendo la media (in realtà 2 e 3 significano insieme una procedura di insaccamento più generale ).
Assumi il primo punto. Non è sempre possibile trovare la migliore divisione. Ad esempio, nel seguente set di dati ogni divisione fornirà esattamente un oggetto classificato erroneamente.
E penso che esattamente questo punto possa essere fonte di confusione: in effetti, il comportamento della singola suddivisione è in qualche modo simile al comportamento del classificatore Naive Bayes: se le variabili sono dipendenti - non esiste una suddivisione migliore per Decision Trees e anche il classificatore Naive Bayes fallisce (solo per ricordare: variabili indipendenti è il presupposto principale che facciamo nel classificatore Naive Bayes; tutte le altre ipotesi provengono dal modello probabilistico che scegliamo).
Ma ecco che arriva il grande vantaggio degli alberi delle decisioni: prendiamo qualsiasi divisione e continuiamo a dividere ulteriormente. E per le seguenti divisioni troveremo una separazione perfetta (in rosso).
E poiché non abbiamo un modello probabilistico, ma solo una divisione binaria, non dobbiamo assolutamente fare alcuna ipotesi.
Riguardava l'albero decisionale, ma vale anche per la foresta casuale. La differenza è che per Random Forest usiamo Bootstrap Aggregation. Non ha alcun modello al di sotto e l'unico presupposto che si basi è che il campionamento è rappresentativo . Ma questo è di solito un presupposto comune. Ad esempio, se una classe è composta da due componenti e nel nostro set di dati un componente è rappresentato da 100 campioni e un altro componente è rappresentato da 1 campione - probabilmente la maggior parte dei singoli alberi decisionali vedrà solo il primo componente e Foresta casuale classificherà erroneamente il secondo .
Spero che possa dare ulteriore comprensione.