La mia domanda: Perché la foresta casuale considera sottoinsiemi casuali di funzioni da suddividere a livello di nodo all'interno di ciascun albero anziché a livello di albero ?
Sfondo: questa è una questione di storia. Tin Kam Ho pubblicato questo articolo sulla costruzione di "foreste" decision selezionando in modo casuale un sottoinsieme di funzionalità per l'uso per la coltivazione di ciascun albero nel 1998. Diversi anni dopo, nel 2001, Leo Breiman ha pubblicato il suo seminale Foresta a caso la carta , in cui la funzione di sottoinsieme è a caso selezionato in ciascun nodo all'interno di ciascun albero, non in ciascun albero. Mentre Breiman ha citato Ho, non ha spiegato in modo specifico il passaggio dalla selezione casuale delle funzioni a livello di albero a livello di nodo.
Mi chiedo cosa abbia motivato in modo specifico questo sviluppo. Sembra che la selezione del sottoinsieme di funzioni a livello di albero comporterebbe comunque la decorrelazione desiderata degli alberi.
La mia teoria: non ho visto questo articolato altrove, ma sembra che il metodo del sottospazio casuale sarebbe meno efficiente in termini di ottenere stime dell'importanza delle caratteristiche. Per ottenere stime di importanza variabile, per ogni albero, le caratteristiche sono casualmente permutate una per una e viene registrato l'aumento dell'errata classificazione o l'aumento dell'errore per le osservazioni out-of-bag. Le variabili per le quali la classificazione errata o l'errore aumentano risultanti da questa permutazione casuale sono elevate sono quelle di maggiore importanza.
Se usiamo il metodo del sottospazio casuale, per ogni albero, stiamo solo prendendo in considerazione delle caratteristiche . Potrebbero essere necessari diversi alberi per considerare tutti i predittori anche una volta. D'altra parte, se consideriamo un sottoinsieme diverso delle funzioni in ciascun nodo , considereremo ogni caratteristica più volte dopo un numero minore di alberi, dandoci una stima più solida dell'importanza della caratteristica.p p m i p
Quello che ho guardato finora: finora, ho letto il documento di Breiman e quello di Ho, e ho fatto un'ampia ricerca online per confronti dei metodi senza trovare una risposta definitiva. Si noti che una domanda simile è stata posta prima. Questa domanda va un po 'oltre includendo la mia speculazione / lavoro verso una possibile soluzione. Sarei interessato a qualsiasi risposta, citazioni pertinenti o studi di simulazione che confrontino i due approcci. Se nessuno è imminente, ho intenzione di eseguire la mia simulazione confrontando i due metodi.