Quante funzioni da campionare usando le foreste casuali

La pagina di Wikipedia che cita "Gli elementi dell'apprendimento statistico" dice:

In genere, per un problema di classificazione con funzionalità $p$ , le funzioni vengono utilizzate in ogni divisione. $\lfloor \sqrt{p}\rfloor$

Capisco che si tratta di una supposizione abbastanza istruita e probabilmente è stata confermata da prove empiriche, ma ci sono altri motivi per cui si dovrebbe scegliere la radice quadrata? C'è un fenomeno statistico che sta accadendo lì?

Questo in qualche modo aiuta a ridurre la varianza degli errori?

È lo stesso per la regressione e la classificazione?

— Valentin Calomme
fonte

Penso che nel documento originale suggeriscano di usare il ), ma in entrambi i casi l'idea è la seguente: $\log_2(N +1$

Il numero di caratteristiche selezionate casualmente può influenzare l'errore di generalizzazione in due modi: la selezione di molte caratteristiche aumenta la resistenza dei singoli alberi mentre la riduzione del numero di caratteristiche porta a una minore correlazione tra gli alberi aumentando la forza della foresta nel suo insieme.

La cosa interessante è che gli autori di Random Forests (pdf) trovano una differenza empirica tra classificazione e regressione:

Una differenza interessante tra regressione e classificazione è che la correlazione aumenta abbastanza lentamente all'aumentare del numero di funzioni utilizzate.

$N/3$ $\sqrt N$

$\sqrt N$ $\log N$

L'intervallo intermedio è generalmente ampio. In questo intervallo, con l'aumentare del numero di funzioni, la correlazione aumenta, ma PE * (albero) compensa diminuendo.

(PE * è l'errore di generalizzazione)

Come si dice in Elementi di apprendimento statistico:

In pratica, i valori migliori per questi parametri dipenderanno dal problema e dovrebbero essere trattati come parametri di ottimizzazione.

Una cosa su cui il tuo problema può dipendere è il numero di variabili categoriali. Se hai molte variabili categoriali codificate come variabili fittizie, di solito ha senso aumentare il parametro. Ancora una volta, dal documento Random Forests:

$int(log_2M+1)$

— oW_
fonte

Grazie, questa è una risposta molto utile. In effetti, stavo pensando che ci fosse qualcosa a che fare con la forza di ogni albero contro la forza della foresta nel suo insieme. E davvero, molto interessante che ci sia una tale differenza tra regressione e classificazione. Grazie mille per aver collegato il documento originale. Ho cercato di raccogliere tali documenti per molte tecniche.

— Valentin Calomme,