La foresta casuale non può esagerare?


10

Ho letto della letteratura che le foreste casuali non possono esagerare. Anche se questo suona alla grande, sembra troppo bello per essere vero. È possibile che RF si adatti troppo?


5
Se può adattarsi, può adattarsi troppo. In termini di RF, pensa a cosa succede se la tua foresta non contiene abbastanza alberi (supponiamo che la tua foresta sia un singolo albero per rendere evidente l'effetto). Ci sono più problemi di questo, ma questo è il più ovvio.
Marc Claesen,

Ho appena risposto a un altro thread su RF che potrebbe facilmente adattarsi se il numero di predittori è grande.
horaceT

Risposte:


7

La foresta casuale può esagerare. Ne sono sicuro. Di solito si intende che il modello non si adatta eccessivamente se si utilizzano più alberi.

Prova ad esempio a stimare il modello con una foresta casuale. Si otterrà un errore di allenamento quasi zero ma un errore di previsione erratoy=log(x)+ϵ


La foresta casuale riduce principalmente la varianza, come può adattarsi? @Donbeo potrebbe essere forse perché, i modelli dell'albero decisionale non funzionano bene in termini di estrapolazione. Diciamo, per anomalia variabile predittore, DT potrebbe dare una cattiva previsione.
Itachi,

Una chiara indicazione di un eccesso di adattamento è che la varianza residua è ridotta troppo. Cosa stai quindi cercando di implicare con la tua prima osservazione?
whuber

Nel trade-biance variance, quando proviamo a ridurre il bias, compensiamo la varianza. Tale che, se x = 80 dà y = 100, ma x = 81 dà y = -100. Questo sarebbe troppo adatto . Non è Ovefitting simile per avere una varianza elevata. @whuber ho pensato che ovefitting fosse dovuto solo alla grande varianza. Non capisco come la riduzione della varianza residua si traduca in un eccesso di adattamento. Potete per favore condividere un po 'di carta per me da leggere.
Itachi,

2
Questo non richiede alcun documento! Puoi provarlo tu stesso. Prendi un piccolo set di dati semplice bivariato, come e qualsiasi raccolta di corrispondenti desideri produrre. Usando i minimi quadrati (perché questo mira a ridurre la varianza dei residui), adatta la serie di modelli per . Ogni passo ridurrà la varianza fino all'ultimo passo la varianza sarà zero. Ad un certo punto, quasi tutti saranno d'accordo, i modelli hanno iniziato a sovrautilizzare i dati. y i y = β 0 + β 1 x + β 2 x 2 + + β k x k k = 0 , 1 , , 9xi=1,2,,10yiy=β0+β1x+β2x2++βkxkk=0,1,,9
whuber

@whuber Penso che manchi il punto su cosa sia la "riduzione della varianza". La foresta casuale (e l'insaccamento in generale) non riducono la varianza dei residui, ma la varianza delle previsioni. Quindi, nel tuo esempio, ad ogni passaggio che parli di AUMENTA la varianza :)
Davide ND,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.