Non so esattamente cosa hai fatto, quindi il tuo codice sorgente mi aiuterebbe a indovinare di meno.
Molte foreste casuali sono essenzialmente finestre all'interno delle quali si presume che la media rappresenti il sistema. È un albero CAR troppo glorificato.
Diciamo che hai un albero CAR a due foglie. I tuoi dati saranno divisi in due pile. L'output (costante) di ogni pila sarà la sua media.
Ora consente di farlo 1000 volte con sottoinsiemi casuali di dati. Avrai comunque regioni discontinue con output che sono medie. Il vincitore in una RF è il risultato più frequente. Che solo "Fuzzies" il confine tra le categorie.
Esempio di output lineare a tratti dell'albero CART:
Diciamo, ad esempio, che la nostra funzione è y = 0,5 * x + 2. Una trama simile al seguente:

Se dovessimo modellarlo usando un singolo albero di classificazione con solo due foglie, troveremmo prima il punto di migliore divisione, divisione in quel punto, quindi approssimiamo l'output della funzione su ciascuna foglia come output medio sulla foglia.

Se dovessimo farlo di nuovo con più foglie sull'albero CART, potremmo ottenere quanto segue:

Perché le foreste CAR?
Puoi vedere che, nel limite delle foglie infinite, l'albero CART sarebbe un approssimatore accettabile.
Il problema è che il mondo reale è rumoroso. Ci piace pensare nei mezzi, ma al mondo piacciono sia la tendenza centrale (media) che la tendenza alla variazione (dev dev). C'è rumore
La stessa cosa che conferisce a un albero CAR la sua grande forza, la sua capacità di gestire la discontinuità, lo rende vulnerabile alla modellazione del rumore come se fosse un segnale.
Quindi Leo Breimann fece una proposta semplice ma potente: usare i metodi Ensemble per rendere robusti gli alberi di classificazione e regressione. Prende sottoinsiemi casuali (un cugino di ricampionamento bootstrap) e li usa per addestrare una foresta di alberi CAR. Quando fai una domanda alla foresta, l'intera foresta parla e la risposta più comune viene presa come risultato. Se hai a che fare con dati numerici, può essere utile considerare l'aspettativa come output.
Quindi, per la seconda trama, pensa alla modellazione usando una foresta casuale. Ogni albero avrà un sottoinsieme casuale di dati. Ciò significa che la posizione del punto di divisione "migliore" varierà da un albero all'altro. Se dovessi creare un diagramma dell'output della foresta casuale, mentre ti avvicini alla discontinuità, i primi rami indicano un salto, poi molti. Il valore medio in quella regione attraverserà un percorso sigmoideo uniforme. Il bootstrap è contorto con un gaussiano e la sfocatura gaussiana su quella funzione di passaggio diventa un sigmoide.
Linee di fondo:
Per ottenere una buona approssimazione a una funzione molto lineare sono necessari molti rami per albero.
Esistono molti "quadranti" che è possibile modificare per influire sulla risposta ed è improbabile che siano stati impostati tutti sui valori corretti.
Riferimenti: