Foresta casuale su dati raggruppati


11

Sto usando una foresta casuale su dati raggruppati ad alta dimensione (50 variabili di input numeriche) che hanno una struttura gerarchica. I dati sono stati raccolti con 6 repliche in 30 posizioni di 70 oggetti diversi, ottenendo 12600 punti dati, che non sono indipendenti.

Sembra che la foresta casuale stia adattando troppo i dati, poiché l'errore di oob è molto più piccolo dell'errore che si ottiene quando si lasciano i dati da un oggetto fuori durante l'allenamento e quindi si prevede il risultato dell'oggetto lasciato fuori con la foresta casuale addestrata. Inoltre ho residui correlati.

Penso che il sovradimensionamento sia causato dal fatto che la foresta casuale si aspetta dati indipendenti. È possibile dire alla foresta casuale della struttura gerarchica dei dati? Oppure esiste un altro potente insieme o metodo di contrazione in grado di gestire dati raggruppati ad alta dimensione con una forte struttura di interazione?

Qualche suggerimento su come posso fare di meglio?


Qual è la natura dei dati gerarchici? Ti consente di utilizzare le foglie dei dati come punti dati?
casperOne

1
Hai considerato il bootstrap al livello più alto della gerarchia, piuttosto che all'individuo?
generic_user

Risposte:


1

Molto tardi anche alla festa, ma penso che potrebbe essere correlato a qualcosa che ho fatto qualche anno fa. Quell'opera è stata pubblicata qui:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

e riguarda la correlazione variabile nell'insieme di alberi decisionali. Dovresti dare un'occhiata alla bibliografia che indica molte proposte per affrontare questo tipo di problemi (che è comune nell'area "genetica").

Il codice sorgente è disponibile qui (ma in realtà non è più gestito).


-1

Il montaggio eccessivo della foresta casuale può essere causato da diversi motivi e dipende fortemente dai parametri RF. Dal tuo post non è chiaro come hai regolato la tua RF.

Ecco alcuni suggerimenti che potrebbero essere d'aiuto:

  1. Aumenta il numero di alberi

  2. Ottimizza la profondità massima degli alberi. Questo parametro dipende fortemente dal problema attuale. L'uso di alberi più piccoli può aiutare a risolvere problemi di adattamento.


2
Molto tardi alla festa, ma questa risposta non risolverà alcun problema a causa della natura gerarchica del set di dati.
cbeleites insoddisfatto di SX
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.