La foresta casuale ha bisogno che le variabili di input siano ridimensionate o centrate?


16

Le mie variabili di input hanno dimensioni diverse. Alcune variabili sono decimali mentre altre sono centinaia. È essenziale centrare (sottrarre media) o ridimensionare (dividere per deviazione standard) queste variabili di input al fine di rendere i dati senza dimensioni quando si utilizza la foresta casuale?

Risposte:


29

No.

Le foreste casuali si basano su algoritmi di partizionamento degli alberi.

Pertanto, non esiste un analogo a un coefficiente che si ottiene nelle strategie di regressione generale, che dipenderebbe dalle unità delle variabili indipendenti. Invece, si ottiene una raccolta di regole di partizione, fondamentalmente una decisione data una soglia, e questo non dovrebbe cambiare con il ridimensionamento. In altre parole, gli alberi vedono solo i ranghi nelle caratteristiche.

Fondamentalmente, qualsiasi trasformazione monotonica dei tuoi dati non dovrebbe cambiare affatto la foresta (nelle implementazioni più comuni).

Inoltre, gli alberi decisionali sono generalmente robusti rispetto alle instabilità numeriche che a volte compromettono la convergenza e la precisione in altri algoritmi.


0

Nel complesso, sono d'accordo con Firebug, ma potrebbe esserci un valore nella standardizzazione delle variabili se sei interessato ai punteggi di importanza dei predittori. La RF tenderà a favorire predittori continui altamente variabili perché ci sono più opportunità di partizionare i dati. Un modo migliore per affrontare questo problema, tuttavia, è utilizzare approcci particolari (vale a dire campionare senza sostituire usando foreste condizionali) che sono più robusti a questo pregiudizio. Vedi https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25


1
Benvenuti nel sito. Stiamo cercando di creare un archivio permanente di informazioni statistiche di alta qualità sotto forma di domande e risposte. Pertanto, siamo diffidenti nei confronti delle risposte solo link, a causa di linkrot. Puoi pubblicare una citazione completa e un riepilogo delle informazioni al link, nel caso in cui vada a mancare?
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.