Quando registrare / espandere le variabili quando si utilizzano modelli a foresta casuale?


13

Sto facendo regressione utilizzando le foreste casuali per prevedere i prezzi in base a diversi attributi. Il codice è scritto in Python usando Scikit-learn.

Come decidete se trasformare le variabili usando exp/ logprima di usarle per adattarsi al modello di regressione? È necessario quando si utilizza un approccio Ensemble come Random Forest?



3
Penso che questo sia un po 'diverso da quella domanda, a causa dell'aspetto casuale foresta / ensemble, ma la domanda potrebbe forse essere riformulata dopo aver visto l'altro post.
Peter Flom - Ripristina Monica

@PeterFlom potresti aiutarmi a riformulare la domanda? Non sono abbastanza esperto in questo campo :)
Nyxynyx,

Il modo in cui la maggior parte delle persone usa il termine "ensemble" RF è solo 1 potenziale input per un ensemble.
Hack-R,

Risposte:


16

Il modo in cui sono costruite le foreste casuali è invariante alle trasformazioni monotoniche delle variabili indipendenti. Le divisioni saranno completamente analoghe. Se stai solo cercando l'accuratezza, non vedrai alcun miglioramento. Infatti, poiché le foreste casuali sono in grado di trovare al volo relazioni complesse non lineari (Perché stai chiamando questa regressione lineare?) E interazioni variabili, se trasformi le tue variabili indipendenti puoi appianare le informazioni che consentono a questo algoritmo di fare questo correttamente.

A volte le foreste casuali non sono trattate come una scatola nera e utilizzate per l'inferenza. Ad esempio, è possibile interpretare le misure di importanza della variabile fornite o calcolare una sorta di effetti marginali della variabile indipendente sulla variabile dipendente. Questo è di solito visualizzato come grafici di dipendenza parziale. Sono abbastanza sicuro che quest'ultima cosa sia fortemente influenzata dalla scala delle variabili, il che è un problema quando si cerca di ottenere informazioni di natura più descrittiva dalle foreste casuali. In questo caso potrebbe aiutarti a trasformare le tue variabili (standardizzare), il che potrebbe rendere comparabili i grafici di dipendenza parziale. Non sono completamente sicuro su questo, dovremo pensarci.

Non molto tempo fa ho provato a prevedere i dati di conteggio usando una foresta casuale, regredire sulla radice quadrata e il registro naturale della variabile dipendente mi ha aiutato un po ', non molto, e non abbastanza da farmi mantenere il modello.

Alcuni pacchetti in cui è possibile utilizzare foreste casuali per deduzione:

https://uc-r.github.io/lime

https://cran.r-project.org/web/packages/randomForestExplainer/index.html

https://pbiecek.github.io/DALEX_docs/2-2-useCaseApartmetns.html


6

Facendo eco a @JEquihua, la precisione della previsione della foresta casuale non migliorerà.

Inoltre, se si mantengono sia il predittore originale sia il predittore trasformato (come spesso accade nella regressione lineare), è possibile che si verifichino problemi. Questo perché RF sceglie casualmente un sottoinsieme delle variabili per far crescere ciascun albero e in sostanza hai inserito la variabile trasformata in due volte. Se è un forte predittore, verrà utilizzato e le tue foreste casuali non saranno non correlate come avrebbero potuto essere, portando a una varianza più elevata.


1
Inserire un predittore trasformato e non trasformato in qualsiasi modello è un'idea terribile. Sono perfettamente collineari e sicuramente guasteranno il tuo modello, che si tratti di foresta casuale o regressione lineare.
mkt - Ripristina Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.