Le variabili altamente correlate nella foresta casuale distorcono la precisione e la selezione delle caratteristiche?


32

A mio avviso, le variabili altamente correlate non causeranno problemi di multi-collinearità nel modello di foresta casuale (correggimi se sbaglio). Tuttavia, in caso contrario, se ho troppe variabili contenenti informazioni simili, il modello peserà troppo su questo set piuttosto che sugli altri?

Ad esempio, ci sono due serie di informazioni (A, B) con lo stesso potere predittivo. Le variabili , X 2 , ... X 1000 contengono tutte le informazioni A e solo Y contiene le informazioni B. Quando le variabili di campionamento casuali, la maggior parte degli alberi crescerà sulle informazioni A e, di conseguenza, le informazioni B non vengono catturate completamente?X1X2X1000

Risposte:


19

Ciò è corretto, ma quindi nella maggior parte dei sottocampionamenti in cui era disponibile la variabile Y, si produrrebbe la migliore divisione possibile.

Puoi provare ad aumentare la quantità di funghi, per assicurarti che ciò accada più spesso.

Puoi provare una potatura di correlazione ricorsiva, ovvero a sua volta rimuovere una delle due variabili che insieme hanno la correlazione più alta. Una soglia ragionevole per fermare questa potatura potrebbe essere che qualsiasi coppia di correlazioni (pearson) è inferiore a R2<.7

Puoi provare la potatura ricorsiva di importanza variabile, che a sua volta viene rimossa, ad esempio il 20% con importanza variabile più bassa. Prova ad esempio rfcv dal pacchetto randomForest.

Puoi provare a decomporre / aggregare le tue variabili ridondanti.


3
In alcune fonti, non ho visto alcun multicollinearityeffetto sul modello di foresta casuale. Ad esempio, qui , la risposta più votata afferma che "nessuna parte del modello di foresta casuale è danneggiata da variabili altamente collineari". Questo ha qualche validità?
Hunle,

5
Penso che stai leggendo il NO troppo letteralmente. I modelli RF gestiscono variabili abbastanza ben correlate / ridondanti, sì. Ma ciò non significa che il tuo modello tragga necessariamente benefici da variabili non correlate o completamente ridondanti (ad es. Ricombinazioni lineari), né si arresta in modo anomalo. Sostengo solo una modesta selezione delle variabili, in attesa di un modesto miglioramento delle prestazioni del modello convalidato in modo incrociato.
Soren Havelund Welling,

24

Vecchio thread, ma non sono d'accordo con un'affermazione generale che la collinearità non è un problema con i modelli di foresta casuali. Quando il set di dati ha due (o più) funzionalità correlate, quindi dal punto di vista del modello, è possibile utilizzare come predittore una qualsiasi di queste funzionalità correlate, senza una preferenza concreta dell'una rispetto alle altre.

Tuttavia, una volta che uno di essi viene utilizzato, l'importanza di altri viene notevolmente ridotta poiché effettivamente l'impurità che possono rimuovere è già rimossa dalla prima funzione.

Di conseguenza, avranno un'importanza inferiore. Questo non è un problema quando vogliamo usare la selezione delle funzionalità per ridurre il sovra-adattamento, poiché ha senso rimuovere le funzioni che sono per lo più duplicate da altre funzioni, ma quando si interpretano i dati , può portare alla conclusione errata che una delle variabili sia un forte predittore mentre gli altri nello stesso gruppo non sono importanti, mentre in realtà sono molto vicini in termini di relazione con la variabile di risposta.

L'effetto di questo fenomeno è in qualche modo ridotto grazie alla selezione casuale di funzionalità in corrispondenza della creazione di ciascun nodo, ma in generale l'effetto non viene rimosso completamente.

Quanto sopra per lo più paralizzato da qui: Selezione di buone funzionalità


3
Questo è stato il mio articolo per la selezione di funzionalità con RF, poiché l'importanza variabile è spesso usata come metrica bmcbioinformatics.biomedcentral.com/articles/10.1186/… Da due anni sono diventata più scettica sulla selezione delle funzionalità. -validazione se non eseguita all'interno di un adeguato ciclo di convalida incrociata esterno. Se fatto correttamente, vedo spesso nessuna o solo poca ottimizzazione delle prestazioni di previsione. Ora utilizzo principalmente la selezione delle funzionalità per semplificare le macchine di previsione in produzione o per rendere più trasparente un modello finale.
Soren Havelund Welling,

@SorenHavelundWelling - Dici che "La selezione della funzione produce una convalida incrociata eccessiva se non effettuata all'interno di un ciclo di convalida incrociata esterno". Puoi spiegarlo o fare riferimento a una fonte che lo spiega? Va contro tutto ciò che ho letto finora ...
Jack Fleeting

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.