A mio avviso, le variabili altamente correlate non causeranno problemi di multi-collinearità nel modello di foresta casuale (correggimi se sbaglio). Tuttavia, in caso contrario, se ho troppe variabili contenenti informazioni simili, il modello peserà troppo su questo set piuttosto che sugli altri?
Ad esempio, ci sono due serie di informazioni (A, B) con lo stesso potere predittivo. Le variabili , X 2 , ... X 1000 contengono tutte le informazioni A e solo Y contiene le informazioni B. Quando le variabili di campionamento casuali, la maggior parte degli alberi crescerà sulle informazioni A e, di conseguenza, le informazioni B non vengono catturate completamente?
multicollinearity
effetto sul modello di foresta casuale. Ad esempio, qui , la risposta più votata afferma che "nessuna parte del modello di foresta casuale è danneggiata da variabili altamente collineari". Questo ha qualche validità?