Sto cercando di usare la regressione casuale della foresta in scikits-learn. Il problema è che sto ricevendo un errore di test molto elevato:
train MSE, 4.64, test MSE: 252.25.
Ecco come appaiono i miei dati: (blu: dati reali, verde: previsto):
Sto usando il 90% per l'allenamento e il 10% per il test. Questo è il codice che sto usando dopo aver provato diverse combinazioni di parametri:
rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1)
test_mse = mean_squared_error(y_test, rf.predict(X_test))
train_mse = mean_squared_error(y_train, rf.predict(X_train))
print("train MSE, %.4f, test MSE: %.4f" % (train_mse, test_mse))
plot(rf.predict(X))
plot(y)
Quali sono le possibili strategie per migliorare il mio adattamento? C'è qualcos'altro che posso fare per estrarre il modello sottostante? Mi sembra incredibile che dopo così tante ripetizioni dello stesso modello il modello si comporti così male con i nuovi dati. Ho qualche speranza di provare ad adattare questi dati?