Sto cercando di risolvere l'attività di regressione. Ho scoperto che 3 modelli funzionano bene per diversi sottoinsiemi di dati: LassoLARS, SVR e Gradient Tree Boosting. Ho notato che quando faccio previsioni usando tutti questi 3 modelli e poi faccio una tabella di "output reale" e output dei miei 3 modelli, vedo che ogni volta almeno uno dei modelli è davvero vicino all'output vero, anche se altri 2 potrebbe essere relativamente lontano.
Quando calcolo l'errore minimo possibile (se prendo la previsione dal predittore "migliore" per ciascun esempio di test), ricevo un errore che è molto più piccolo dell'errore di qualsiasi modello da solo. Quindi ho pensato di provare a combinare le previsioni di questi 3 diversi modelli in una sorta di ensemble. La domanda è: come farlo correttamente? Tutti i miei 3 modelli sono costruiti e messi a punto utilizzando scikit-learn, fornisce un metodo che potrebbe essere usato per impacchettare i modelli in un ensemble? Il problema qui è che non voglio solo previsioni medie di tutti e tre i modelli, voglio farlo con la ponderazione, dove la ponderazione dovrebbe essere determinata sulla base di proprietà di esempio specifico.
Anche se scikit-learn non fornisce tale funzionalità, sarebbe bello se qualcuno sapesse come indirizzare la proprietà a questo compito - di capire la ponderazione di ciascun modello per ogni esempio nei dati. Penso che potrebbe essere fatto da un regressore separato costruito su tutti e 3 questi modelli, che proverà a produrre pesi ottimali per ciascuno dei 3 modelli, ma non sono sicuro che questo sia il modo migliore per farlo.