Diciamo che un modello è stato addestrato in data utilizzando i dati etichettati disponibili, divisi in formazione e test, ad es , . Questo modello viene quindi distribuito in produzione e fa previsioni su nuovi dati in arrivo. Alcuni i giorni passano e ci sono un sacco di dati etichettati che vengono raccolti in mezzo e giorni, chiamiamolo . Nel mio approccio attuale, prendo campioni casuali da (prendi ad esempio la divisione 80/20),
Così, di = (nuovi dati utilizzati per mettere a punto il modello esistente su cui è stato addestrato ) di = (nuovi dati aggiunti a )
Questo processo di messa a punto si è ripetuto col passare del tempo.
In questo modo ottengo un set di test in continua espansione, oltre a prevenire la riqualificazione dell'intero modello (essenzialmente posso buttare via i vecchi dati come il modello ha imparato da esso). Il nuovo modello generato è solo una versione perfezionata di quella precedente.
Ho alcune domande su questo approccio:
- Ci sono degli ovvi inconvenienti nel fare questo?
- Il modello dovrebbe mai essere completamente riqualificato (dimenticando tutto ciò che è stato appreso in precedenza e addestrando il modello con il nuovo treno / divisioni di prova) dopo qualche tempo o l'approccio che ho descritto sopra può continuare indefinitamente?
- Quale dovrebbe essere la condizione per scambiare il modello distribuito esistente con il modello appena messo a punto?