Lavoro su molti modelli statistici, come Hidden Markov Models e Gaussian Mixture Models. Vedo che l'addestramento di buoni modelli in ciascuno di questi casi richiede una grande quantità (> 20000 frasi per HMM) di dati che vengono presi da ambienti simili all'utilizzo finale. La mia domanda è:
- Esiste un concetto di "sufficienti" dati di formazione in letteratura? Quanti dati di allenamento sono "abbastanza buoni"?
- Come posso calcolare quante frasi sono necessarie per i modelli "buoni" (che danno una buona precisione di riconoscimento (> 80%)) da addestrare?
- Come faccio a sapere se un modello è stato addestrato correttamente? I coefficienti nel modello inizieranno a presentare fluttuazioni casuali? In tal caso, come posso distinguere le fluttuazioni casuali e le modifiche reali dovute all'aggiornamento del modello?
Sentiti libero di ricomporre questa domanda nel caso in cui abbia bisogno di più tag.