Esiste un concetto di dati "sufficienti" per la formazione di modelli statistici?

Lavoro su molti modelli statistici, come Hidden Markov Models e Gaussian Mixture Models. Vedo che l'addestramento di buoni modelli in ciascuno di questi casi richiede una grande quantità (> 20000 frasi per HMM) di dati che vengono presi da ambienti simili all'utilizzo finale. La mia domanda è:

Esiste un concetto di "sufficienti" dati di formazione in letteratura? Quanti dati di allenamento sono "abbastanza buoni"?
Come posso calcolare quante frasi sono necessarie per i modelli "buoni" (che danno una buona precisione di riconoscimento (> 80%)) da addestrare?
Come faccio a sapere se un modello è stato addestrato correttamente? I coefficienti nel modello inizieranno a presentare fluttuazioni casuali? In tal caso, come posso distinguere le fluttuazioni casuali e le modifiche reali dovute all'aggiornamento del modello?

Sentiti libero di ricomporre questa domanda nel caso in cui abbia bisogno di più tag.

modeling hidden-markov-model gaussian-mixture

— Sriram
fonte

Puoi dividere il tuo set di dati in sottoinsiemi consecutivi con il 10%, 20%, 30%, ..., 100% dei tuoi dati e per ogni sottoinsieme stimare la varianza della precisione dello stimatore utilizzando la convalida incrociata k-fold o il bootstrap. Se si dispone di dati "sufficienti", la rappresentazione delle varianze dovrebbe mostrare una linea monotonica decrescente che dovrebbe raggiungere un plateau prima del 100%: l'aggiunta di più dati non diminuisce la varianza della precisione dello stimatore in alcun modo significativo.

— ogrisel
fonte

Dovrò provarlo. Sembra interessante. Grazie!

— Sriram,