Esiste un concetto di dati "sufficienti" per la formazione di modelli statistici?


10

Lavoro su molti modelli statistici, come Hidden Markov Models e Gaussian Mixture Models. Vedo che l'addestramento di buoni modelli in ciascuno di questi casi richiede una grande quantità (> 20000 frasi per HMM) di dati che vengono presi da ambienti simili all'utilizzo finale. La mia domanda è:

  1. Esiste un concetto di "sufficienti" dati di formazione in letteratura? Quanti dati di allenamento sono "abbastanza buoni"?
  2. Come posso calcolare quante frasi sono necessarie per i modelli "buoni" (che danno una buona precisione di riconoscimento (> 80%)) da addestrare?
  3. Come faccio a sapere se un modello è stato addestrato correttamente? I coefficienti nel modello inizieranno a presentare fluttuazioni casuali? In tal caso, come posso distinguere le fluttuazioni casuali e le modifiche reali dovute all'aggiornamento del modello?

Sentiti libero di ricomporre questa domanda nel caso in cui abbia bisogno di più tag.

Risposte:


10

Puoi dividere il tuo set di dati in sottoinsiemi consecutivi con il 10%, 20%, 30%, ..., 100% dei tuoi dati e per ogni sottoinsieme stimare la varianza della precisione dello stimatore utilizzando la convalida incrociata k-fold o il bootstrap. Se si dispone di dati "sufficienti", la rappresentazione delle varianze dovrebbe mostrare una linea monotonica decrescente che dovrebbe raggiungere un plateau prima del 100%: l'aggiunta di più dati non diminuisce la varianza della precisione dello stimatore in alcun modo significativo.


Dovrò provarlo. Sembra interessante. Grazie!
Sriram,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.