Nel libro PRML di Bishop, afferma che il sovrautilizzo è un problema con la stima della massima verosimiglianza (MLE) e Bayesian può evitarlo.
Ma penso che l'overfitting sia un problema in più per la selezione del modello, non per il metodo usato per fare la stima dei parametri. Cioè, supponiamo di avere un set di dati , che viene generato tramite , ora potrei scegliere diversi modelli per adattarli ai dati e scoprire qual'è il migliore. E i modelli in esame sono polinomiali con ordini diversi, è ordine 1, è ordine 2, è ordine 9.f ( x ) = s i n ( x ) ,H i H 1 H 2 H 3
Ora provo ad adattare i dati a ciascuno dei 3 modelli, ogni modello ha i suoi parametri, indicati come per .w i H i
Usando ML, avrò una stima puntuale dei parametri del modello , e è troppo semplice e si adatta sempre ai dati, mentre è troppo complesso e si adatta ai dati, solo si adatta bene ai dati.H 1 H 3 H 2
Le mie domande sono:
1) Il modello si sovrappone ai dati, ma non penso che sia il problema di ML, ma il problema del modello in sé. Perché, usando ML per non si traduce in un overfitting. Ho ragione?H 1 , H 2
2) Rispetto a Bayesian, ML presenta alcuni svantaggi, dato che fornisce solo la stima puntuale dei parametri del modello ed è troppo sicura. Mentre Bayesian non si basa solo sul valore più probabile del parametro, ma su tutti i possibili valori dei parametri dati i dati osservati , giusto?D
3) Perché Bayesian può evitare o ridurre il sovrautilizzo? A quanto ho capito, possiamo usare Bayesian per il confronto tra modelli, ovvero, dati , potremmo scoprire la probabilità marginale (o prova del modello) per ciascun modello in esame, e quindi scegliere quello con la più alta probabilità marginale, giusto ? Se è così, perché?