Bayesian vs MLE, problema di overfitting


12

Nel libro PRML di Bishop, afferma che il sovrautilizzo è un problema con la stima della massima verosimiglianza (MLE) e Bayesian può evitarlo.

Ma penso che l'overfitting sia un problema in più per la selezione del modello, non per il metodo usato per fare la stima dei parametri. Cioè, supponiamo di avere un set di dati , che viene generato tramite , ora potrei scegliere diversi modelli per adattarli ai dati e scoprire qual'è il migliore. E i modelli in esame sono polinomiali con ordini diversi, è ordine 1, è ordine 2, è ordine 9.f ( x ) = s i n ( x ) ,DH i H 1 H 2 H 3

f(x)=sin(x),x[0,1]
HiH1H2H3

Ora provo ad adattare i dati a ciascuno dei 3 modelli, ogni modello ha i suoi parametri, indicati come per .w i H iDwiHi

Usando ML, avrò una stima puntuale dei parametri del modello , e è troppo semplice e si adatta sempre ai dati, mentre è troppo complesso e si adatta ai dati, solo si adatta bene ai dati.H 1 H 3 H 2wH1H3H2

Le mie domande sono:

1) Il modello si sovrappone ai dati, ma non penso che sia il problema di ML, ma il problema del modello in sé. Perché, usando ML per non si traduce in un overfitting. Ho ragione?H 1 , H 2H3H1,H2

2) Rispetto a Bayesian, ML presenta alcuni svantaggi, dato che fornisce solo la stima puntuale dei parametri del modello ed è troppo sicura. Mentre Bayesian non si basa solo sul valore più probabile del parametro, ma su tutti i possibili valori dei parametri dati i dati osservati , giusto?DwD

3) Perché Bayesian può evitare o ridurre il sovrautilizzo? A quanto ho capito, possiamo usare Bayesian per il confronto tra modelli, ovvero, dati , potremmo scoprire la probabilità marginale (o prova del modello) per ciascun modello in esame, e quindi scegliere quello con la più alta probabilità marginale, giusto ? Se è così, perché?D

Risposte:


19

L'ottimizzazione è la radice di tutto il male nelle statistiche. Ogni volta che fai delle scelte sul tuo modello ottimizzando alcuni criteri adeguati, valutati su un campione finito di dati, corri il rischio di sovrastimare il criterio, vale a dire ridurre la statistica oltre il punto in cui si ottengono miglioramenti nelle prestazioni di generalizzazione e la riduzione viene invece acquisito sfruttando le peculiarità del campione di dati, ad esempio il rumore). Il motivo per cui il metodo bayesiano funziona meglio è che non si ottimizza nulla, ma si marginalizza (si integra) su tutte le possibili scelte. Il problema sta quindi nella scelta delle precedenti credenze riguardo al modello, quindi un problema è scomparso, ma un altro appare al suo posto.1


1 Ciò include la massimizzazione delle prove (probabilità marginale) in un ambiente bayesiano. Per un esempio di ciò, vedere i risultati per i classificatori del processo gaussiano nel mio documento, in cui l'ottimizzazione della probabilità marginale peggiora il modello se si hanno troppi iperparametri (la selezione delle note in base alla probabilità marginale tenderà a favorire i modelli con molti hyper -parametri come risultato di questa forma di sovra-adattamento).

GC Cawley e NLC Talbot, Over-fitting nella selezione dei modelli e conseguente pregiudizio nella selezione delle prestazioni, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, luglio 2010. ( pdf )


+1, grazie mille, leggerò il tuo articolo e vedrò se ho ulteriori domande ;-)
avocado

1
Solo per notare qui che l'ottimizzazione di solito può essere considerata approssimativamente integrativa - il metodo Laplace ne è un esempio. L'ottimizzazione di solito fallisce quando non è una buona approssimazione all'integrazione, quindi perché REML è di solito migliore di ML.
probabilityislogic

@probabilityislogic, non sono sicuro di aver capito, ML è un po 'come MAP, non c'è integrazione eseguita. L'uso dell'approssimazione di Laplace (nel modo in cui l'ho visto usato) è l'ottimizzazione nel senso che si ottimizza un'approssimazione alla funzione che si desidera integrare e integrare invece, ma è ancora in corso l'integrazione.
Dikran Marsupial,

1
@dikran marsupial - Forse un modo migliore per spiegarlo è che l'integrazione è spesso ben approssimata stimando un parametro per ML e vincolando quel parametro per essere uguale al suo MLE. L'approssimazione di Laplace fornisce un "fattore di correzione" a questa intuizione, allo stesso modo di REML.
probabilityislogic

@probabilityislogic grazie per la risposta, ci penserò su!
Dikran Marsupial,

7

Come risposta generale, se si utilizzano modelli di regressione di tipo "minimi quadrati", in realtà non c'è molta differenza tra bayes e ML, a meno che non si utilizzi un precedente informativo per i parametri di regressione. In risposta a specifiche:

H9H1

x

3) L'approccio bayesiano può evitare un eccesso di equipaggiamento solo per i priori adeguati. Questo funziona in modo simile ai termini di penalità che vedi in alcuni algoritmi di adattamento. Ad esempio, penalità L2 = precedente normale, penalità L1 = precedente laplace.


H9

H

H9

4

H1H2H3

2H1

l1


Un'ipotesi semplice (ad es. H1, h2) con campioni di addestramento insufficienti sarebbe un esempio di adattamento insufficiente (per cv) e non di adattamento eccessivo a causa della distorsione del modello sui pochi esempi di addestramento forniti.
Ekta,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.