È vero che i bayesiani non hanno bisogno di set di test?

Di recente ho visto questo discorso di Eric J. Ma e ho controllato il suo blog , in cui cita Radford Neal, che i modelli bayesiani non si adattano troppo (ma possono adattarsi troppo ) e quando li usano, non abbiamo bisogno di set di test per convalidarli (per me le citazioni sembrano parlare piuttosto dell'utilizzo del set di validazione per regolare i parametri). Onestamente, gli argomenti non mi convincono e non ho accesso al libro, quindi potresti fornire argomenti più dettagliati e rigorosi a favore o contro tale affermazione?

A proposito, nel frattempo, Eric Ma mi ha indicato questa discussione sullo stesso argomento.

— Tim
fonte

Un buco importante in questo argomento riguardo a quel discorso: se stai facendo MCMC, se non esplori completamente il posteriore, la tua deduzione è totalmente invalida. Se stai facendo un'inferenza su una rete neurale bayesiana, quasi sicuramente non hai esplorato porzioni molto grandi del posteriore usando MCMC. Pertanto, è meglio dividere i dati per ricontrollare la tua inferenza!

— Cliff AB

una cosa da considerare è cosa stiamo valutando o convalidando? è possibile che non utilizziamo tutte le informazioni in nostro possesso (né in precedenza né con probabilità). la verifica dell'adattamento del modello può aiutare a rispondere a questa domanda.

— probabilityislogic

Se utilizziamo "l'unico vero modello" e "veri priori" che riflettono alcune informazioni precedentemente acquisite in modo appropriato, allora per quanto ne so un bayesiano non ha davvero un problema di adattamento e che la distribuzione predittiva posteriore, data pochissimi dati, sarà adeguatamente incerta . Tuttavia, se utilizziamo un tipo di modello pragmaticamente scelto (ovvero abbiamo deciso che ad esempio il tasso di rischio è costante nel tempo e un modello esponenziale è appropriato o ad esempio che una covariata non è nel modello = punto prima del coefficiente zero) con alcuni priori non informativi o regolarizzanti di default, quindi non sappiamo davvero se questo vale ancora. In tal caso, la scelta di (iper) priori presenta una certa arbitrarietà che può o meno determinare buone previsioni fuori campione.

Pertanto, è quindi molto ragionevole porre la domanda se la scelta dell'iperparametro (= parametri degli iperpriori) in combinazione con la probabilità scelta funzionerà bene. In effetti, potresti facilmente decidere che è una buona idea mettere a punto i tuoi iperparametri per ottenere le prestazioni di previsione desiderate. Da quel punto di vista un set di validazione (o cross-validation) per mettere a punto iperparametri e set di test per confermare le prestazioni ha perfettamente senso.

Penso che questo sia strettamente correlato a una serie di discussioni di Andrew Gelman sul suo blog (vedi ad esempio post di blog 1 , post di blog 2 , post di blog 3 su LOO per Stan e discusioni su controlli predittivi posteriori), dove discute le sue preoccupazioni in merito al (in un certo senso corretto) afferma che un bayesiano non dovrebbe verificare se il suo modello ha senso e sulla valutazione pratica del modello bayesiano.

Naturalmente, molto spesso siamo i più interessati ad usare i metodi bayesiani in contesti, dove ci sono poche informazioni precedenti e vogliamo usare priori piuttosto istruttivi. A quel punto può diventare un po 'complicato disporre di dati sufficienti per arrivare ovunque con la convalida e la valutazione su un set di test.

— Björn
fonte

Quindi ho risposto alla domanda sul sovralimentazione a cui fai riferimento e ho visto il video e letto il post sul blog. Radford Neal non sta dicendo che i modelli bayesiani non si adattino troppo. Ricordiamo che il sovradimensionamento è il fenomeno del rumore trattato come segnale e inserito nella stima dei parametri. Questa non è l'unica fonte di errore nella selezione del modello. La discussione di Neal è più ampia, sebbene avventurandosi nell'idea di un campione di piccole dimensioni, si è avventurato nella discussione del sovradimensionamento.

Consentitemi di rivedere parzialmente la mia precedente pubblicazione secondo cui i modelli bayesiani possono adattarsi a tutti i modelli bayesiani, ma farlo in un modo che migliora la previsione. Ancora una volta, tornando alla definizione di segnale confuso con rumore, l'incertezza nei metodi bayesiani, la distribuzione posteriore, è la quantificazione di quell'incertezza su cosa sia segnale e cosa sia rumore. Nel fare ciò, i metodi bayesiani stanno impiantando il rumore nelle stime del segnale mentre l'intero posteriore è usato in inferenza e predizione. Il sovradimensionamento e altre fonti di errore nella classificazione dei modelli rappresentano un diverso tipo di problema nei metodi bayesiani.

Per semplificare, adottiamo la struttura del discorso di Ma e ci concentriamo sulla regressione lineare ed evitiamo la discussione di apprendimento profondo perché, come sottolinea, i metodi alternativi che menziona sono solo composizioni di funzioni e c'è un legame diretto tra la logica del lineare regressione e apprendimento profondo.

Considera il seguente modello potenziale Consente di creare un ampio campione di dimensione composto da due sottocampioni, , in cui è il set di training e è il set di validazione. Vedremo perché, fatti salvi alcuni avvertimenti, i metodi bayesiani non necessitano di un set separato di addestramento e validazione.

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

N

$N$

n_{1}, n_{2}

$n_1,n_2$

n_{1}

$n_1$

n_{2}

$n_2$

Per questa discussione, dobbiamo creare altri otto parametri, uno per ciascun modello. Sono . Seguono una distribuzione multinomiale e hanno priori propri come i coefficienti di regressione. Gli otto modelli sono e $m_1\dots{_8}$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

y = β_{0},

$y=\beta_0,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3},

$y=\beta_0+\beta_3x_3,$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2},

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

y = β_{0} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3} .

$y=\beta_0+\beta_3x_3.$

Ora dobbiamo entrare nelle erbacce delle differenze tra i metodi bayesiano e frequentista. Nel set di addestramento, il modellatore che utilizza i metodi Frequentist sceglie solo un modello. Il modellatore che utilizza i metodi bayesiani non è così limitato. Sebbene il modellatore bayesiano possa utilizzare un criterio di selezione del modello per trovare un solo modello, sono anche liberi di utilizzare la media del modello. Il modellatore bayesiano è inoltre libero di modificare i modelli selezionati a metà flusso nel segmento di validazione. Moreso, il modellatore che utilizza metodi bayesiani può mescolare e abbinare tra selezione e media. $n_1,$

Per fare un esempio nel mondo reale, ho testato 78 modelli di fallimento. Dei 78 modelli, la probabilità posteriore combinata di 76 di questi era circa il diecimilionesimo dell'uno percento. Gli altri due modelli erano rispettivamente circa il 54 percento e il 46 percento. Fortunatamente, anche loro non condividevano alcuna variabile. Ciò mi ha permesso di selezionare entrambi i modelli e di ignorare gli altri 76. Quando avevo tutti i punti dati per entrambi, ho calcolato la media delle loro previsioni in base alle probabilità posteriori dei due modelli, usando solo un modello quando avevo punti dati mancanti che precludevano il altro. Mentre avevo un set di addestramento e un set di validazione, non era per lo stesso motivo per cui un Frequentist li avrebbe. Inoltre, alla fine di ogni giorno su due cicli economici, ho aggiornato i miei posteriori con i dati di ogni giorno. Ciò significava che il mio modello alla fine del set di convalida non era il modello alla fine del set di addestramento. I modelli bayesiani non smettono di apprendere mentre i modelli frequentisti.

Per approfondire, cerchiamo di concretizzare i nostri modelli. Supponiamo che durante il campione di addestramento il modello Frequentist più adatto e il modello Bayesiano utilizzando la selezione del modello abbinata o, in alternativa, il peso del modello nella media del modello fosse così grande che fosse quasi indistinguibile dal modello Frequentist. Immagineremo che questo modello sia Immaginiamo anche che il vero modello in natura sia

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

Consideriamo ora la differenza nel set di convalida. Il modello Frequentist è troppo adattato ai dati. Supponiamo che da qualche punto la selezione del modello o la procedura di validazione abbiano cambiato la selezione con il vero modello in natura. Inoltre, se è stata utilizzata la media dei modelli, allora il vero modello in natura ha avuto un peso nella previsione molto prima che la scelta dei modelli fosse chiara. ET Jaynes nel suo tomo sulla teoria della probabilità trascorre del tempo a discutere di questo problema. Ho il libro al lavoro, quindi non posso procurarti una buona citazione, ma dovresti leggerlo. Il suo codice ISBN è 978-0521592710. $n_2^i$

I modelli sono parametri nel pensiero bayesiano e come tali sono casuali o, se preferisci, incerti. Tale incertezza non si esaurisce durante il processo di convalida. Viene continuamente aggiornato.

A causa delle differenze tra i metodi bayesiano e frequentista, ci sono anche altri tipi di casi che devono essere considerati. Il primo deriva dall'inferenza dei parametri, il secondo da previsioni formali. Non sono la stessa cosa nei metodi bayesiani. I metodi bayesiani separano formalmente l'inferenza e il processo decisionale. Separano inoltre la stima e la previsione dei parametri.

Immaginiamo, senza perdita di generalità, che un modello avrebbe successo se e un fallimento altrimenti. Ignoreremo gli altri parametri perché sarebbe un sacco di lavoro extra per avere un'idea semplice. Per il modellatore che utilizza metodi bayesiani, questo è un tipo di domanda molto diverso rispetto a quello che utilizza i metodi frequentista. $\hat{\sigma^2}<k$

Per il Frequentista viene formato un test di ipotesi basato sul set di allenamento. Il modellatore che utilizza i metodi Frequentist verifica se la varianza stimata è maggiore o uguale a e tenta di rifiutare il null sul campione la cui dimensione è fissando i parametri a quelli rilevati in . $k$ $n_2$ $n_1$

Per il modellatore che utilizza metodi bayesiani, formerebbero stime dei parametri durante dal campione e la densità posteriore di diventerebbe la precedente per il campione . Supponendo che la proprietà di scambiabilità sia valida, allora si è certi che la stima posteriore di è uguale in tutti i sensi della parola di quella di una stima di probabilità formata dal campione congiunto. Dividerli in due campioni equivale per forza matematica a non averli divisi affatto. $n_1$ $n_1$ $n_2$ $n_2$

Per le previsioni, esiste un problema simile. I metodi bayesiani hanno una distribuzione predittiva che viene anche aggiornata con ogni osservazione, mentre quella del frequentista viene congelata alla fine del campione . La densità predittiva può essere scritta come . Se è la previsione e è il campione, allora dove sono i parametri, che indicheremo $n_1$ $\Pr(\tilde{x}=k|\mathbf{X})$ $\tilde{x}$ $\mathbf{X}$ $\theta?$ Sebbene esistano sistemi di previsione Frequentist, la maggior parte delle persone tratta le stime puntuali come parametri reali e calcola i residui. I metodi bayesiani segnerebbero ogni previsione in base alla densità prevista anziché a un solo punto. Queste previsioni non dipendono da parametri diversi dai metodi puntuali utilizzati nelle soluzioni Frequentist.

Come nota a margine, esistono densità predittive formali frequentiste che utilizzano gli errori standard e il punteggio potrebbe essere fatto su di essi, ma questo è raro nella pratica. Se non esiste alcuna conoscenza specifica specifica, le due serie di previsioni dovrebbero essere identiche per la stessa serie di punti dati. per differire perché e quindi la soluzione bayesiana implicherà ulteriori informazioni. $n_1+n_2>n_1$

Se non vi sono informazioni preliminari rilevanti e se si utilizzano densità predittive del frequentista piuttosto che stime puntuali, per un campione fisso i risultati dei metodi bayesiano e frequentista saranno identici se si sceglie un singolo modello. Se ci sono informazioni preliminari, il metodo bayesiano tenderà a generare previsioni più accurate. Questa differenza può essere molto ampia in pratica. Inoltre, se esiste una media del modello, è molto probabile che il metodo bayesiano sia più robusto. Se si utilizza la selezione del modello e si congelano le previsioni bayesiane, non vi è alcuna differenza nell'uso di un modello frequentista utilizzando le previsioni frequentista.

Ho usato un set di test e validazione perché i miei dati non erano scambiabili. Di conseguenza, dovevo risolvere due problemi. Il primo è simile al burn-in nei metodi MCMC. Avevo bisogno di un buon set di stime dei parametri per iniziare la mia sequenza di test, e quindi ho usato cinquant'anni di dati precedenti per ottenere una buona densità precedente per iniziare il mio test di validazione. Il secondo problema era che avevo bisogno di una qualche forma di periodo standardizzato per testare in modo che il test non fosse messo in discussione. Ho usato i due precedenti cicli economici datati da NBER.

— Dave Harris
fonte

Quindi, supponiamo che tu abbia stimato un MAP per il modello di regressione lineare con priori "non informativi". Ciò equivarrebbe a ottenere la stima della massima verosimiglianza per il modello, quindi ML non ha bisogno nemmeno di un set di test, assumendo la possibilità di scambiare?

— Tim

"il sovradimensionamento è il fenomeno del rumore trattato come segnale e incorporato nella stima dei parametri" Credo che questa definizione sia specifica per i modelli di rumore additivo. Altrimenti overfitting vs underfitting non è così ben definito.

— Cagdas Ozgenc,

@CagdasOzgenc grazie. Hai una modifica suggerita?

— Dave Harris,

@Tim Non ho mai menzionato lo stimatore MAP. Se riduci il problema fino allo stimatore MAP, riduci la robustezza. Lo stimatore MAP è il punto che minimizza una funzione di costo su una densità. Questo può essere problematico per le proiezioni se la densità manca di una statistica sufficiente. Lo stimatore MAP perderebbe intrinsecamente informazioni. Se stavi usando lo stimatore MAP, che non è nella domanda originale e chiaramente non fa parte della presentazione di Ma, allora crei una serie diversa di problemi per te stesso.

— Dave Harris,

@Tim Lo stimatore MAP viene dalla teoria delle decisioni bayesiane ed è una sovrapposizione sulla stima e sull'inferenza bayesiane. La MAP è comoda. C'è un prezzo da pagare quando si sceglie la convenienza. A meno che la funzione di costo tutto o niente sia la tua vera funzione di costo, stai cedendo informazioni e accuratezza. Si finiscono anche questioni metodologiche diverse rispetto a quelle proposte nella presentazione di Ma.

— Dave Harris,