Quindi ho risposto alla domanda sul sovralimentazione a cui fai riferimento e ho visto il video e letto il post sul blog. Radford Neal non sta dicendo che i modelli bayesiani non si adattino troppo. Ricordiamo che il sovradimensionamento è il fenomeno del rumore trattato come segnale e inserito nella stima dei parametri. Questa non è l'unica fonte di errore nella selezione del modello. La discussione di Neal è più ampia, sebbene avventurandosi nell'idea di un campione di piccole dimensioni, si è avventurato nella discussione del sovradimensionamento.
Consentitemi di rivedere parzialmente la mia precedente pubblicazione secondo cui i modelli bayesiani possono adattarsi a tutti i modelli bayesiani, ma farlo in un modo che migliora la previsione. Ancora una volta, tornando alla definizione di segnale confuso con rumore, l'incertezza nei metodi bayesiani, la distribuzione posteriore, è la quantificazione di quell'incertezza su cosa sia segnale e cosa sia rumore. Nel fare ciò, i metodi bayesiani stanno impiantando il rumore nelle stime del segnale mentre l'intero posteriore è usato in inferenza e predizione. Il sovradimensionamento e altre fonti di errore nella classificazione dei modelli rappresentano un diverso tipo di problema nei metodi bayesiani.
Per semplificare, adottiamo la struttura del discorso di Ma e ci concentriamo sulla regressione lineare ed evitiamo la discussione di apprendimento profondo perché, come sottolinea, i metodi alternativi che menziona sono solo composizioni di funzioni e c'è un legame diretto tra la logica del lineare regressione e apprendimento profondo.
Considera il seguente modello potenziale Consente di creare un ampio campione di dimensione composto da due sottocampioni, , in cui è il set di training e è il set di validazione. Vedremo perché, fatti salvi alcuni avvertimenti, i metodi bayesiani non necessitano di un set separato di addestramento e validazione.
y= β0+ β1X1+ β2X2+ β3X3.
Nn1, n2n1n2
Per questa discussione, dobbiamo creare altri otto parametri, uno per ciascun modello. Sono . Seguono una distribuzione multinomiale e hanno priori propri come i coefficienti di regressione. Gli otto modelli sono e m1...8
y=β0+β1x1+β2x2+β3x3,
y=β0,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3,
y=β0+β1x1+β2x2,
y=β0+β1x1+β3x3,
y=β0+β2x2+β3x3,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3.
Ora dobbiamo entrare nelle erbacce delle differenze tra i metodi bayesiano e frequentista. Nel set di addestramento, il modellatore che utilizza i metodi Frequentist sceglie solo un modello. Il modellatore che utilizza i metodi bayesiani non è così limitato. Sebbene il modellatore bayesiano possa utilizzare un criterio di selezione del modello per trovare un solo modello, sono anche liberi di utilizzare la media del modello. Il modellatore bayesiano è inoltre libero di modificare i modelli selezionati a metà flusso nel segmento di validazione. Moreso, il modellatore che utilizza metodi bayesiani può mescolare e abbinare tra selezione e media.n1,
Per fare un esempio nel mondo reale, ho testato 78 modelli di fallimento. Dei 78 modelli, la probabilità posteriore combinata di 76 di questi era circa il diecimilionesimo dell'uno percento. Gli altri due modelli erano rispettivamente circa il 54 percento e il 46 percento. Fortunatamente, anche loro non condividevano alcuna variabile. Ciò mi ha permesso di selezionare entrambi i modelli e di ignorare gli altri 76. Quando avevo tutti i punti dati per entrambi, ho calcolato la media delle loro previsioni in base alle probabilità posteriori dei due modelli, usando solo un modello quando avevo punti dati mancanti che precludevano il altro. Mentre avevo un set di addestramento e un set di validazione, non era per lo stesso motivo per cui un Frequentist li avrebbe. Inoltre, alla fine di ogni giorno su due cicli economici, ho aggiornato i miei posteriori con i dati di ogni giorno. Ciò significava che il mio modello alla fine del set di convalida non era il modello alla fine del set di addestramento. I modelli bayesiani non smettono di apprendere mentre i modelli frequentisti.
Per approfondire, cerchiamo di concretizzare i nostri modelli. Supponiamo che durante il campione di addestramento il modello Frequentist più adatto e il modello Bayesiano utilizzando la selezione del modello abbinata o, in alternativa, il peso del modello nella media del modello fosse così grande che fosse quasi indistinguibile dal modello Frequentist. Immagineremo che questo modello sia Immaginiamo anche che il vero modello in natura sia
y=β0+β1x1+β2x2+β3x3.
y=β0+β1x1+β3x3.
Consideriamo ora la differenza nel set di convalida. Il modello Frequentist è troppo adattato ai dati. Supponiamo che da qualche punto la selezione del modello o la procedura di validazione abbiano cambiato la selezione con il vero modello in natura. Inoltre, se è stata utilizzata la media dei modelli, allora il vero modello in natura ha avuto un peso nella previsione molto prima che la scelta dei modelli fosse chiara. ET Jaynes nel suo tomo sulla teoria della probabilità trascorre del tempo a discutere di questo problema. Ho il libro al lavoro, quindi non posso procurarti una buona citazione, ma dovresti leggerlo. Il suo codice ISBN è 978-0521592710.ni2
I modelli sono parametri nel pensiero bayesiano e come tali sono casuali o, se preferisci, incerti. Tale incertezza non si esaurisce durante il processo di convalida. Viene continuamente aggiornato.
A causa delle differenze tra i metodi bayesiano e frequentista, ci sono anche altri tipi di casi che devono essere considerati. Il primo deriva dall'inferenza dei parametri, il secondo da previsioni formali. Non sono la stessa cosa nei metodi bayesiani. I metodi bayesiani separano formalmente l'inferenza e il processo decisionale. Separano inoltre la stima e la previsione dei parametri.
Immaginiamo, senza perdita di generalità, che un modello avrebbe successo se e un fallimento altrimenti. Ignoreremo gli altri parametri perché sarebbe un sacco di lavoro extra per avere un'idea semplice. Per il modellatore che utilizza metodi bayesiani, questo è un tipo di domanda molto diverso rispetto a quello che utilizza i metodi frequentista.σ2^<k
Per il Frequentista viene formato un test di ipotesi basato sul set di allenamento. Il modellatore che utilizza i metodi Frequentist verifica se la varianza stimata è maggiore o uguale a e tenta di rifiutare il null sul campione la cui dimensione è fissando i parametri a quelli rilevati in .kn2n1
Per il modellatore che utilizza metodi bayesiani, formerebbero stime dei parametri durante dal campione e la densità posteriore di diventerebbe la precedente per il campione . Supponendo che la proprietà di scambiabilità sia valida, allora si è certi che la stima posteriore di è uguale in tutti i sensi della parola di quella di una stima di probabilità formata dal campione congiunto. Dividerli in due campioni equivale per forza matematica a non averli divisi affatto.n 1 n 2 n 2n1n1n2n2
Per le previsioni, esiste un problema simile. I metodi bayesiani hanno una distribuzione predittiva che viene anche aggiornata con ogni osservazione, mentre quella del frequentista viene congelata alla fine del campione . La densità predittiva può essere scritta come . Se è la previsione e è il campione, allora dove sono i parametri, che indicheremo Pr ( ˜ x = k | X ) ˜ x X θ ?n1Pr(x~=k|X)x~Xθ? Sebbene esistano sistemi di previsione Frequentist, la maggior parte delle persone tratta le stime puntuali come parametri reali e calcola i residui. I metodi bayesiani segnerebbero ogni previsione in base alla densità prevista anziché a un solo punto. Queste previsioni non dipendono da parametri diversi dai metodi puntuali utilizzati nelle soluzioni Frequentist.
Come nota a margine, esistono densità predittive formali frequentiste che utilizzano gli errori standard e il punteggio potrebbe essere fatto su di essi, ma questo è raro nella pratica. Se non esiste alcuna conoscenza specifica specifica, le due serie di previsioni dovrebbero essere identiche per la stessa serie di punti dati. per differire perché e quindi la soluzione bayesiana implicherà ulteriori informazioni.n1+n2>n1
Se non vi sono informazioni preliminari rilevanti e se si utilizzano densità predittive del frequentista piuttosto che stime puntuali, per un campione fisso i risultati dei metodi bayesiano e frequentista saranno identici se si sceglie un singolo modello. Se ci sono informazioni preliminari, il metodo bayesiano tenderà a generare previsioni più accurate. Questa differenza può essere molto ampia in pratica. Inoltre, se esiste una media del modello, è molto probabile che il metodo bayesiano sia più robusto. Se si utilizza la selezione del modello e si congelano le previsioni bayesiane, non vi è alcuna differenza nell'uso di un modello frequentista utilizzando le previsioni frequentista.
Ho usato un set di test e validazione perché i miei dati non erano scambiabili. Di conseguenza, dovevo risolvere due problemi. Il primo è simile al burn-in nei metodi MCMC. Avevo bisogno di un buon set di stime dei parametri per iniziare la mia sequenza di test, e quindi ho usato cinquant'anni di dati precedenti per ottenere una buona densità precedente per iniziare il mio test di validazione. Il secondo problema era che avevo bisogno di una qualche forma di periodo standardizzato per testare in modo che il test non fosse messo in discussione. Ho usato i due precedenti cicli economici datati da NBER.