Bayesiano pensa al sovradimensionamento


20

Ho dedicato molto tempo allo sviluppo di metodi e software per la validazione di modelli predittivi nel tradizionale dominio statistico frequentista. Nel mettere in pratica più idee bayesiane e nell'insegnamento vedo alcune differenze chiave da abbracciare. In primo luogo, la modellazione predittiva bayesiana chiede all'analista di riflettere attentamente sulle distribuzioni precedenti che possono essere personalizzate in base alle caratteristiche del candidato, e questi priori tireranno il modello verso di loro (cioè, raggiungeranno il restringimento / la penalizzazione / la regolarizzazione con diverse quantità di penalizzazione per le diverse caratteristiche predittive ). In secondo luogo, il modo "reale" bayesiano non risulta in un singolo modello ma si ottiene un'intera distribuzione posteriore per una previsione.

Con queste caratteristiche bayesiane in mente, cosa significa overfitting? Dovremmo valutarlo? Se é cosi, come? Come facciamo a sapere quando un modello bayesiano è affidabile per l'uso sul campo? O è un punto controverso dal momento che il posteriore trasporterà tutte le incertezze di cautela quando usiamo il modello che abbiamo sviluppato per la previsione?

Come cambierebbe il pensiero se forzassimo il modello bayesiano ad essere distillato su un singolo numero, ad esempio, media / modalità / rischio mediano posteriori?

Vedo alcuni pensieri correlati qui . Una discussione parallela può essere trovata qui .

Domanda di follow-up :: Se siamo completamente bayesiani e passiamo un po 'di tempo a pensare ai priori prima di vedere i dati e adattiamo un modello in cui la probabilità dei dati è stata specificata in modo appropriato, siamo costretti a essere soddisfatti del nostro modello per quanto riguarda il sovrautilizzo ? Oppure dobbiamo fare ciò che facciamo nel mondo frequentista in cui un soggetto scelto a caso può essere previsto in media bene, ma se scegliamo un soggetto con una previsione molto bassa o uno con un valore previsto molto elevato ci sarà una regressione nel mezzo?



1
Andrew Gelman ha un articolo di blog molto rilevante su andrewgelman.com/2017/04/12/bayesian-posteriors-calibrated
Frank Harrell,

Risposte:


6

Potrei iniziare dicendo che un modello bayesiano non può sistematicamente sovrautilizzare (o sottovalutare) i dati ricavati dalla precedente distribuzione predittiva, che è la base per una procedura per convalidare il corretto funzionamento del software bayesiano prima che venga applicato ai dati raccolti dal mondo.

Ma può sovrautilizzare un singolo set di dati tratto dalla precedente distribuzione predittiva o un singolo set di dati raccolti dal mondo, nel senso che le varie misure predittive applicate ai dati su cui hai condizionato sembrano migliori di quelle stesse misure predittive applicate a dati futuri che sono generato dallo stesso processo. Il capitolo 6 del libro bayesiano di Richard McElreath è dedicato al sovradimensionamento.

La gravità e la frequenza del sovradimensionamento possono essere ridotte dai buoni priori, in particolare quelli che sono informativi sulla portata di un effetto. Mettendo la probabilità che svanisca in precedenza su valori plausibilmente grandi, si scoraggia la distribuzione posteriore dall'eccitarsi eccessivamente a causa di alcuni aspetti idiosincratici dei dati su cui si è condizionati che possono suggerire un effetto plausibilmente grande.

I modi migliori per rilevare un overfitting riguardano la validazione incrociata con esclusione, che può essere approssimata da una distribuzione posteriore che in realtà non lascia alcuna osservazione al di fuori del set di condizionamento. Si presume che nessuna "osservazione" individuale [*] su cui si è condizionati abbia un effetto eccessivamente grande sulla distribuzione posteriore, ma tale presupposto è verificabile valutando la dimensione della stima del parametro di forma in una distribuzione Pareto generalizzata che è adattarsi all'importanza dei pesi di campionamento (che sono derivati ​​dalla probabilità logaritmica di un'osservazione valutata su ogni disegno della distribuzione posteriore). Se questa ipotesi è soddisfatta, è possibile ottenere misure predittive per ciascuna osservazione che sono come se quell'osservazione fosse stata omessa, il posteriore era stato tratto dal condizionamento delle osservazioni rimanenti e la distribuzione predittiva posteriore era stata costruita per l'osservazione omessa. Se le tue previsioni di osservazioni lasciate fuori soffrono, allora il tuo modello era troppo adatto per cominciare. Queste idee sono implementate nel pacchetto loo per R, che include citazioni come qua e .

Per quanto riguarda la distillazione su un singolo numero, mi piace calcolare la percentuale di osservazioni che rientrano negli intervalli predittivi del 50%. Nella misura in cui questa proporzione è maggiore della metà, il modello è troppo adatto, sebbene siano necessarie più di una manciata di osservazioni per tagliare il rumore nella funzione dell'indicatore di inclusione. Per il confronto di diversi modelli (che potrebbero essere sovrautilizzati), la densità predittiva del log prevista (calcolata dalla loofunzione nel loopacchetto) è una buona misura (proposta da IJ Good) perché tiene conto della possibilità che un modello più flessibile possa adattare i dati disponibili meglio di un modello meno flessibile, ma si prevede che preveda un peggioramento dei dati futuri. Ma queste idee possono essere applicate alle aspettative di qualsiasi misura predittiva (che può essere più intuitiva per i professionisti); vedere la E_loofunzione nel pacchetto loo .

[*] Devi scegliere cosa costituisce un'osservazione in un modello gerarchico. Ad esempio, sei interessato a prevedere un nuovo paziente o un nuovo punto temporale per un paziente esistente? Puoi farlo in entrambi i modi, ma il primo richiede che tu (ri) scriva la funzione di probabilità per integrare i parametri specifici del paziente.


2
Ben molto istruttivo. Grazie mille per il tempo dedicato a rispondere in dettaglio. Per rispondere alla tua domanda sull'ambito, mi riferisco a nuovi pazienti. Mi rimane una domanda filosofica generale che ho aggiunto alla fine della domanda originale.
Frank Harrell,

2
Tendo a pensare a controlli come questi come a riflettere aspetti delle nostre precedenti convinzioni che non abbiamo o non abbiamo potuto integrare nelle precedenti distribuzioni che abbiamo usato. Ad esempio, in linea di principio, dovresti specificare un PDF precedente comune su tutti i parametri, ma quasi sempre si presume che questo sia indipendente a priori , non perché credi davvero che siano indipendenti ma solo perché specifica la struttura di dipendenza multivariata è molto difficile. Le funzioni multivariate come le previsioni possono aiutarti a capire, dopo il fatto, se gli input erano congiuntamente sensibili.
Ben Goodrich,

Questo ha un senso straordinario ed è molto perspicace. Mi rimane ancora un po 'di dilemma sulla valutazione della precisione predittiva per soggetti "estremi", vale a dire quelli con valori previsti molto bassi o molto alti. [E per Bayes, che predisse i valori. Sono quei soggetti con una distribuzione posteriore spostata o quelli con una media posteriore bassa / alta?]
Frank Harrell,

1
Un altro pensiero su questo: sembra in molte situazioni, i praticanti hanno credenze abbastanza coerenti e non controverse sul denominatore della regola di Bayes. Ad esempio, se qualcuno ha questo o quel cancro, qual è la sua distribuzione del tempo di sopravvivenza senza condizionamento su qualcos'altro? Ma è più difficile e controverso specificare il numeratore della regola di Bayes in modo tale che se si integrano tutti i parametri, si rimane con ciò che si ritiene sia il denominatore. Il controllo predittivo (sia anteriore che posteriore) è una specie di modo per allineare il numeratore al denominatore della regola di Bayes.
Ben Goodrich,

1

L'adattamento eccessivo indica che il modello funziona bene sul set di allenamento ma si comporta male sul set di test. IMHO, proviene da due fonti: i dati e il modello che usiamo (o la nostra soggettività).

I dati sono probabilmente il fattore più importante. Con qualunque modello / approccio utilizziamo, assumiamo implicitamente che i nostri dati siano abbastanza rappresentativi, che è ciò che otteniamo dai nostri dati (di formazione) che può anche essere generalizzato alla popolazione. In pratica non è sempre così. Se i dati non vengono visualizzati, il CV standard -fold non ha senso per evitare un overfitting.K

Di conseguenza, se siamo frequentisti, allora la fonte di overfitting proviene da MLE. Se siamo bayesiani, questo deriva dalla scelta (soggettiva) della distribuzione precedente (e ovviamente dalla scelta della probabilità)). Quindi, anche se usi la distribuzione / media / mediana posteriori, hai già sovralimentato fin dall'inizio e questo eccesso è portato avanti. La scelta corretta della distribuzione e della probabilità precedenti sarà di aiuto, ma sono ancora i modelli, non si può mai evitare il sovradimensionamento completo.


Ignorando la verosimiglianza dei dati, che è comune per gli approcci frequentista e bayesiano, l'idea che il sovrautilizzo provenga dalla scelta del precedente è perspicace. Ciò implica che non vi è alcun modo per verificare la presenza di un eccesso di adattamento, poiché non è possibile né controllare il precedente se abbiamo effettuato tutti i nostri pre-dati pensando in anticipo al precedente. Ma mi rimane ancora la sensazione che le previsioni estreme mostrino un eccesso di adattamento (regressione alla media). Il precedente riguarda i parametri, non gli estremi nei dati.
Frank Harrell,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.