Stabilità della validazione incrociata nei modelli bayesiani


19

Sto inserendo un HLM bayesiano in JAGS usando la validazione incrociata di k-fold (k = 5). Vorrei sapere se le stime del parametro sono stabili su tutte le pieghe. Qual'è il miglior modo per farlo?β

Un'idea è quella di trovare le differenze dei posteriori di e vedere se 0 è nell'IC del 95% della differenza. In altre parole, è 0 nell'intervallo 95% di (e quindi ripetere per tutte le coppie di pieghe).ββK=1-βK=2

Un'altra idea è quella di trattare i posteriori di ciascuna piega come diverse catene MCMC e calcolare (fattore di riduzione della scala potenziale) di Gelman attraverso queste pseudo-catene.R^

È preferibile uno di questi e ci sono alternative?


1
Sembra strano vedere se lo zero è tra le differenze credibili in quanto sicuramente ci si aspetta che ci sia qualche differenza tra le pieghe. Un suggerimento sarebbe quello di calcolare le stime puntuali di per ogni piega e guardare la diffusione di queste. β
Rasmus Bååth,

3
Solo un commento generale sulla validazione incrociata e roba bayesiana: perché non calcolare semplicemente WAIC? È asintoticamente equivalente a LOOCV e puoi comunque utilizzare tutti i tuoi dati.
Brash Equilibrium,

1
Come genereresti simulazioni posteriori di ? βK=1-βK=2
Stéphane Laurent,

Nei nostri test nella mia ex fabbrica abbiamo dovuto dimostrare che la perdita di rendimento dello 0% era nell'IC del 95%. Dominavano domande su campioni adeguati, indipendenti e sulla natura del test binomiale. Puoi dare un'idea di quali sono le dimensioni del tuo campione?
EngrStudent - Ripristina Monica il

Risposte:


2

Non so se questo si qualifica come un commento o come una risposta. Sto mettendo qui perché sembra una risposta.

Nella k-fold cross-validation stai partizionando i tuoi dati in k gruppi. Se stai coprendo anche le "basi", stai selezionando casualmente i membri in modo casuale per ciascuno dei k bin.

Quando parlo di dati, penso a ciascuna riga come a un campione e ogni colonna a una dimensione. Sono abituato a usare vari metodi per determinare l'importanza variabile, l'importanza della colonna.

E se tu, come esercizio di pensiero, ti allontanassi dall'uniforme del "libro di testo" e stabilissi quali file fossero importanti? Forse informano una singola variabile alla volta, ma forse informano di più. Ci sono alcune file che sono meno importanti di altre? Forse molti dei punti sono informativi, forse pochi lo sono.

Conoscendo l'importanza della variabile, forse potresti rimuoverle per importanza. Forse potresti creare un singolo cestino con i campioni più importanti. Questo potrebbe definire la dimensione della tua "k". In questo modo, determineresti il ​​kth bucket "più informativo" e lo confronterai con gli altri e con il bucket meno informativo.

Questo potrebbe darti un'idea della variazione massima dei parametri del tuo modello. È solo una forma.

Un secondo modo di dividere i secchi del kth è la grandezza e la direzione dell'influenza. Quindi è possibile inserire in un bucket diversi campioni che oscillano un parametro o parametri in una direzione e inserire campioni che oscillano nello stesso parametro o parametri nella direzione opposta.

La variazione dei parametri in questo modulo potrebbe fornire una più ampia scansione delle variabili, basata non sulla densità delle informazioni, ma sulla generazione delle informazioni.

Buona fortuna.


0

Potrebbe non essere una risposta completa, ma se 0 NON è presente nell'IC del 95% per diverse differenze, è abbastanza sicuro affermare che non sono identici a un livello di 0,05.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.