Sto lavorando a un problema di inferenza ad alta dimensione (circa 2000 parametri del modello) per il quale siamo in grado di eseguire in modo robusto la stima MAP trovando il massimo globale del log-posteriore utilizzando una combinazione di ottimizzazione basata sul gradiente e un algoritmo genetico.
Mi piacerebbe molto poter fare una stima delle incertezze sui parametri del modello oltre a trovare la stima MAP.
Siamo in grado di calcolare in modo efficiente il gradiente del log-posteriore rispetto ai parametri, quindi a lungo termine miriamo a utilizzare l'MCMC Hamiltoniano per fare un po 'di campionamento, ma per ora sono interessato a stime non campionarie.
L'unico approccio che conosco è quello di calcolare l'inverso dell'assia nella modalità per approssimare il posteriore come multivariato normale, ma anche questo sembra impossibile per un sistema così grande, poiché anche se calcoliamo il elementi dell'Assia Sono sicuro che non siamo riusciti a trovare il suo contrario.
Qualcuno può suggerire che tipo di approcci sono tipicamente utilizzati in casi come questo?
Grazie!
EDIT : informazioni aggiuntive sul problema
Sfondo
Questo è un problema inverso relativo a un grande esperimento di fisica. Abbiamo una mesh triangolare 2D che descrive alcuni campi fisici e i nostri parametri del modello sono i valori fisici di quei campi su ciascun vertice della mesh. La mesh ha circa 650 vertici e modelliamo 3 campi, quindi ecco da dove provengono i nostri parametri del modello 2000.
I nostri dati sperimentali provengono da strumenti che non misurano direttamente questi campi, ma quantità che sono complicate funzioni non lineari dei campi. Per ciascuno dei diversi strumenti abbiamo un modello forward che mappa i parametri del modello con le previsioni dei dati sperimentali e un confronto tra la previsione e la misurazione produce una probabilità logaritmica.
Riassumiamo quindi le probabilità logaritmiche di tutti questi diversi strumenti e aggiungiamo anche alcuni valori precedenti al log che applicano alcuni vincoli fisici ai campi.
Di conseguenza dubito che questo "modello" rientri perfettamente in una categoria: non abbiamo una scelta di quale sia il modello, è dettato da come funzionano gli strumenti reali che raccolgono i nostri dati sperimentali.
Set di
dati Il set di dati è composto da 500x500 immagini e esiste un'immagine per ogni telecamera, quindi i punti di dati totali sono 500x500x4 = .
Modello di errore Al momento
riteniamo che tutti gli errori del problema siano gaussiani. Ad un certo punto potrei provare a passare a un modello di errore studentesco solo per una maggiore flessibilità, ma le cose sembrano ancora funzionare bene solo con i gaussiani.
Esempio di verosimiglianza
Questo è un esperimento di fisica del plasma e la stragrande maggioranza dei nostri dati proviene da telecamere puntate sul plasma con particolari filtri davanti alle lenti per guardare solo parti specifiche dello spettro luminoso.
Per riprodurre i dati ci sono due passaggi; prima dobbiamo modellare la luce che proviene dal plasma sulla rete, quindi dobbiamo modellare quella luce in un'immagine della telecamera.
La modellizzazione della luce che proviene dal plasma sfortunatamente dipende da quali siano effettivamente i coefficienti di velocità, che dicono quanta luce viene emessa dai diversi processi dati i campi. Queste tariffe sono previste da alcuni costosi modelli numerici, quindi dobbiamo archiviare il loro output su griglie e quindi interpolare per cercare valori. I dati della funzione rate vengono calcolati solo una volta: li memorizziamo quindi ne ricaviamo una spline all'avvio del codice e quindi quella spline viene utilizzata per tutte le valutazioni delle funzioni.
Supponiamo che e siano le funzioni di velocità (che valutiamo per interpolazione), quindi l'emissione -vertice della mesh è data da
dove sono i 3 campi che sulla mesh. Ottenere il vettore di emissioni nell'immagine di una telecamera è facile, è solo una moltiplicazione con una matrice che codifica le parti della mesh attraverso cui guarda ogni pixel della telecamera.
Poiché gli errori sono gaussiani, la probabilità logaritmica per questa particolare fotocamera è quindi
dove sono i dati della videocamera. La probabilità logaritmica totale è una somma di 4 delle espressioni precedenti ma per telecamere diverse, che hanno tutte versioni diverse delle funzioni di velocità perché stanno guardando parti diverse dello spettro luminoso.
Esempio precedente
Abbiamo vari priori che in effetti stabiliscono solo limiti superiori e inferiori su varie quantità, ma questi tendono a non agire troppo sul problema. Ne abbiamo uno precedente che agisce fortemente, che applica efficacemente il livellamento di tipo laplaciano ai campi. Prende anche una forma gaussiana: