La connessione tra statistica bayesiana e modellistica generativa


15

Qualcuno può riferirmi a un buon riferimento che spiega la connessione tra le statistiche bayesiane e le tecniche di modellazione generativa? Perché di solito usiamo modelli generativi con tecniche bayesiane?

Perché è particolarmente interessante utilizzare le statistiche bayesiane in assenza di dati completi, se non del tutto?

Nota che vengo da una visione più orientata all'apprendimento automatico e sono interessato a leggere di più al riguardo dalla community delle statistiche.

Ogni buon riferimento che discute questi punti sarebbe molto apprezzato. Grazie.


Ho esplorato la differenza fondamentale tra i modi di trasformazione adattativi e generativi. Sembra che Bayesian sia adatto come modello statistico per studiare adattivo ma non generativo. È necessario arrivare a questa conclusione in modo più sicuro.

1
Ciao Srinidhi, benvenuto nel sito. Questo è un sito di domande e risposte. Potresti riformulare il tuo commento in una domanda? Inoltre, più una domanda è specifica, più è probabile che ottenga una risposta utile.
naught101

Risposte:


12

Nell'apprendimento automatico un modello di probabilità completo p (x, y) è chiamato generativo perché può essere utilizzato per generare i dati, mentre un modello condizionale p (y | x) è chiamato discriminativo perché non specifica un modello di probabilità per p (x ) e può generare solo y dato x. Entrambi possono essere stimati alla moda bayesiana.

La stima bayesiana riguarda intrinsecamente la specifica di un modello di probabilità completo e l'esecuzione dell'inferenza in base al modello e ai dati. Ciò fa sì che molti modelli bayesiani abbiano un aspetto generativo. Tuttavia per un bayesiano l'importante distinzione non riguarda tanto come generare i dati, ma piuttosto ciò che è necessario per ottenere la distribuzione posteriore dei parametri di interesse sconosciuti.

Il modello discriminativo p (y | x) fa parte del modello più grande in cui p (y, x) = p (y | x) p (x). In molti casi, p (x) è irrilevante per la distribuzione posteriore dei parametri nel modello p (y | x). In particolare, se i parametri di p (x) sono distinti da p (y | x) e i priori sono indipendenti, allora il modello p (x) non contiene informazioni sui parametri sconosciuti del modello condizionale p (y | x), quindi un bayesiano non ha bisogno di modellarlo.


A un livello più intuitivo, esiste un chiaro legame tra "generazione di dati" e "calcolo della distribuzione posteriore". Rubin (1984) fornisce la seguente eccellente descrizione di questo link:

inserisci qui la descrizione dell'immagine


Le statistiche bayesiane sono utili dati dati mancanti soprattutto perché fornisce un modo unificato per eliminare i parametri di disturbo: l'integrazione. I dati mancanti possono essere considerati come (molti) parametri fastidiosi. Le proposte alternative come l'inserimento del valore atteso in genere avranno prestazioni scarse perché raramente possiamo stimare celle di dati mancanti con elevati livelli di precisione. Qui, l'integrazione è meglio della massimizzazione.

Anche i modelli discriminatori come p (y | x) diventano problematici se x include dati mancanti perché abbiamo solo dati per stimare p (y | x_obs) ma i modelli più sensibili sono scritti rispetto ai dati completi p (y | x). Se hai un modello di probabilità completamente p (y, x) e sei bayesiano, allora stai bene perché puoi semplicemente integrare i dati mancanti come faresti con qualsiasi altra quantità sconosciuta.


2

@Tristan: Spero che non ti dispiaccia la mia rielaborazione della tua risposta mentre sto lavorando su come rendere il punto generale il più trasparente possibile.

Per me, il primariola comprensione delle statistiche consiste nel concettualizzare osservazioni ripetute che variano - come generate da un modello che genera probabilità, come Normale (mu, sigma). All'inizio del 1800, i modelli generatori di probabilità intrattenuti erano generalmente solo per errori di misurazione con il ruolo di parametri, come mu e sigma e priors per loro confusi. Gli approcci frequentisti prendevano i parametri come fissi e sconosciuti e quindi i modelli generatori di probabilità riguardavano solo possibili osservazioni. Gli approcci bayesiani (con priori propri) hanno modelli generatori di probabilità sia per possibili parametri sconosciuti che per possibili osservazioni. Questi modelli generatori di probabilità congiunti spiegano in modo esauriente tutte le incognite (per dirla più in generale) possibili (come parametri) e note (come le osservazioni). Come nel link di Rubin che hai dato,

Questo in realtà fu molto chiaramente rappresentato da Galton in un quinconce a due stadi alla fine del 1800, s. Vedi figura 5> Stigler, Stephen M. 2010. Darwin, Galton e la statistica

l'illuminazione. Giornale della Royal Statistical Society: Serie A 173 (3): 469-482 . .

È equivalente ma forse più trasparente

posteriore = precedente (possibili incognite | possibili noti = noti)

di posteriore ~ ​​precedente (possibili incognite) * p (possibili noti = noti | possibili incognite)

Nulla di molto nuovo per i valori mancanti nel primo dato che si aggiungono possibili incognite per un modello di probabilità che genera valori mancanti e tratta i dispersi come solo uno dei possibili noti (ovvero mancava la terza osservazione).

Recentemente, il calcolo approssimativo bayesiano (ABC) ha preso sul serio questo approccio di simulazione costruttiva a due stadi quando p (possibili conosciuti = noti | possibili incognite) non può essere elaborato. Ma anche quando questo può essere risolto e il posteriore facilmente ottenibile dal campionamento MCMC (o anche quando il posteriore è direttamente disponibile a causa del precedente coniugato), il punto di Rubin su questa costruzione di campionamento a due stadi che consente una comprensione più semplice, non deve essere trascurato.

Ad esempio, sono sicuro che avrebbe colto ciò che @Zen ha fatto qui Bayesiani: schiavi della funzione di verosimiglianza? perché uno avrebbe bisogno di trarre un possibile sconosciuto c da un precedente (fase uno) e quindi disegnare un possibile noto (dati) dato che c (fase 2) che non sarebbe stata una generazione casuale come p (possibili conosciuti | c) non è stata una probabilità tranne una e una sola c.

fXio|C(|c) c

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.