È vero che i metodi bayesiani non si adattano troppo?


25

È vero che i metodi bayesiani non si adattano troppo? (Ho visto alcuni documenti ed esercitazioni che fanno questa affermazione)

Ad esempio, se applichiamo un processo gaussiano a MNIST (classificazione delle cifre scritte a mano), ma mostriamo solo un singolo campione, tornerà alla distribuzione precedente per qualsiasi input diverso da quel singolo campione, per quanto piccola sia la differenza?


Stavo solo pensando: esiste un modo matematicamente preciso che puoi definire "troppo adatto"? se è possibile, è probabile che tu possa anche incorporare funzionalità in una funzione di probabilità o prima di evitare che ciò accada. il mio pensiero è che questa nozione sembra simile a "valori anomali".
Probislogic

Risposte:


25

No, non è vero. I metodi bayesiani sicuramente supereranno i dati. Ci sono un paio di cose che rendono i metodi bayesiani più robusti contro il sovradimensionamento e puoi renderli anche più fragili.

La natura combinatoria delle ipotesi bayesiane, piuttosto che delle ipotesi binarie, consente confronti multipli quando a qualcuno manca il modello "vero" per i metodi di ipotesi nulla. Un posteriore bayesiano penalizza efficacemente un aumento della struttura del modello, come l'aggiunta di variabili, mentre premia i miglioramenti in forma. Le penalità e i guadagni non sono ottimizzazioni come nel caso dei metodi non bayesiani, ma spostano le probabilità dalle nuove informazioni.

Sebbene in genere ciò fornisca una metodologia più solida, esiste un vincolo importante che utilizza distribuzioni precedenti appropriate. Mentre c'è la tendenza a voler imitare i metodi Frequentist usando flat priors, questo non assicura una soluzione adeguata. Ci sono articoli sul sovradimensionamento nei metodi bayesiani e mi sembra che il peccato sembri essere nel cercare di essere "equi" con i metodi non bayesiani a partire da priori rigorosamente piatti. La difficoltà è che il priore è importante per normalizzare la probabilità.

I modelli bayesiani sono modelli intrinsecamente ottimali nel senso di ammissibilità della parola di Wald, ma c'è un uomo nero nascosto dentro. Wald presume che il priore sia il tuo vero priore e non un po 'prima che tu lo stia usando, in modo che gli editori non ti diano per averci inserito troppe informazioni. Non sono ottimali nello stesso senso dei modelli frequentisti. I metodi per frequentisti iniziano con l'ottimizzazione di minimizzare la varianza rimanendo comunque imparziali.

Questa è una costosa ottimizzazione in quanto elimina le informazioni e non è intrinsecamente ammissibile nel senso di Wald, sebbene spesso sia ammissibile. Quindi i modelli frequentistant forniscono un adattamento ottimale ai dati, data l'imparzialità. I modelli bayesiani non sono né imparziali né ottimali per i dati. Questo è lo scambio che stai facendo per ridurre al minimo il sovrautilizzo.

I modelli bayesiani sono modelli intrinsecamente distorti, a meno che non vengano presi provvedimenti speciali per renderli imparziali, che di solito si adattano meglio ai dati. La loro virtù è che non usano mai meno informazioni di un metodo alternativo per trovare il "vero modello" e queste informazioni aggiuntive rendono i modelli bayesiani mai meno rischiosi rispetto ai modelli alternativi, in particolare quando si lavora fuori dal campione. Detto questo, esisterà sempre un campione che avrebbe potuto essere estratto casualmente e che avrebbe "ingannato" sistematicamente il metodo bayesiano.

Per quanto riguarda la seconda parte della tua domanda, se dovessi analizzare un singolo campione, il posteriore verrebbe modificato per sempre in tutte le sue parti e non tornerebbe al precedente a meno che non ci fosse un secondo campione che cancellasse esattamente tutte le informazioni nella primo campione. Almeno in teoria questo è vero. In pratica, se il precedente è sufficientemente informativo e l'osservazione sufficientemente non informativa, l'impatto potrebbe essere così piccolo che un computer non potrebbe misurare le differenze a causa della limitazione del numero di cifre significative. È possibile che un effetto sia troppo piccolo per consentire a un computer di elaborare un cambiamento nella parte posteriore.

Quindi la risposta è "sì", puoi equipaggiare un campione con un metodo bayesiano, in particolare se hai una piccola dimensione del campione e priori impropri. La seconda risposta è "no", il teorema di Bayes non dimentica mai l'impatto dei dati precedenti, anche se l'effetto potrebbe essere così piccolo da non vederlo dal punto di vista computazionale.


2
In Cominciano con l'ottimizzazione di minimizzare la varianza rimanendo imparziale. , Ciò che è loro ?
Richard Hardy,

Solo pochissimi modelli (essenzialmente un set con misura zero) consentono la formazione di stimatori imparziali. Ad esempio, in un normale modello , non esiste uno stimatore imparziale di . In effetti, la maggior parte delle volte massimizziamo una probabilità, finiamo con uno stimatore distorto. σN(θ,σ2)σ
Andrew M,

1
@AndrewM: V'è uno stimatore in un modello normale - stats.stackexchange.com/a/251128/17230 . σ
Scortchi - Ripristina Monica

11

Qualcosa di cui essere consapevoli è che come praticamente ovunque, un problema significativo nei metodi bayesiani può essere la mancata specificazione del modello.

Questo è un punto ovvio, ma ho pensato di condividere ancora una storia.

Una vignetta di ritorno a ...

Un'applicazione classica del filtro antiparticolato bayesiano consiste nel tracciare la posizione di un robot mentre si muove in una stanza. Il movimento espande l'incertezza mentre le letture dei sensori riducono l'incertezza.

Ricordo di aver codificato alcune routine per farlo. Ho scritto un modello sensato, teoricamente motivato, per la probabilità di osservare varie letture del sonar dati i veri valori. Tutto è stato esattamente derivato e codificato magnificamente. Poi vado a testarlo ...

Quello che è successo? Fallimento totale! Perché? Il mio filtro antiparticolato pensò rapidamente che le letture del sensore avevano eliminato quasi tutte le incertezze. La mia nuvola di punti è crollata a un certo punto, ma il mio robot non era necessariamente a quel punto!

Fondamentalmente, la mia funzione di probabilità era cattiva; le letture dei miei sensori non erano così istruttive come pensavo. Ero troppo adatto. Una soluzione? Ho mescolato un sacco di rumore gaussiano (in modo piuttosto ad-hoc), la nuvola di punti ha smesso di crollare e quindi il filtro ha funzionato in modo piuttosto bello.

Morale?

Come disse Box, "tutti i modelli sono sbagliati, ma alcuni sono utili". Quasi certamente, non avrai la vera funzione di verosimiglianza, e se è sufficientemente off, il tuo metodo bayesiano potrebbe andare terribilmente storto e troppo adatto.

L'aggiunta di un precedente non risolve magicamente i problemi derivanti dall'ipotesi che le osservazioni siano IID quando non lo sono, supponendo che la probabilità abbia più curvatura di quanto non faccia ecc.


3
"Una vignetta di ritorno agli studi universitari ... Un'applicazione classica del filtro antiparticolato bayesiano consiste nel tracciare la posizione di un robot mentre si muove in una stanza" ... whoa, dov'era il tuo studente universitario? :)
Cliff AB,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.