Quando (e perché) i bayesiani rifiutano validi metodi bayesiani? [chiuso]


9

Da quello che ho letto e dalle risposte ad altre domande che ho posto qui, molti cosiddetti metodi frequentisti corrispondono matematicamente ( non mi importa se corrispondono filosoficamente , mi importa solo se corrisponde matematicamente) a casi speciali del cosiddetto Metodi bayesiani (per coloro che si oppongono a questo, vedere la nota in fondo a questa domanda). Questa risposta a una domanda correlata (non la mia) supporta questa conclusione:

I metodi più frequenti hanno un equivalente bayesiano che nella maggior parte dei casi darà essenzialmente lo stesso risultato.

Si noti che in quanto segue, essere matematicamente lo stesso significa dare lo stesso risultato. Se caratterizzi due metodi che possono essere dimostrati per dare sempre gli stessi risultati di "diversi", questo è il tuo diritto, ma quello è un giudizio filosofico, non matematico né pratico.

Molte persone che si autodescrivono come "bayesiani", tuttavia, sembrano rifiutare di utilizzare la stima della massima verosimiglianza in qualsiasi circostanza, anche se si tratta di un caso speciale di metodi ( matematicamente ) bayesiani, poiché si tratta di un "metodo frequentista". Apparentemente i bayesiani usano anche un numero limitato / limitato di distribuzioni rispetto ai frequentisti, anche se tali distribuzioni sarebbero anche matematicamente corrette dal punto di vista bayesiano.

Domanda: quando e perché i bayesiani rifiutano metodi matematicamente corretti dal punto di vista bayesiano? C'è qualche giustificazione per questo che non è "filosofica"?

inserisci qui la descrizione dell'immagine

Background / Contesto: Di seguito sono citazioni da risposte e commenti a una mia precedente domanda su CrossValidated :

La base matematica per il dibattito bayesiano vs frequentista è molto semplice. Nelle statistiche bayesiane il parametro sconosciuto è trattato come una variabile casuale; nelle statistiche frequentiste viene trattato come un elemento fisso ...

Da quanto sopra avrei concluso che i metodi bayesiani ( matematicamente parlando ) sono più generali di quelli frequentisti, nel senso che i modelli frequentisti soddisfano tutti gli stessi presupposti matematici di quelli bayesiani, ma non viceversa. Tuttavia, la stessa risposta ha sostenuto che la mia conclusione da quanto precede era errata (l'enfasi in ciò che segue è la mia):

Sebbene la costante sia un caso speciale di una variabile casuale, esiterei a concludere che il bayesianismo è più generale. Non otterresti risultati frequentatori da quelli bayesiani semplicemente comprimendo la variabile casuale in una costante. La differenza è più profonda ...

Andando alle preferenze personali ... Non mi piace che le statistiche bayesiane utilizzino un sottoinsieme limitato di distribuzioni disponibili.

Un altro utente, nella loro risposta, ha affermato il contrario, secondo cui i metodi bayesiani sono più generali, anche se stranamente il motivo migliore per cui ho potuto scoprire perché questo potrebbe essere il caso era nella risposta precedente, data da qualcuno addestrato come frequentatore.

La conseguenza matematica è che i frequentisti pensano che le equazioni di base della probabilità si applichino solo a volte, e i bayesiani pensano che si applichino sempre. Quindi vedono le stesse equazioni come corrette, ma differiscono da quanto sono generali ... Bayesian è strettamente più generale di Frequentist. Poiché può esserci incertezza su qualsiasi fatto, a qualsiasi fatto può essere assegnata una probabilità. In particolare, se i fatti su cui stai lavorando sono correlati alle frequenze del mondo reale (sia come qualcosa che stai predicendo o parte dei dati), i metodi bayesiani possono considerarli e usarli proprio come farebbero con qualsiasi altro fatto del mondo reale. Di conseguenza, qualsiasi problema che i frequentatori ritengono che i loro metodi si applichino ai bayesiani possono anche lavorare naturalmente.

Dalle risposte di cui sopra, ho l'impressione che ci siano almeno due diverse definizioni del termine bayesiano comunemente in uso. Il primo che chiamerei "matematicamente bayesiano" che comprende tutti i metodi di statistica, poiché include parametri che sono camper costanti e quelli che non sono camper costanti. Poi c'è "culturalmente bayesiano" che rifiuta alcuni metodi "matematicamente bayesiani" perché tali metodi sono "frequentisti" (cioè per animosità personale rispetto al parametro che talvolta viene modellato come costante o frequenza). Un'altra risposta alla domanda di cui sopra sembra supportare anche questa congettura:

È anche da notare che ci sono molte divisioni tra i modelli utilizzati dai due campi che è più correlato a ciò che è stato fatto rispetto a ciò che può essere fatto (vale a dire che molti modelli che sono tradizionalmente utilizzati da un campo possono essere giustificati dall'altro campo ).

Quindi immagino che un altro modo di esprimere la mia domanda sarebbe il seguente: Perché i bayesiani culturali si definiscono bayesiani se rifiutano molti metodi matematicamente bayesiani? E perché rifiutano questi metodi matematicamente bayesiani? È l'animosità personale per le persone che usano più spesso quei metodi particolari?

iforniscono gli stessi valori per la stima, sono matematicamente equivalenti, perché hanno le stesse proprietà . Forse la differenza filosofica è rilevante per te personalmente, ma non è rilevante per questa domanda.

Nota: questa domanda originariamente presentava una caratterizzazione errata della stima MLE e della stima MAP con un precedente uniforme.


8
Pr(θ[0,1]y)θy

3

5
MLE e MAP non hanno le stesse proprietà matematiche. Se si riparametrizzano le variabili, MLE e MAP si trasformano in modo diverso (poiché MLE ha un "precedente piatto" in ogni parametrizzazione, MAP non lo fa). La definizione di un oggetto matematico include il comportamento dell'oggetto sotto operatori come la trasformazione di variabili (ad es. Vedere la definizione di un tensore). Quindi sono non la stessa cosa.
lacerbi,

2
Farò una risposta (breve), dal momento che è sorprendente che nessuno lo abbia menzionato finora. Ho anche dovuto spiegarlo molte volte in passato, dal momento che è una sottigliezza che può essere facilmente persa.
lacerbi,

4
Hai mai giocato a dama con un set di scacchi? Di tanto in tanto può capitare di trovarsi in una posizione di scacchi valida e di effettuare una mossa di scacchi legale che è anche una mossa di bozze legali. Naturalmente quella che sarebbe una buona mossa degli scacchi non sarà sempre una buona mossa. E non eviterai di fare una buona mossa di bozze solo perché è anche una mossa di scacchi. Questo è piuttosto diverso dalla descrizione di una partita a scacchi in francese piuttosto che in inglese, o dalla rotazione della scacchiera in modo che i quadrati neri diventino bianchi o scambiando le posizioni e le regole iniziali che regolano il ...
Scortchi - Reinstate Monica

Risposte:


12

Vorrei correggere un'ipotesi errata nel post originale, un errore che è relativamente comune. L'OP afferma:

Da quello che ho letto e dalle risposte ad altre domande che ho posto qui, la stima della massima verosimiglianza corrisponde matematicamente (non mi importa se corrisponde filosoficamente, mi interessa solo se corrisponde matematicamente) alla stima a priori massima usando un precedente uniforme ( per coloro che si oppongono a questo, vedere la nota in fondo a questa domanda).

E la nota in fondo al post dice:

Due oggetti sono equivalenti in senso matematico se hanno le stesse proprietà, indipendentemente da come sono costruiti. [...]

La mia obiezione è che, a parte la filosofia, la stima della massima verosimiglianza (MLE) e la stima massima a posteriori (MAP) non hanno le stesse proprietà matematiche.

Fondamentalmente, MLE e MAP si trasformano in modo diverso in una riparametrizzazione (non lineare) dello spazio. Ciò accade perché MLE ha un "precedente piatto" in ogni parametrizzazione, mentre MAP non lo fa (il precedente si trasforma in densità di probabilità , quindi esiste un termine giacobino).

La definizione di un oggetto matematico include il comportamento dell'oggetto sotto operatori come la trasformazione di variabili (ad es. Vedere la definizione di un tensore ).

In conclusione, MLE e MAP non sono la stessa cosa, né filosoficamente né matematicamente; questa non è un'opinione.


Penso che forse mi sia sfuggito il tuo punto. È possibile parametrizzare un modello in modo tale che le stime dei punti di MLE non siano uguali a quelle di MAP con un precedente uniforme? (Chiaramente, nel caso MAP, il priore deve essere uniforme rispetto all'attuale parametrizzazione per far funzionare l'uguaglianza. Se si riparametrizza il modello senza cambiare il precedente, allora in generale non sarà più uniforme.)
Kodiologo il

1
@Kodiologist: l'OP stava affermando che MAP e MLE sono identici "oggetti matematici". Non sono. Oggetti matematici distinti possono essere uguali in un sottospazio (ad es. In una data parametrizzazione) ma ciò non li rende identici. Potresti dire "Non mi importa di altre parametrizzazioni" ma, beh, allora stai imponendo una forte restrizione pratica, non è più "semplicemente" un punto filosofico come l'OP stava inizialmente sostenendo.
Lacerbi,

6

Personalmente sono un "pragmatico" piuttosto che un "frequentatore" o un "bayesiano", quindi non posso pretendere di parlare per nessun campo.

Detto questo, penso che la distinzione a cui stai alludendo probabilmente non è tanto MLE vs. MAP, ma tra stime puntuali e stima di PDF posteriori . Come scienziato che lavora in un campo con dati scarsi e grandi incertezze, posso provare simpatia per non voler dare troppa fiducia ai risultati della "migliore ipotesi" che possono essere fuorvianti, con conseguente eccessiva fiducia.

Una distinzione pratica correlata è tra metodi parametrici e non parametrici . Quindi, ad esempio, penso che sia il filtro di Kalman sia il filtro di particelle sarebbero accettati come stima bayesiana ricorsiva . Ma l'assunzione gaussiana del filtraggio di Kalman (un metodo parametrico) può dare risultati molto fuorvianti se il posteriore non è unimodale. Per me questo tipo di esempi di ingegneria evidenzia dove le differenze non sono né filosofiche né matematiche, ma si manifestano in termini di risultati pratici (cioè il tuo veicolo autonomo si schianterà?). Per gli appassionati bayesiani con cui ho familiarità, questo atteggiamento "vedi cosa funziona" sembra essere predominante ... non sono sicuro che ciò sia vero in senso lato.


1
Se il rumore è modellato in gaussiano o da un'altra distribuzione non è ciò che determina se un metodo è parametrico o non parametrico.
Cliff AB,

1
Stavo pensando al filtro antiparticolato e al filtro Kalman.
GeoMatt22,

1
@CliffAB Ho modificato la mia risposta per risolvere, si spera, l'implicazione non intenzionale che "Gaussian <==> parametric"
GeoMatt22

2
Nella mia esperienza (per niente esaustiva!), I libri rivolti agli ingegneri nelle aree "tecnologiche" tendono ad essere più simili a questo. Cose come la robotica e altre applicazioni in tempo reale / robuste tendono a scoprire rapidamente quando le cose non funzionano. Probabilmente è nominalmente più bayesiano, ma la robotica probabilistica di Sebastian Thrun mi ha illuminato. È il ragazzo di Udacity .
GeoMatt22,

2
Non ho studiato affatto quest'area, ma la mia impressione è che gran parte dell'ingegneria dell'affidabilità classica utilizzi approcci "frequentisti", quindi questa potrebbe anche essere un'area con testi pragmatici?
GeoMatt22,

6

Molte persone che si autodescrivono come "bayesiani", tuttavia, sembrano rifiutare di utilizzare la stima della massima verosimiglianza in qualsiasi circostanza, anche se si tratta di un caso speciale di metodi (matematicamente) bayesiani, poiché si tratta di un "metodo frequentista".

Queste persone rifiuterebbero l'MLE come metodo generale per fare stime puntuali. In casi particolari in cui avevano motivo di utilizzare un precedente uniforme e volevano fare una stima massima a posteriori, non sarebbero stati affatto disturbati dalla coincidenza dei loro calcoli con MLE.

Apparentemente i bayesiani usano anche un numero limitato / limitato di distribuzioni rispetto ai frequentisti, anche se tali distribuzioni sarebbero anche matematicamente corrette dal punto di vista bayesiano.

Forse a volte, per facilitare i loro calcoli, ma non da nessun punto di principio.

Ho l'impressione che ci siano almeno due diverse definizioni del termine bayesiano comunemente in uso. Il primo che chiamerei "matematicamente bayesiano" che comprende tutti i metodi di statistica, poiché include parametri che sono camper costanti e quelli che non sono camper costanti. Poi c'è "culturalmente bayesiano" che rifiuta alcuni metodi "matematicamente bayesiani" perché tali metodi sono "frequentisti" (cioè per animosità personale rispetto al parametro che talvolta viene modellato come costante o frequenza).

Vi sono certamente delle distinzioni da fare tra i diversi approcci all'inferenza bayesiana, ma non questo. Se c'è un senso in cui il bayesianismo è più generale, è nella volontà di applicare il concetto di probabilità all'incertezza epistemica sui valori dei parametri e non solo all'incertezza aleatoria del processo di generazione dei dati che è tutto ciò che interessa il frequentismo. L'inferenza frequentista non è un caso speciale di inferenza bayesiana e nessuna delle risposte o dei commenti su Esistono basi matematiche per il dibattito bayesiano vs frequentista?stanno insinuando che lo sia. Se in un approccio bayesiano dovessi considerare il parametro una variabile casuale costante, otterresti lo stesso posteriore qualunque siano i dati— e dire che è costante ma non sai quale valore abbia non sarebbe dire vale la pena dire. L'approccio frequentista assume un approccio completamente diverso e non prevede affatto il calcolo delle distribuzioni posteriori.


"L'approccio frequentista ha un approccio completamente diverso e non implica affatto il calcolo delle distribuzioni posteriori", ma non è questo il punto. Non sto parlando di intento filosofico, sto parlando di equivalenza matematica. Qualcuno potrebbe dire di essere un "sottrattivista" perché aggiunge e sottrae solo numeri positivi ma rifiuta di usare numeri negativi, che è "negativista". Filosoficamente potrebbe essere il caso, ma sottrarre matematicamente un numero positivo equivale ad aggiungerne uno negativo.
Chill2Macht,

Quello che sto cercando di dire è che "matematicamente bayesiano" applicherà e non applicherà il concetto di probabilità all'incertezza epistemica sui valori dei parametri. "Culturalmente bayesiano" applicherà (e non si applicherà mai) il concetto di probabilità all'incertezza epistemica sui valori dei parametri. "Frequentista" non applicarebbe (e non applicherà mai) la probabilità all'incertezza epistemica sui valori dei parametri. Quello che sto dicendo è che sia "inferenza bayesiana = culturalmente bayesiana" sia "frequentista" sembrano un caso speciale basato su ciò che la gente dice.
Chill2Macht,

Ad ogni modo, credo che proverò a leggere le Statistiche asintotiche di van der Vaart prima di commentare ulteriormente le statistiche dei frequentisti, ma avendo già letto Casella e Berger e zero libri di testo bayesiani, non capisco l'affermazione secondo cui "l'approccio del frequentatore assume un approccio completamente diverso" da applicare il concetto di probabilità "solo all'incertezza aleatoria del processo di generazione dei dati", poiché sembra contraddire le altre parti di ciò che hai scritto.
Chill2Macht,

2
35

2
Modes of Parametric Statistical Inference , & Barnett (1999), Comparative Statistical Inference . (4) L'approccio frequentista considera solo la probabilità dei dati in base a determinati valori di parametro; l'approccio bayesiano condiziona i dati osservati per ottenere un posteriore.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.