Se usi una stima puntuale che massimizza


12

Se qualcuno ha detto

"Questo metodo utilizza il MLE la stima puntuale per il parametro che massimizza , quindi è frequentista; e inoltre non è bayesiano."P(x|θ)

sei d'accordo?

  • Aggiornamento sullo sfondo : di recente ho letto un documento che afferma di essere frequentatore. Non sono d'accordo con la loro affermazione, nella migliore delle ipotesi è ambigua. L'articolo non menziona esplicitamente né l'MLE (o la MAP , per quella materia). Prendono semplicemente una stima puntuale e procedono semplicemente come se questa stima puntuale fosse vera. Lo fanno nonfare qualsiasi analisi della distribuzione campionaria di questo stimatore o qualcosa del genere; il modello è piuttosto complesso e quindi probabilmente tale analisi non è possibile. Non usano neanche la parola "posteriore" in nessun punto. Prendono semplicemente questa stima puntuale al valore nominale e procedono al loro principale argomento di interesse - inferendo i dati mancanti. Non credo che ci sia qualcosa nel loro approccio che suggerisca quale sia la loro filosofia. Potrebbero aver voluto essere frequentisti (perché si sentono obbligati a indossare la loro filosofia sulla manica), ma il loro approccio effettivo è abbastanza semplice / conveniente / pigro / ambiguo. Sono propenso ora a dire che la ricerca non ha davvero alcuna filosofia dietro; invece penso che il loro atteggiamento fosse più pragmatico o conveniente:

    "Ho osservato i dati, , e desidero stimare alcuni dati mancanti, z . Esiste un parametro θ che controlla la relazione tra z e x . Non mi interessa davvero θ se non come mezzo per raggiungere un fine. Se ho una stima per θ che renderà più facile per predire z da x sceglierò una stima puntuale di. θ perché è comodo, in particolare la scelta del θ che massimizza P ( x | θ ) ".xzθzxθθzxθθ^P(x|θ)

L'idea di uno stimatore imparziale è chiaramente un concetto frequentista. Questo perché non condiziona i dati e descrive una proprietà gradevole (imparzialità) che sarebbe valida per tutti i valori del parametro.

Nei metodi bayesiani, i ruoli dei dati e del parametro sono invertiti. In particolare, ora condizioniamo i dati osservati e procediamo a fare inferenze sul valore del parametro. Ciò richiede un precedente.

Fin qui tutto bene, ma dove si inserisce il MLE (stima della massima verosimiglianza) in tutto questo? Ho l'impressione che molte persone sentano che è frequentista (o più precisamente, che non è bayesiano). Ma ritengo che sia bayesiano perché comporta il rilevamento dei dati osservati e la ricerca del parametro che massimizza . Il MLE sta implicitamente usando un precedente uniforme e condizionando i dati e massimizzando P ( p a r a m e t e rP(data|parameter) . È giusto dire che il MLE sembra sia frequentista che bayesiano? O ogni semplice strumento deve rientrare esattamente in una di queste due categorie?P(parameter|data)

L'MLE è coerente, ma ritengo che la coerenza possa essere presentata come un'idea bayesiana. Dati campioni arbitrariamente grandi, la stima converge sulla risposta corretta. L'istruzione "la stima sarà uguale al valore vero" vale per tutti i valori del parametro. La cosa interessante è che questa affermazione vale anche se si condizionano i dati osservati, rendendola bayesiana. Questo interessante lato vale per l'MLE, ma non per uno stimatore imparziale.

Questo è il motivo per cui ritengo che l'MLE sia il "più bayesiano" dei metodi che potrebbero essere descritti come frequentisti.

Ad ogni modo, la maggior parte delle proprietà del frequentista (come l'imparzialità) si applicano in tutti i casi, comprese le dimensioni del campione finito. Il fatto che la coerenza valga solo nello scenario impossibile (campione infinito all'interno di un esperimento) suggerisce che la coerenza non è una proprietà così utile.

Dato un campione realistico (cioè finito), esiste una proprietà Frequentist che vale per l'MLE? In caso contrario, il MLE non è realmente frequentatore.


6
La MLE non può essere considerata bayesiana a partire dall'interpretazione dei parametri in entrambi i paradigmi. Da una prospettiva bayesiana, un parametro è una variabile casuale mentre nell'impostazione classica è un valore da stimare. Il MLE coincide con il MAP (e probabilmente con altri stimatori bayesiani puntuali) in molti casi, ma l'interpretazione è completamente diversa.

3
@Procrastinator, dovresti pubblicare il tuo commento come risposta. Non mi aspetto di votarlo o accettarlo ancora, ma sento solo che il tuo commento è una risposta. Quindi, tu ed io potremmo cancellare i nostri commenti qui.
Aaron McDaid, il

1
Non capisco questa domanda. (Potrei essere solo in questo.) Esattamente cosa intendi per "frequentatore"? "Non bayesiano" non lo farà, perché comprende una vasta gamma di filosofie e metodi. Cosa rende qualcosa una "proprietà frequentista"? C'è qualche legame tra il tuo "frequentista" e, diciamo, un Abraham Wald o Jack Kiefer che giustifica le procedure statistiche con i principi teorici delle decisioni? (Kiefer, in particolare, aveva un'opinione piuttosto critica dell'MLE su questa base.)
whuber

3
@whuber: non sei solo. L'unico voto da chiudere è mio ed è stato emesso un giorno o due fa. A mio avviso, questa domanda è priva di chiarezza e attenzione e confina con non costruttiva a causa della sua inquadratura discorsiva e un po 'polemica.
cardinale il

1
I moderatori sono riluttanti a chiudere questa discussione perché ha raccolto molte risposte (inclusa una che era stata accettata!) E commenti, il che suggerisce che la comunità potrebbe non essere d'accordo con la tua nuova valutazione di questa discussione, Aaron.
whuber

Risposte:


7

O ogni semplice strumento deve rientrare esattamente in una di queste due categorie?

No. Strumenti semplici (e non così semplici) possono essere studiati da diversi punti di vista. La funzione di probabilità di per sé è una pietra miliare nelle statistiche bayesiane e frequentiste e può essere studiata da entrambi i punti di vista! Se vuoi, puoi studiare l'MLE come una soluzione approssimativa di Bayes, oppure puoi studiarne le proprietà con la teoria asintotica, in modo frequentista.


4
Aaron è sbagliato. I frequentatori utilizzano la stima della massima verosimiglianza e credono nel principio di verosimiglianza. Kjetil ha ragione nel ritenere che la funzione di verosimiglianza sia un elemento chiave dell'approccio infernale sia bayesiano che frequentista. Ma lo usano in modo diverso.
Michael R. Chernick,

3
Ho dato un'ottima risposta alla domanda di Aaron, ma per qualche strana ragione la gente lo sta votando. Non devono capire cosa sta succedendo. Non è possibile che la stima della massima verosimiglianza possa essere classificata come bayesiana poiché massimizza la verosimiglianza e non considera affatto le distribuzioni precedenti!
Michael R. Chernick,

4
(Ho appena cancellato un mio commento, sto cercando di assicurarmi di aggiungere solo commenti utili.) Michael, non ha senso lamentarsi dei voti negativi e non otterrai alcuna simpatia semplicemente dicendo "Non devono capire cosa continua ".
Aaron McDaid il

7
@Michael, hai mai assistito a un avanti e indietro produttivo che inizia con "perché sono stato downvoted"? Io sicuramente no. Ecco perché io (e molti altri membri qui) scoraggio anche a iniziare la conversazione, indipendentemente dal fatto che tu pensi che sia giustificato o meno. È inutile e generalmente porta a discussioni estese fuori tema.
Macro,

3
@Michael, sono certamente d'accordo sul fatto che è una cortesia comune dare una spiegazione, e provo a farlo se qualcun altro non ha già espresso la mia preoccupazione nei commenti. Ma se ricevi un downvote silenzioso, dubito che l'interrogazione dell'argomento inizierà una conversazione produttiva.
Macro,

10

Quando si esegue la stima della massima verosimiglianza, si considera il valore della stima e le proprietà di campionamento dello stimatore al fine di stabilire l'incertezza della stima espressa come intervallo di confidenza. Penso che questo sia importante per quanto riguarda la tua domanda perché un intervallo di confidenza dipenderà in generale da punti campione che non sono stati osservati, che alcuni sembrano essere una proprietà essenzialmente nonayayiana.

PS Questo è legato al fatto più generale che la stima della massima verosimiglianza (punto + intervallo) non soddisfa il principio di verosimiglianza , mentre un'analisi bayesiana completa (" stile selvaggio ").


+1. L'idea che il normale troncato si traduca in un diverso posteriore è interessante e sorprendente! Ho commentato che ero scettico, ma ho eliminato quel commento. Dovrò pensarci un po 'di più. Normalmente, trovo che il principio di verosimiglianza sia "ovviamente vero", quindi dovrei pensarci un po 'di più.
Aaron McDaid,

Buon punto Zen. Immagino che, come stima puntuale, la stima della massima verosimiglianza sia conforme al principio di verosimiglianza, ma la nozione frequente degli intervalli di confidenza no.
Michael R. Chernick,

@Zen, non sono convinto che i posteriori siano gli stessi. Hai un riferimento per questo? Ho creato un documento Google con la mia tesi che il posteriore cambierà quando sostituiamo una normale con una normale troncata. Grazie in anticipo.
Aaron McDaid,

6

La funzione di probabilità è una funzione che coinvolge i dati e i parametri sconosciuti. Può essere visto come la densità di probabilità per i dati osservati dato il valore (i) dei parametri. I parametri sono fissi. Quindi di per sé la probabilità è una nozione frequentista. Massimizzare la probabilità è solo trovare i valori specifici dei parametri che fanno assumere alla probabilità il suo valore massimo. Quindi la stima della massima verosimiglianza è un metodo frequentista basato esclusivamente sui dati e sulla forma del modello che si presume generino. La stima bayesiana si inserisce solo quando viene posizionata una distribuzione precedente sui parametri e la formula di Bayes viene utilizzata per ottenere una distribuzione aposteriore per i parametri combinando il precedente con la probabilità.


Tutti i commenti pubblicati qui sono stati spostati in una chat room dedicata . Se qualcuno ha difficoltà ad entrare in questa stanza, e solo in questo caso, si prega di segnalare l'attenzione del moderatore. Non saranno accettati ulteriori commenti.
chl

6

Supponendo che per "Bayesiano" si riferisca a Bayes soggettive (alias Epistemic Bayes, De-Finetti Bayes) e non all'attuale significato empirico di Bayes - è tutt'altro che banale. Da un lato, deduci solo sulla base dei tuoi dati. Non ci sono credenze soggettive a portata di mano. Questo sembra abbastanza frequente ... Ma la critica, espressa anche a Fisher stesso (un bayesiano non soggettivo), è che nella scelta della distribuzione campionaria della soggettività dei dati è strisciato dentro. Un parametro è definito solo dato il nostro convinzioni sul processo di generazione dei dati.

In conclusione, credo che l'MLE sia in genere considerato un concetto frequentista, sebbene si tratti semplicemente di come si definisce "frequentista" e "bayesiano".


+1: Questo è quello che stavo cercando di ottenere nel mio commento sopra.
Neil G,

1

(rispondendo alla propria domanda)

Uno stimatore è una funzione che accetta alcuni dati e produce un numero (o intervallo di numeri). Uno stimatore, di per sé, non è in realtà "bayesiano" o "frequentista": puoi pensarlo come una scatola nera in cui i numeri entrano e i numeri escono. Puoi presentare lo stesso stimatore a un frequentatore e a un bayesiano e avranno cose diverse da dire sullo stimatore.

(Non sono contento della mia semplicistica distinzione tra frequentista e bayesiano - ci sono altre questioni da considerare. Ma per semplicità, facciamo finta che siano solo due campi filosofici ben definiti.)

Non si può dire se un ricercatore sia frequentatore di bayesiano solo da quale stimatore scelgono. L'importante è ascoltare quali analisi fanno sullo stimatore e quali ragioni danno per scegliere quello stimatore.

θP(x|θ)

Quando lo stesso software viene presentato a un bayesiano, il bayesiano potrebbe essere felice con gran parte dell'analisi del frequentatore. Sì, a parità di altre condizioni, la distorsione non è buona e la coerenza è buona. Ma il bayesiano sarà più interessato ad altre cose. Il bayesiano vorrà vedere se lo stimatore assume la forma di una funzione di distribuzione posteriore; e in tal caso, quale precedente è stato utilizzato? Se lo stimatore si basa su un posteriore, il bayesiano si chiederà se il precedente è buono. Se sono contenti del precedente e se lo stimatore riporta la modalità del posteriore (al contrario, diciamo, della media del posteriore), sono felici di applicare questa interpretazione alla stima: "Questa stima è il punto stima che ha le migliori possibilità di essere corretta ".

Ho sentito spesso dire che i frequentatori e i bayesiani "interpretano" le cose in modo diverso, anche quando i numeri coinvolti sono gli stessi. Questo può essere un po 'confuso, e non penso che sia davvero vero. Le loro interpretazioni non sono in conflitto tra loro; fanno semplicemente dichiarazioni su diversi aspetti del sistema. Mettiamo da parte le stime dei punti per il momento e consideriamo invece gli intervalli. In particolare, ci sono intervalli di confidenza frequentista e intervalli credibili bayesiani . Di solito daranno risposte diverse. Ma in alcuni modelli, con alcuni priori, i due tipi di intervallo daranno la stessa risposta numerica.

Quando gli intervalli sono uguali, come possiamo interpretarli diversamente? Un frequentatore dirà di uno stimatore di intervallo:

Prima di vedere i dati o l'intervallo corrispondente, posso dire che esiste almeno una probabilità del 95% che il parametro vero sia contenuto nell'intervallo.

mentre un bayesiano dirà di uno stimatore di intervallo:

Dopo aver visto i dati o l'intervallo corrispondente, posso dire che esiste almeno una probabilità del 95% che il parametro vero sia contenuto nell'intervallo.

Queste due affermazioni sono identiche, a parte le parole "Prima" e "Dopo". Il bayesiano capirà e concorderà con la precedente affermazione e riconoscerà anche che la sua verità è indipendente da qualsiasi precedente, rendendola così "più forte". Ma parlando come bayesiano, mi preoccuperei che la precedente affermazione potrebbe non essere molto utile . Quest'ultima affermazione non piacerà al frequentatore, ma non la capisco abbastanza bene da fornire una descrizione equa delle obiezioni del frequentatore.

Dopo aver visto i dati, il frequentista sarà ancora ottimista sul fatto che il valore vero sia contenuto nell'intervallo? Forse no. Questo è un po 'controintuitivo, ma è importante per comprendere veramente gli intervalli di confidenza e altri concetti basati sulla distribuzione campionaria. Potresti presumere che il frequentatore continuerebbe a dire "Dati i dati, penso ancora che ci sia una probabilità del 95% che il vero valore sia in questo intervallo". Un frequentatore non si limiterebbe a chiedersi se questa affermazione sia vera, ma si chiederebbe anche se sia significativo attribuire le probabilità in questo modo. Se hai altre domande su questo, non chiedermelo, questo problema è troppo per me!

Il bayesiano è felice di fare questa affermazione: "Condizionamento dei dati che ho appena visto, la probabilità è del 95% che il valore reale sia compreso in questo intervallo".

Devo ammettere che sono un po 'confuso su un ultimo punto. Comprendo e condivido l'affermazione fatta dal frequentatore prima che i dati vengano visualizzati. Capisco e sono d'accordo con l'affermazione fatta dal bayesiano dopo che i dati sono stati visti. Tuttavia, non sono così sicuro di cosa dirà il frequentatore dopo che i dati saranno stati visti; cambieranno le loro credenze sul mondo? Non sono in grado di comprendere la filosofia frequentista qui.


1
Anche se trovo molto di questo chiaro e stimolante, sembra ignorare del tutto qualcosa di fondamentale, che è del tutto diverse interpretazioni della probabilità. Inoltre, gli ultimi due paragrafi non si applicano ad alcuna analisi o interpretazione che ho visto. In effetti, non riconosco alcun statistico praticante nel tuo "frequentista" (che suona piuttosto come un filosofo antico). Chi - almeno dopo Aristotele - ha mai detto che la loro analisi dei dati è completa prima che i dati siano stati ottenuti? È un uomo di paglia per aver tentato di far avanzare un approccio bayesiano?
whuber

1
@whuber, se è un uomo di paglia, non è intenzionale. È sempre difficile fare qualsiasi tentativo di riferire sulle opinioni degli altri senza includere accidentalmente un giudizio al riguardo. E non pretendo di avere un'ampia comprensione delle molte posizioni sfumate. Proverò a ripensare il mio ultimo paragrafo. Inoltre, dici che ho lasciato fuori "diverse interpretazioni della probabilità del tutto". Preferirei non dire niente che dire qualcosa di sbagliato. Non è possibile dire tutto. Posso provare a darti la verità e nient'altro che la verità, ma non posso darti tutta la verità :-)
Aaron McDaid,

(+1) Hai ragione, c'è un lungo dibattito qui e non si può coprire ogni punto in un post. Sto votando questa risposta per la sua esposizione attenta e ponderata (ma non perché sono d'accordo con tutto questo!).
whuber

Ho modificato gli ultimi paragrafi per cercare di essere più equo; da "Dopo aver visto i dati ..." in poi. Non sono un esperto, quindi sto cercando di essere onestamente vago dove sto uscendo dalla mia profondità. Grazie per il feedback.
Aaron McDaid,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.