C'è qualche differenza tra frequentista e bayesiano nella definizione di verosimiglianza?


21

Alcune fonti affermano che la funzione di verosimiglianza non è una probabilità condizionata, altre lo dicono. Questo è molto confuso per me.

Secondo la maggior parte delle fonti che ho visto, la probabilità di una distribuzione con il parametro dovrebbe essere un prodotto delle funzioni di massa di probabilità dati n campioni di x i :θnxi

L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ)

Ad esempio nella regressione logistica, utilizziamo un algoritmo di ottimizzazione per massimizzare la funzione di probabilità (stima della massima verosimiglianza) per ottenere i parametri ottimali e quindi il modello LR finale. Dati gli campioni di addestramento, che riteniamo indipendenti l'uno dall'altro, vogliamo massimizzare il prodotto delle probabilità (o le funzioni di massa delle probabilità congiunte). Questo mi sembra abbastanza ovvio.n

Secondo la relazione tra: probabilità, probabilità condizionale e tasso di fallimento , "la probabilità non è una probabilità e non è una probabilità condizionale". Ha anche menzionato che "la probabilità è una probabilità condizionata solo nella comprensione bayesiana della probabilità, vale a dire se si assume che sia una variabile casuale".θ

Ho letto delle diverse prospettive di trattare un problema di apprendimento tra frequentista e bayesiano.

Secondo una fonte, per l'inferenza bayesiana, abbiamo a priori , probabilità P ( X | θ ) e vogliamo ottenere la P posteriore ( θ | X ) , usando il teorema bayesiano:P(θ)P(X|θ)P(θ|X)

P(θ|X)=P(X|θ)×P(θ)P(X)

Non ho familiarità con l'inferenza bayesiana. Come mai che è la distribuzione dei dati osservati subordinata ai suoi parametri, viene anche definita probabilità? In Wikipedia , a volte dice che è scritto L ( θ | X ) = p ( X | θ ) . Cosa significa questo?P(X|θ)L(θ|X)=p(X|θ)

c'è una differenza tra le definizioni di Frequentist e Bayesian sulla probabilità ??

Grazie.


MODIFICARE:

Esistono diversi modi di interpretare il teorema di Bayes: l'interpretazione bayesiana e l'interpretazione frequentista (Vedi: teorema di Bayes - Wikipedia ).


2
Due proprietà chiave della probabilità sono che (a) che è una funzione di per una X particolare anziché viceversa, e (b) può essere conosciuto solo fino a una costante positiva di proporzionalità. Non è una probabilità (condizionale o meno), perché non ha bisogno di sommare o integrare 1 in tutto θθX1θ
Henry,

Risposte:


24

Non c'è alcuna differenza nella definizione : in entrambi i casi, la funzione di verosimiglianza è una qualsiasi funzione del parametro proporzionale alla densità di campionamento. A rigor di termini non richiediamo che la probabilità sia uguale alla densità di campionamento; deve essere solo proporzionale, il che consente la rimozione di parti moltiplicative che non dipendono dai parametri.

Mentre la densità di campionamento viene interpretata come una funzione dei dati, subordinata a un valore specificato del parametro, la funzione di probabilità viene interpretata come una funzione del parametro per un vettore di dati fisso. Quindi nel caso standard dei dati IID hai:

Lx(θ)i=1np(xi|θ).

Nelle statistiche bayesiane, di solito esprimiamo il teorema di Bayes nella sua forma più semplice come:

π(θ|x)π(θ)Lx(θ).

Questa espressione per il teorema di Bayes sottolinea che entrambi i suoi elementi multilicativi sono funzioni del parametro, che è l'oggetto di interesse nella densità posteriore. (Questo risultato di proporzionalità definisce completamente la regola, dal momento che il posteriore è una densità, e quindi esiste una costante moltiplicativa unica che la rende integrata a una.) Come fai notare nel tuo aggiornamento, la filosofia bayesiana e frequentista hanno strutture interpretative diverse. All'interno del paradigma frequentista il parametro è generalmente trattato come una "costante fissa" e quindi non viene attribuita una misura di probabilità. I frequentatori pertanto rifiutano l'attribuzione di una distribuzione precedente o posteriore al parametro (per ulteriori discussioni su queste differenze filosofiche e interpretative, vedi ad esempio O'Neill 2009 ).


14

L(θ;x)L(θ|x)θx(θ,x)xθ

Per citare più fonti autorevoli e storiche di una precedente risposta su questo forum,

"Possiamo discutere la probabilità del verificarsi di quantità che possono essere osservate ... in relazione a qualsiasi ipotesi che possa essere suggerita per spiegare queste osservazioni. Non possiamo sapere nulla della probabilità di ipotesi ... [Possiamo] accertare la probabilità di ipotesi ... mediante il calcolo delle osservazioni: ... parlare della probabilità ... di una quantità osservabile non ha significato. " RA Fisher, sul `` probabile errore '' di un coefficiente di correlazione dedotto da un piccolo campione . Metron 1, 1921, p.25

e

"Ciò che possiamo trovare da un campione è la probabilità di un valore particolare di r, se definiamo la probabilità come una quantità proporzionale alla probabilità che, da una popolazione con il valore particolare di r, un campione con il valore osservato di r , dovrebbe essere ottenuto. " RA Fisher, sul `` probabile errore '' di un coefficiente di correlazione dedotto da un piccolo campione . Metron 1, 1921, p.24

che menziona una proporzionalità che Jeffreys (e io) ritengono superflua:

"... probabilità, un termine conveniente introdotto dal professor RA Fisher, sebbene nel suo uso sia talvolta moltiplicato per un fattore costante. Questa è la probabilità delle osservazioni date le informazioni originali e l'ipotesi in discussione." H. Jeffreys, Theory of Probability , 1939, p.28

Per citare solo una frase dall'eccellente voce storica sull'argomento di John Aldrich (Statistical Science, 1997):

"Fisher (1921, p. 24) ha riformulato ciò che aveva scritto nel 1912 sulla probabilità inversa, distinguendo tra le operazioni matematiche che possono essere eseguite su densità di probabilità e probabilità: la probabilità non è un" elemento differenziale ", non può essere integrata ". J. Aldrich, RA Fisher e Making of Maximum Likelihood 1912-1922 , 1997 , p.9

xθθxθθθπ()XxL(θ|)θ(θ,x)

π(θ)×L(θ|x)
θθx
π(θ|x)π(θ)×L(θ|x)
posteriorprior×likelihood

Nota: trovo che la distinzione fatta nell'introduzione della pagina di Wikipedia sulle funzioni di verosimiglianza tra le probabilità frequentista e bayesiana sia confusa e superflua, o semplicemente sbagliata, poiché la grande maggioranza degli attuali statistici bayesiani non usa la verosimiglianza come sostituto della probabilità posteriore. Allo stesso modo, la "differenza" evidenziata nella pagina Wikipedia sul teorema di Bayes sembra più confusa di ogni altra cosa, poiché questo teorema è un'affermazione di probabilità su un cambiamento di condizionamento, indipendente dal paradigma o dal significato di un'affermazione di probabilità. ( Secondo me , è più una definizione che un teorema!)


1

Come un piccolo addendum:

Il nome "Probabilità" è del tutto fuorviante, perché ci sono molti significati diversi possibili. Non solo il "linguaggio normale", ma anche nelle statistiche. Posso pensare ad almeno tre espressioni diverse, ma anche correlate che sono tutte chiamate Probabilità; anche nei libri di testo.

Detto questo, quando si prende la definizione moltiplicativa di Probabilità, non c'è nulla in essa che la trasformi in qualsiasi tipo di probabilità nel senso della sua definizione (es. Assiomatica). È un numero a valore reale. Puoi fare molte cose per calcolarlo o metterlo in relazione con una probabilità (prendere rapporti, calcolare priori e posteriori, ecc.) - ma su se stesso non ha alcun significato in termini di probabilità.

La risposta è stata più o meno obsoleta dalla risposta molto più istruttiva e completa di Xi'an. Ma su richiesta, alcune definizioni di libri di testo di Likelihood:

  • L(x;θ)
  • θ
  • il rapporto tra i valori di probabilità per diversi priori (ad esempio in un compito di classificazione) ... e inoltre i diversi significati che si possono provare ad attribuire all'uso (ab) degli elementi sopra menzionati.

1
Questa sarebbe una risposta molto migliore se potessi aggiungere esempi / riferimenti perché posso pensare ad almeno tre espressioni diverse, ma anche correlate che sono tutte chiamate Likelihood; anche nei libri di testo .
kjetil b halvorsen,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.