Qual è la ragione per cui una funzione di probabilità non è un pdf?


59

Qual è il motivo per cui una funzione di probabilità non è un pdf (funzione di densità di probabilità)?


6
La funzione di verosimiglianza è una funzione del parametro sconosciuto (condizionato dai dati). Pertanto, in genere non ha area 1 (ovvero l'integrale su tutti i possibili valori di θ non è 1) e pertanto non è per definizione un pdf. θθ
Martedì

4
La stessa domanda su MO 2 anni fa: mathoverflow.net/questions/10971/…
Douglas Zare,

3
Riferimento interessante, @Douglas. Le risposte sono piuttosto insoddisfacenti, IMHO. Quello accettato assume cose che non sono vere ("entrambi e p ( m | X ) sono pdf": no !) E gli altri non riescono davvero ad affrontare i problemi statistici. p(X|m)p(m|X)
whuber

2
+1 whuber. È sorprendente che ci siano risposte così negative nel sito di mathoverflow nonostante il suo livello matematico così elevato!
Stéphane Laurent,

1
@Stephane: Questo è vero, ma gli statistici e persino i probabilisti sembrano essere abbastanza pochi e lontani tra loro su MO, con alcune notevoli eccezioni. Quella domanda era abbastanza presto nell'esistenza di MO quando sia le domande generalmente ammissibili sia la qualità delle risposte erano sostanzialmente diverse.
cardinale il

Risposte:


62

Inizieremo con due definizioni:

  • Una funzione di densità di probabilità (pdf) è una funzione non negativa che si integra con .1

  • La probabilità è definita come la densità congiunta dei dati osservati in funzione del parametro. Ma, come sottolineato dal riferimento a Lehmann fatto da @whuber in un commento qui sotto, la funzione di probabilità è una funzione del solo parametro, con i dati mantenuti come costante fissa. Quindi il fatto che sia una densità in funzione dei dati è irrilevante.

Pertanto, la funzione di verosimiglianza non è un pdf perché il suo integrale rispetto al parametro non è necessariamente uguale a 1 (e potrebbe non essere affatto integrabile, in realtà, come sottolineato da un altro commento di @whuber).

xBernoulli(θ)

L(θ)=θx(1θ)1x

01L(θ)dθ=1/2x=1L(θ)=θ

01L(θ)dθ=01θ dθ=1/2

x=0L(θ)

Forse anche più importante di questo esempio tecnico che mostra perché la probabilità non sia una densità di probabilità è sottolineare che la probabilità non è la probabilità che il valore del parametro sia corretto o qualcosa del genere - è la probabilità (densità) dei dati dato il valore del parametro , che è una cosa completamente diversa. Pertanto non ci si dovrebbe aspettare che la funzione di probabilità si comporti come una densità di probabilità.


12
dθψ=log(θ/(1θ))

3
Questo è un modo per dirlo: gli MLE sono invarianti sotto trasformazioni monotone ma le densità di probabilità no, QED! Questo era esattamente l'argomento di Fisher, che ho delineato in un commento alla risposta di @Michael Chernick.
whuber

4
dθσ

1
Df

1
(+1) Lasciami essere il primo a congratularmi con te per aver raggiunto un rappresentante di 10K! Bella risposta; Mi piace l'esempio che dai, in particolare. Saluti. :)
cardinale il

2

Va bene, ma la funzione di probabilità è la densità di probabilità congiunta per i dati osservati dato il parametro . Come tale, può essere normalizzato per formare una funzione di densità di probabilità. Quindi è essenzialmente come un pdf.θ


3
Quindi, stai solo sottolineando che la probabilità è integrabile rispetto al parametro (è sempre vero?). Suppongo che potresti alludere alla relazione della probabilità con la distribuzione posteriore quando viene usato un precedente piatto, ma senza ulteriori spiegazioni questa risposta rimane misteriosa per me.
Macro,

6
L'integrazione con l'unità è al di là del punto. Fisher, in un articolo del 1922 Sulle basi matematiche delle statistiche teoriche, osservò che in effetti di solito la probabilità può essere "normalizzata" per integrarsi all'unità moltiplicandola per un'adeguata funzione modo che . Quello che ha contestato è l' arbitrio : ci sono molti quel lavoro. "... la parola probabilità è usata erroneamente in una tale connessione: la probabilità è un rapporto di frequenze, e sulle frequenze di tali valori non possiamo sapere nulla." L(θ)p(θ)L(θ)p(θ)dθ=1p
whuber

1
@ Néstor (e Michael) - sembra che whuber ed entrambi abbiamo interpretato questa domanda come chiedendo perché la probabilità non sia una funzione di densità, come una funzione diθ quindi sembra che stiamo rispondendo a domande diverse. Naturalmente la probabilità è la funzione di densità delle osservazioni (dato il valore del parametro) - ecco come viene definita.
Macro,

2
Michael, penso che l'abbiamo interpretato in quel modo perché la probabilità è una funzione di , quindi, se fosse una densità, sarebbe una densità in . Posso immaginare di interpretarlo come hai fatto, ma questa possibilità non mi è venuta in mente fino a dopo aver letto il commento di Nestor. θθ
Macro,

4
Trovo che l'ambiguità sia creata da questa risposta ma non sia presente nella domanda. Come sottolinea @Macro, la probabilità è solo una funzione del parametro. ( Ad esempio , "La densità , considerata per fissa in funzione di , è chiamata funzione di verosimiglianza : EL Lehmann, Teoria della stima dei punti , sezione 6.2 .) Così la questione è chiara rispondere, quindi, che la "probabilità è la densità di probabilità congiunta" non chiarisce, ma confonde il problema..f(x1,θ)f(xn,θ)xθ
whuber

1

Non sono uno statistico, ma la mia comprensione è che mentre la funzione di probabilità in sé non è un PDF rispetto ai parametri, è direttamente correlata a quel PDF da Bayes Rule. La funzione di probabilità, P (X | theta) e distribuzione posteriore, f (theta | X), sono strettamente collegate; non "una cosa completamente diversa" a tutti.


1
Benvenuti nel nostro sito! Potresti trovare materiale interessante nei commenti ad altre risposte in questa discussione. Alcuni di essi sottolineano il motivo per cui la regola di Bayes non si applica a meno che non vengano esplicitamente introdotte ulteriori macchine matematiche (come un campo Sigma per il parametro).
whuber

Grazie @whuber. Non ho notato alcun riferimento alla Regola di Bayes altrove nel thread, ma suppongo che ci siano allusioni nei commenti, supponendo che uno sia sufficientemente fluente nella probabilità a livello di laurea per captarli (cosa che non lo sono). Non saresti d'accordo sul fatto che l'inserimento della funzione di verosimiglianza nel contesto della regola di Bayes fornisca un'intuizione utile alla domanda del PO?
Santayana,

Applicare la regola di Bayes non è possibile senza assumere una distribuzione di probabilità per : la distinzione tra quella distribuzione e la distribuzione dei dati in funzione di , è ciò che riguarda quasi tutto in questo thread. Supponendo implicitamente che esista, o possa esserci, tale distribuzione è la fonte della confusione discussa nel thread dei commenti alla risposta di Michael Chernick. Concordo quindi sul fatto che una discussione chiara e attenta di questo punto possa essere utile, ma qualsiasi cosa a parte ciò rischia di creare maggiore confusione. θθ
whuber

Mi scuso, a prima vista che il thread sembrasse poco più che un malinteso, ma ora vedo i commenti pertinenti a cui ti riferisci, in particolare la tua citazione di Fisher. Ma questo non si riduce a un dibattito bayesiano v. Frequentista? Non c'è un gran numero di praticanti dell'inferenza bayesiana che discuterebbero a favore di una distribuzione di probabilità per theta? (se sei d'accordo con loro è un'altra cosa ...)
santayana,

1
Sì, il dibattito B vs. F è in agguato qui. Un frequentista premuroso sarà lieto di usare la regola di Bayes', quando esiste una base di adottare una distribuzione preventiva per , ma si separa dal bayesiani negando che noi dobbiamo adottare un precedente. Possiamo prendere spunto da come è stata formulata questa domanda. Se invece avesse chiesto "perché si può trattare la funzione di verosimiglianza come un PDF (per i parametri)", ciò avrebbe guidato questa conversazione lungo le linee bayesiane. Ma chiedendolo in senso negativo, l'OP ci stava cercando per esaminare la probabilità da un punto di vista frequentista. θ
whuber

1

La probabilità è definita come , dove se f (x; θ) è una funzione di massa di probabilità , quindi la probabilità è sempre inferiore a una, ma se f (x; θ) è una funzione di densità di probabilità, allora la probabilità può essere maggiore di una, poiché le densità possono essere maggiori di una.L(θ;x1,...,xn)=f(x1,...,xn;θ)

Normalmente i campioni vengono trattati, quindi:
L(θ;x1,...,xn)=f(x1,...,xn;θ)=jf(xj;θ)

Vediamo la sua forma originale:

Secondo l'inferenza bayesiana, vale, ovvero . Si noti che la stima della massima verosimiglianza considera il rapporto tra prove e precedenti come una costante (vedere le risposte a questa domanda ), che omette le credenze precedenti. La probabilità ha una correlazione positiva con il posteriore che si basa sui parametri stimati. può essere un pdf ma non è poiché è solo una parte di che è intrattabile. f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)L^=posteriorevidencepriorL LL LL^LLL^

Ad esempio, non conosco la varianza media e standard di una distribuzione gaussiana e voglio ottenerli allenandomi usando molti campioni di quella distribuzione. Inizialmente inizializzo casualmente la varianza media e standard (che definisce una distribuzione gaussiana), quindi prendo un campione e mi inserisco nella distribuzione stimata e posso ottenere una probabilità dalla distribuzione stimata. Quindi continuo a inserire il campione e ottenere molte molte probabilità, quindi moltiplico queste probabilità e ottengo un punteggio. Questo tipo di punteggio è la probabilità. Difficilmente può essere una probabilità di un determinato pdf.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.