Significato delle notazioni di probabilità


27

Qual è la differenza di significato tra la notazione e che sono comunemente usati in molti libri e documenti?P(z;d,w)P(z|d,w)


13
f (x; θ) è uguale a f (x | θ), il che significa semplicemente che θ è un parametro fisso e la funzione f è una funzione di x. f (x, Θ), OTOH, è un elemento di una famiglia (insieme) di funzioni, in cui gli elementi sono indicizzati da Θ. Una distinzione sottile, forse, ma importante, esp. quando arriva il momento di stimare un parametro sconosciuto θ sulla base di dati noti x; in quel momento, θ varia e x è fisso, risultando nella "funzione di verosimiglianza". Utilizzo di "|" è più comune tra gli statistici ";" tra i matematici.
jbowman,

Sì jbowman è corretto. A volte la chiamiamo densità di X data Θ.
Michael R. Chernick,

@jbowman perché non pubblicarlo come risposta? La mia unica domanda è: perché dovrebbero usare entrambi, ma presumo che abbia qualcosa a che fare con il contesto ("|" è usato con "P" e ";" con " "). f
Abe,

Buon pensiero, Abe; questo è probabilmente. è più generico, suppongo. f
jbowman,

Risposte:


12

Credo che l'origine di questo sia il paradigma della verosimiglianza (anche se non ho verificato l'effettiva correttezza storica di quanto sotto, è un modo ragionevole di capire come è arrivato a essere)

Diciamo in un'impostazione di regressione, avresti una distribuzione: p (Y | x, beta) Il che significa: la distribuzione di Y se conosci (condizionatamente) i valori x e beta.

Se vuoi stimare i beta, vuoi massimizzare la probabilità: L (beta; y, x) = p (Y | x, beta) Essenzialmente, ora stai guardando l'espressione p (Y | x, beta) come una funzione della beta, ma a parte questo, non vi è alcuna differenza (per le espressioni matematiche corrette che puoi derivare correttamente, questa è una necessità --- sebbene in pratica nessuno si preoccupi).

Quindi, nelle impostazioni bayesiane, la differenza tra parametri e altre variabili svanisce presto, quindi uno ha iniziato a usare entrambe le notazioni mescolate.

Quindi, in sostanza: non vi è alcuna differenza effettiva: entrambi indicano la distribuzione condizionale della cosa a sinistra, subordinata alla (e) cosa (e) a destra.


23

è la densità della variabile casuale X nel punto x , con θ come parametro della distribuzione. f ( x , θ ) è la densità congiunta di X e Θ nel punto ( x , θ ) e ha senso solo se Θ è una variabile casuale. f ( x | θ ) è la distribuzione condizionale di X data Θ e, di nuovo, ha senso solo sef(x;θ)Xxθf(x,θ)XΘ(x,θ)Θf(x|θ)XΘ è una variabile casuale. Questo diventerà molto più chiaro quando approfondirai il libro e guarderai l'analisi bayesiana.Θ


Uhhhh ... è la distribuzione condizionale di x dato θ ha perfettamente senso anche se θ non è una variabile casuale. È praticamente una notazione standard nelle statistiche classiche, dove θ non è una variabile casuale. f(x|θ)xθθθ
jbowman,

Uhhhh .... se lo interpretate nel senso che P [Θ = θ] = 1 (sinistra Θ è una variabile casuale, destra θ è una costante) allora sono d'accordo. Altrimenti non ... per cosa significherebbe allora P [Θ = θ] nel denominatore della definizione di distribuzione condizionata?
PeterR

Denominatore? Posso scrivere dove f è una distribuzione normale senza riferimento alla Regola di Bayes. μ e σ sono fissi. Anche altri lo fanno, ad esempio ll.mit.edu/mission/communications/ist/publications/… . xf(x|μ,σ)fμσ
jbowman,

jbowman, quindi qual è la definizione della tua f (x | μ, σ) come densità condizionale quando μ e σ sono numeri fissi (cioè non variabili casuali)?
PeterR

1
La parola "condizionale", associata alla notazione f (X | Y), è definita come "condizionata dal verificarsi di un evento casuale". Se lo stai usando per indicare qualcos'altro, come solo "dato", come in "f (x) dato (valori specifici di) μ e σ", allora questo è ciò che la notazione f (x; μ, σ) è per. Dato che il PO chiedeva cosa significasse la notazione, dovremmo essere precisi sulla notazione nella risposta.
PeterR,

18

f(x;θ) è uguale af(x|θ) , il che significa semplicemente cheθ è un parametro fisso e la funzionef è una funzione dix . f(x,Θ) , OTOH, è un elemento di una famiglia (o insieme) di funzioni, in cui gli elementi sono indicizzati daΘ . Una distinzione sottile, forse, ma importante, esp. quando arriva il momento di stimare un parametro sconosciutoθ sulla base di dati notix ; in quel momento,θ varia exviene risolto, risultando nella "funzione di verosimiglianza". L'uso di è più comune tra gli statistici, mentre ;tra i matematici.


1
Come è parlate verbalmente? Dici "f di x dato θ"? f(x;θ)
stackoverflowuser2010,

@ stackoverflowuser2010 - sì, proprio così.
jbowman,

2
Ho trovato in alcuni video di Coursera che il professore di Stanford Andrew Ng verbalizza il punto e virgola come "parametrizzato da". Vedi: class.coursera.org/ml-005/lecture/34 . Quindi l'esempio verrebbe parlato come "f di x parametrizzato da theta".
stackoverflowuser2010,

5
Dire "dato" o "condizionale" è molto diverso (in generale) da "parametrizzato". Odierei se qualcuno vedesse questo e pensasse che i due fossero equivalenti. Dire "parametrizzato" è appropriato solo quando la quantità su cui si è condizionati è un parametro che indicizza il pdf della variabile nel primo termine. Per due variabili (ad es. F (x; y)), usare quel termine sarebbe sbagliato.
ATJ,

2
@MikeWilliamson - Certo, scegli una notazione in cui sai cosa significa tutto e mantieniti! In questo modo quando torni a qualcosa che hai fatto prima, come 4 ore prima nella mia esperienza, non devi capire cosa intendevi quando hai usato quel "|". Sono d'accordo, è fastidioso, ma dopo un po 'osservi solo il primo uso della notazione e lo ricordi per il resto del libro / libro; le distinzioni di solito non sono ciò che è importante, comunque.
jbowman,

9

Sebbene non sia sempre stato così, oggigiorno è generalmente usato quando d , w non sono variabili casuali (il che non significa che siano conosciute, necessariamente). P ( z | d , w ) indica il condizionamento sui valori di d , w . Il condizionamento è un'operazione su variabili casuali e come tale usare questa notazione quando d , w non sono variabili casuali è confuso (e tragicamente comune).P(z;d,w)d,wP(z|d,w)d,wd,w

p(y|X,Θ)yΘ


2
X
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.