La voce di Wikipedia sulla probabilità sembra ambigua


26

Ho una semplice domanda per quanto riguarda "probabilità condizionale" e "probabilità". (Ho già esaminato questa domanda qui, ma inutilmente.)

Si parte dalla pagina di Wikipedia sulla probabilità . Dicono questo:

La probabilità di un insieme di valori di parametro, θ , dati gli esiti x , è uguale alla probabilità di quegli esiti osservati dati quei valori di parametro, cioè

L(θx)=P(xθ)

Grande! Quindi, in inglese, leggo questo come: "La probabilità di parametri uguali a theta, dati X = x, (lato sinistro), è uguale alla probabilità che i dati X siano uguali a x, dato che i parametri sono uguali a theta ". (Il grassetto è mio per l'enfasi ).

Tuttavia, non meno di 3 righe più tardi sulla stessa pagina, la voce di Wikipedia continua dicendo:

Sia X una variabile casuale con una distribuzione di probabilità discreta p seconda di un parametro θ . Quindi la funzione

L(θx)=pθ(x)=Pθ(X=x),

considerata come una funzione di θ , è chiamata funzione di verosimiglianza (di θ , dato l'esito x della variabile casuale X ). A volte la probabilità del valore x di X per il valore del parametro θ è scritta come P(X=xθ) ; spesso scritto come P(X=x;θ) per sottolineare che questo differisce da L(θx)che non è una probabilità condizionale , perché θ è un parametro e non una variabile casuale.

(Il grassetto è mio per l'enfasi ). Quindi, nella prima citazione, ci viene letteralmente detto di una probabilità condizionale di P(xθ) , ma subito dopo, ci viene detto che questa NON è in realtà una probabilità condizionale, e in realtà dovrebbe essere scritta come P(X=x;θ) ?

Quindi, quale è è? La probabilità connota effettivamente una probabilità condizionata alla prima citazione? O connota una probabilità semplice per la seconda citazione?

MODIFICARE:

Sulla base di tutte le risposte utili e perspicaci che ho ricevuto finora, ho riassunto la mia domanda e la mia comprensione finora:

  • In inglese , diciamo che: "La probabilità è una funzione dei parametri, DATI i dati osservati". In matematica , lo scriviamo come: .L(Θ=θ|X=X)
  • La probabilità non è una probabilità.
  • La probabilità non è una distribuzione di probabilità.
  • La probabilità non è una massa di probabilità.
  • La probabilità è tuttavia, in inglese : "Un prodotto di distribuzioni di probabilità, (caso continuo), o un prodotto di masse di probabilità, (caso discreto), dove , e parametrizzato da Θ = θ ." In matematica , quindi, lo scriviamo come tale: L ( Θ = θ X = x ) = f ( X = x ; Θ = θ ) (caso continuo, dove f è un PDF), e come L ( Θ =X=xΘ=θL(Θ=θX=x)=f(X=x;Θ=θ)f
    (caso discreto, dove P è una massa di probabilità). L'aspetto da asporto qui è chein nessun punto quic'è una probabilità condizionata che entri in gioco.L(Θ=θX=x)=P(X=x;Θ=θ)P
  • Nel teorema di Bayes abbiamo: . Colloquialmente, ci viene detto che "P(X=xΘ=θ)è una probabilità", tuttavia,ciò non è vero, poichéΘpotrebbe essere una variabile casuale effettiva. Pertanto, ciò che possiamo dire correttamente, tuttavia, è che questo termineP(X=xΘ=θ)è semplicemente "simile" a una probabilità. (?) [Su questo non sono sicuro.]P(Θ=θX=x)=P(X=xΘ=θ) P(Θ=θ)P(X=x)P(X=xΘ=θ)ΘP(X=xΘ=θ)

EDIT II:

Sulla base della risposta di @amoebas, ho disegnato il suo ultimo commento. Penso che sia abbastanza chiarente, e penso che chiarisca la tesi principale che stavo avendo. (Commenti sull'immagine).

inserisci qui la descrizione dell'immagine

EDIT III:

Ho esteso i commenti di @amoebas anche al caso bayesiano proprio ora:

inserisci qui la descrizione dell'immagine


Hai già ottenuto due belle risposte, ma controlla anche stats.stackexchange.com/q/112451/35989
Tim

@Tim Ottimo collegamento grazie! Sfortunatamente non sono ancora chiaro in merito alle domande specifiche che ho di fronte alla verosimiglianza e alla probabilità condizionata (?) Che sembra evocare. Su questo, non sono ancora chiaro. : - /
Creatron,

2
"Dato che" non significa sempre probabilità condizionata. A volte questa frase è semplicemente un tentativo di indicare quali simboli sono destinati a essere fissati in un calcolo o concettualmente.
whuber

2
Alcune persone usano una convenzione tipografica del genere con punti e virgola. Ci sono molte, molte convenzioni: pedici, apici, ecc. Spesso devi capire cosa significa qualcuno dal contesto o dalle loro descrizioni testuali di ciò che stanno facendo.
whuber

4
Quando è una variabile casuale (ovvero, un valore considerato derivante dalla variabile casuale Θ ), nulla nella definizione della probabilità cambia. È ancora una probabilità. Logicamente, questo non è diverso dal dire che una farfalla blu è ancora una farfalla. Tecnicamente, solleva problemi sulla distribuzione congiunta di Θ e x . Evidentemente questa distribuzione congiunta deve essere ben definita e godere di alcune "condizioni di regolarità" prima di poter identificare la probabilità con una probabilità condizionata. θΘΘx
whuber

Risposte:


18

Penso che questo sia in gran parte inutile spaccare i capelli.

Probabilità condizionata di x in y è definito per due variabili casuali X e Y assumono valori x ed y . Ma possiamo anche parlare della probabilità P ( x θ ) di x dato θ dove θ non è una variabile casuale ma un parametro.P(xy)P(X=xY=y)xyXYxyP(xθ)xθθ

Si noti che in entrambi i casi è possibile utilizzare lo stesso termine "dato" e la stessa notazione . Non è necessario inventare notazioni diverse. Inoltre, ciò che viene chiamato "parametro" e ciò che viene chiamato "variabile casuale" può dipendere dalla tua filosofia, ma la matematica non cambia.P()

La prima citazione di Wikipedia afferma che per definizione. Qui si presume che θ sia un parametro. La seconda citazione dice che L ( θ x ) non è una probabilità condizionale. Ciò significa che non è una probabilità condizionata di θ dato x ; e in effetti non può essere, perché θ si presume che sia un parametro qui.L(θx)=P(xθ)θL(θx)θxθ

Nel contesto del teorema di Bayes siaachebsono variabili casuali. Ma possiamo ancora chiamareP(ba)"verosimiglianza" (dia), e ora è anche unaprobabilità condizionalein buona fede(dib). Questa terminologia è standard nelle statistiche bayesiane. Nessuno dice che sia qualcosa di "simile" alla probabilità; la gente semplicemente lo chiama la probabilità.

P(ab)=P(ba)P(a)P(b),
abP(ba)ab

Nota 1: Nell'ultimo paragrafo, è ovviamente una probabilità condizionata di b . Come probabilità L ( a b ) è vista come una funzione di a ; ma non è una distribuzione di probabilità (o probabilità condizionata) di a ! Il suo integrale su a non è necessariamente uguale a 1 . (Considerando che il suo integrale sopra b lo fa.)P(ba)bL(ab)aaa1b

Nota 2: a volte la probabilità è definita fino a una costante di proporzionalità arbitraria, come sottolineato da @MichaelLew (perché la maggior parte delle volte le persone sono interessate ai rapporti di verosimiglianza ). Questo può essere utile, ma non è sempre fatto e non è essenziale.


Vedi anche Qual è la differenza tra "verosimiglianza" e "probabilità"? e in particolare la risposta di @ Whuber lì.

Sono pienamente d'accordo con la risposta di @ Tim anche in questa discussione (+1).


1
Quindi la probabilità, può infatti, essere uguale, una probabilità condizionale (come da ultimo paragrafo), giusto? Questo è ciò che sto cercando di quadrare. Ad esempio, in una delle prime risposte, abbiamo: "In primo luogo, la probabilità non può essere generalmente uguale alla probabilità dei dati dati il ​​valore del parametro, poiché la probabilità è definita solo fino a una costante di proporzionalità . Fisher ne era esplicito quando prima verosimiglianza formalizzata (Fisher, 1922). "Questo è ciò che sto cercando di quadrare. La probabilità - può la probabilità - essere mai uguale a una probabilità condizionata?
Creatron,

@Creatron Ho aggiunto due note alla mia risposta. Lo chiariscono?
ameba dice Reinstate Monica il

1
Per quanto riguarda la Nota 1: poiché è una distribuzione di probabilità condizionata e poiché L ( a | b ) non può essere una distribuzione di probabilità, mi sembra che il modo più "corretto" di scrivere l'equazione per la probabilità in questo contesto è: L ( a | b ) P ( b | a ) , e non come, L ( a | b ) = P ( b | a )P(b|a) L(a|b) L(a|b)P(b|a)L(a|b)=P(b|a). (So ​​che nell'ottimizzazione questo non fa differenza, ma sto cercando di inchiodare la correttezza di quale sia la probabilità qui). La mia comprensione è giusta? Grazie per la vostra pazienza.
Creatron,

1
@Creatron Penso che tu stia confondendo diversi problemi distinti qui. Presumo che tu stia parlando di un'impostazione del teorema di Bayes (che è ciò a cui fa riferimento la mia Nota 1), in cui sia che b sono eventi casuali. Ok, quindi P ( b | a ) è una distribuzione di probabilità condizionata di b dato a . Ma L ( a | b ) dovrebbe essere visto come una funzione di a , non di b ! E non è la distribuzione di probabilità di aabP(b|a)baL(a|b)abaperché non si somma a uno. Questo non ha nulla a che fare con il problema o la proporzionalità (che è la mia Nota 2). Penso che possiamo scrivere . L(a|b)=P(b|a)
ameba dice Reinstate Monica il

1
Amoeba, grazie !! Sei stato determinante nel non annodare questi concetti per me, grazie mille !! :) Ho appena "esteso" il diagramma al caso bayesiano e apprezzerei il tuo feedback per assicurarmi di averlo capito bene. Ho anche accettato la tua risposta. Ancora una volta, molto gentile!
Creatron,

10

Hai già ricevuto due belle risposte, ma dato che sembra ancora poco chiaro, lascia che te ne fornisca una. La verosimiglianza è definita come

L(θ|X)=P(X|θ)=ifθ(xi)

quindi abbiamo probabilità di un certo valore del parametro dato i dati X . È uguale al prodotto delle funzioni di massa di probabilità (caso discreto) o densità (caso continuo) f di X parametrizzato da θ . La probabilità è una funzione del parametro dato i dati. Si noti che θ è un parametro che stiamo ottimizzando, non una variabile casuale, quindi non ha alcuna probabilità assegnata ad esso. Questo è il motivo per cui Wikipedia afferma che l'uso della notazione di probabilità condizionale può essere ambiguo, dal momento che non stiamo condizionando alcuna variabile casuale. D'altra parte, nell'impostazione bayesiana θ èθ XfXθθθ una variabile casuale e ha distribuzione, quindi possiamo lavorare con essa come con qualsiasi altra variabile casuale e possiamo usare il teorema di Bayes per calcolare le probabilità posteriori. La probabilità bayesiana è ancora verosimile poiché ci dice della verosimiglianza dei dati dato il parametro, l'unica differenza è che il parametro è considerato come variabile casuale.

Se conosci la programmazione, puoi pensare alla funzione di probabilità come alla funzione di sovraccarico nella programmazione. Alcuni linguaggi di programmazione consentono di avere una funzione che funziona in modo diverso quando viene chiamata utilizzando diversi tipi di parametri. Se si pensa alla probabilità in questo modo, per impostazione predefinita se si assume come argomento un valore di parametro e si restituisce la probabilità di dati dati questo parametro. D'altra parte, è possibile utilizzare tale funzione nell'impostazione bayesiana, in cui il parametro è una variabile casuale, ciò porta sostanzialmente allo stesso output, ma che può essere inteso come probabilità condizionale poiché stiamo condizionando una variabile casuale. In entrambi i casi la funzione funziona allo stesso modo, basta usarla e capirla in modo leggermente diverso.

// likelihood "as" overloaded function
Default Likelihood(Numeric theta, Data X) {
    return f(X, theta); // returns likelihood, not probability
}

Bayesian Likelihood(RandomVariable theta, Data X) {
    return f(X, theta); // since theta is r.v., the output can be
                        // understood as conditional probability
}

Inoltre, piuttosto non troverai Bayesiani che scrivono il teorema di Bayes come

P(θ|X)L(θ|X)P(θ)

... questo sarebbe molto confuso . Innanzitutto, avresti su entrambi i lati dell'equazione e non avrebbe molto senso. In secondo luogo, abbiamo una probabilità posteriore di conoscere la probabilità di θ dati dati (cioè la cosa che vorresti sapere nel quadro del verosimiglianza, ma non quando θ non è una variabile casuale). Terzo, poiché θ è una variabile casuale, la abbiamo e la scriviamo come probabilità condizionata. La Lθ|XθθθL-notation is generally reserved for likelihoodist setting. The name likelihood is used by convention in both approaches to denote similar thing: how probability of observing such data changes given your model and the parameter.


Thank you Tim, this has been very helpful in my understanding. I have re-consolidated my question (see under "Edit") with this new knowledge. I believe everything I have now written there is true. The only holdout is the last point in the list on Bayes rule. If you could take a look I would appreciate that a lot. Thanks again, and have an upvote!
Creatron

1
@Creatron I added a sentence commenting your last bullet to my answer, hope it is now clear -- if not please say so.
Tim

(1/2) Your edits on the overloaded operator helps me a lot. In this case, it seems to me that we can say this: 1) Under the 'mathematically pure' (historical case in the sense of what Fisher probably meant), case, where θ is not a random variable, and instead is a parameter of a PDF, (or a function of a parameter?), then the likelihood is equal to the probability of P(X=x;θ). The likelihood function is NOT a probability distribution, sure, but it is EQUAL TO the probability of P(X=x;θ). Is this correct?
Creatron

(2/2) In the second case however, (2), when the context is a Bayesian setting, then in this case our parameters are a r.v, and so in this case the likelihood IS in fact, a conditional probability distribution, of P(b|a), written however, as L(a|b). So in the first 'default' case, the likelihood was definitely NOT a probability distribution, (but was equal to a probability value), however in the second case, the likelihood IS in fact a probability distribution, and that probability distribution is a conditional probability, written as P(b|a). Is this correct?
Creatron

2
Thank you Tim, even though I accepted @amoeba 's answer, your post truly helped me understand this varied and deep concept, esp your analogy to overloaded functions. Thank you again!
Creatron

7

There are several aspects of the common descriptions of likelihood that are imprecise or omit detail in a way that engenders confusion. The Wikipedia entry is a good example.

First, likelihood cannot be generally equal to a the probability of the data given the parameter value, as likelihood is only defined up to a proportionality constant. Fisher was explicit about that when he first formalised likelihood (Fisher, 1922). The reason for that seems to be the fact that there is no restraint on the integral (or sum) of a likelihood function, and the probability of observing data x within a statistical model given any value of the parameter(s) is strongly affected by the precision of the data values and of the granularity of specification of the parameter values.

Second, it is more helpful to think about the likelihood function than individual likelihoods. The likelihood function is a function of the model parameter value(s), as is obvious from a graph of a likelihood function. Such a graph also makes it easy to see that the likelihoods allow a ranking of the various values of the parameter(s) according to how well the model predicts the data when set to those parameter values. Exploration of likelihood functions makes the roles of the data and the parameter values much more clear, in my opinion, than can cogitation of the various formulas given in the original question.

The use a ratio of pairs of likelihoods within a likelihood function as the relative degree of support offered by the observed data for the parameter values (within the model) gets around the problem of unknown proportionality constants because those constants cancel in the ratio. It is important to note that the constants would not necessarily cancel in a ratio of likelihoods that come from separate likelihood functions (i.e. from different statistical models).

Finally, it is useful to be explicit about the role of the statistical model because likelihoods are determined by the statistical model as well as the data. If you choose a different model you get a different likelihood function, and you can get a different unknown proportionality constant.

Thus, to answer the original question, likelihoods are not a probability of any sort. They do not obey Kolmogorov's axioms of probability, and they play a different role in statistical support of inference from the roles played by the various types of probability.

  1. Fisher (1922) On the mathematical foundations of statistics http://rsta.royalsocietypublishing.org/content/222/594-604/309

1
La prima riga del tuo post riassume la mia frustrazione per questo argomento. Ad ogni modo, alcune domande basate sul suo post, signore: 1) La formula bayesiana è spesso scritta comeP(un'|B)=P(B|un')P(un')P(B), dove (ci viene detto) P(B|un') è una "probabilità", e quello P(un') is a 'prior'. If likelihood is not a probability, then is this statement false? 2) My motivation for the question is in the context of deriving a maximum likelihood estimator, which inevitably links a likelihood to a (seemingly) concrete (conditional) probability. Given those two examples, how then to reconcile those? Thanks.
Creatron

@Creatron 1. No, the statement is not necessarily wrong. The likelihood function is how the evidence enters the calculation, and combining it with a probability distribution yields a probability distribution. In that context the unknown proportionality constant is not a problem because after the product of the likelihood function and prior probability distribution is arbitrarily scaled so that it has the correct unity integral (or sum).
Michael Lew

2. In the context of finding a maximum likelihood estimate it makes no difference whether you use a conditional probability or a likelihood, as they will be proportional over the entire range of parameter values.
Michael Lew

1
Can we then say that while L(θ|x)=P(x|θ) is technically wrong, L(θ|x)P(x|θ) is technically and formally correct? Is that all there is to it?
Creatron

Thank you Micheal Lew, your post has really helped in my understanding of this problem, much appreciated.
Creatron

7

Wikipedia avrebbe dovuto dirlo L(θ) non è una probabilità condizionale di θ essere in un set specificato, né una densità di probabilità di θ. Anzi, se ci sono infiniti valori diθ nello spazio dei parametri, puoi avere

ΣθL(θ)=,
per esempio avendo L(θ)=1 indipendentemente dal valore di θe se esiste una misura standard dθ sullo spazio dei parametri Θ, quindi allo stesso modo si può avere
ΘL(θ)dθ=.
Un punto essenziale che l'articolo dovrebbe sottolineare è quello L è la funzione
θP(xθ) and NOT xP(xθ).

2
+1 and thanks for the edit of my answer; I forgot that \mid exists.
ameba dice Reinstate Monica il

@amoeba: felice di aiutarti.
Michael Hardy,

3

"I read this as: "The likelihood of parameters equaling theta, given data X = x, (the left-hand-side), is equal to the probability of the data X being equal to x, given that the parameters are equal to theta". (Bold is mine for emphasis)."

It's the probability of the set of observations given the parameter is theta. This is perhaps confusing because they write P(x|θ) but then L(θ|x).

The explanation (somewhat objectively) implies that θ is not a random variable. It could, for example, be a random variable with some prior distribution in a Bayesian setting. The point however, is that we suppose θ=θ, a concrete value and then make statements about the likelihood of our observations. This is because there is only one true value of θ in whatever system we're interested in.


Ok, so I then conclude based on this that i) The first image on the wikipedia is wrong, because (to my knowledge at least), P(a|b) is always read as a conditional probability, and what they SEEM to want to say, is that it's not - or ever - "probability of the data GIVEN this theta", it's rather, "probability of the data, PARAMETERIZED by this theta". Is this correct? Thanks. (To summarize, it seems that L(θ|x)=P(X=x;θ).
Creatron

Questo tuttavia è problematico, perché in una formulazione bayesiana, P(un'|B)=P(B|un') P(un')P(B), il P(B|un')ci viene detto che in realtà è la probabilità (ed è in effetti una probabilità condizionata). Tuttavia, ciò contraddice ciò che abbiamo appena detto e contraddice anche ciò che dice la wiki nell'immagine 2.
Creatron,

L(θ|x):=P(x|θ). The θ is to the left of x in L to emphasize that we think of L as a function of θ, the parameter we wish to optimize. So there's no contradiction.
Alex R.

Is the right-hand-side of L(θ|x) := P(x|θ) a conditional probability?
Creatron

Questo ha più senso per me ora. Grazie per il tuo aiuto iniziale, @Alex.
Creatron,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.