Cosa significa in pratica "probabilità definita solo fino a una costante moltiplicativa di proporzionalità"?

19

Sto leggendo un articolo in cui gli autori stanno conducendo una discussione sulla stima della massima verosimiglianza con il Teorema di Bayes, apparentemente come un'introduzione per i principianti.

Come esempio di probabilità, iniziano con una distribuzione binomiale:

p (x | n, θ) = (\binom{n}{x}) θ^{x} (1 - θ)^{n - x}

$p(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x}$

e quindi registrare entrambi i lati

ℓ (θ | x, n) = x \ln (θ) + (n - x) \ln (1 - θ)

$\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta)$

con la logica che:

"Poiché la probabilità è definita solo fino a una costante moltiplicativa di proporzionalità (o una costante additiva per la probabilità logaritmica), possiamo ridimensionare ... lasciando cadere il coefficiente binomiale e scrivendo la verosimiglianza logaritmica al posto della verosimiglianza"

La matematica ha senso, ma non riesco a capire cosa si intende per "la probabilità è definita solo fino a una costante moltiplicativa di proporzionalità" e come ciò consente di eliminare il coefficiente binomiale e di passare da $p(x|n,\theta)$ a $\ell(\theta|x,n)$ .

Una terminologia simile è emersa in altre domande ( qui e qui ), ma non è ancora chiaro cosa, in pratica, la probabilità che venga definita o che porti l'informazione a una costante moltiplicativa significhi. È possibile spiegarlo in parole povere?

— KMM
fonte

18

Il punto è che a volte diversi modelli (per gli stessi dati) possono portare a funzioni di verosimiglianza che differiscono per una costante moltiplicativa, ma il contenuto delle informazioni deve essere chiaramente lo stesso. Un esempio:

Modelliamo esperimenti indipendenti di Bernoulli, portando a dati , ciascuno con una distribuzione di Bernoulli con parametro (probabilità) . Questo porta alla funzione di verosimiglianza Oppure possiamo riassumere i dati con la variabile distribuita binomialmente , che ha una distribuzione binomiale, che porta alla funzione di verosimiglianza che, in funzione del parametro sconosciuto , è proporzionale alla precedente funzione di verosimiglianza . Le due funzioni di probabilità contengono chiaramente le stesse informazioni e dovrebbero portare alle stesse inferenze! $n$ $X_1, \dots, X_n$ $p$

\prod_{i = 1}^{n} p^{x_{i}} (1 - p)^{1 - x_{i}}

$\prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}$

Y = X_{1} + X_{2} + \dots + X_{n}

$Y=X_1+X_2+\dotsm+X_n$

(\binom{n}{y}) p^{y} (1 - p)^{n - y}

$\binom{n}{y} p^y (1-p)^{n-y}$

p

$p$

E in effetti, per definizione, sono considerati la stessa funzione di probabilità.

Un altro punto di vista: osservare che quando le funzioni di probabilità sono utilizzate nel teorema di Bayes, come necessario per l'analisi bayesiana, tali costanti moltiplicative semplicemente si annullano! quindi sono chiaramente irrilevanti per l'inferenza bayesiana. Allo stesso modo, si annullerà quando si calcolano i rapporti di probabilità, come usato nei test di ipotesi ottimali (lemma di Neyman-Pearson.) E non avrà alcuna influenza sul valore degli stimatori della massima verosimiglianza. Quindi possiamo vedere che in gran parte dell'inferenza frequentista non può svolgere un ruolo.

Possiamo discutere da ancora un altro punto di vista. La funzione di probabilità di Bernoulli (di seguito usiamo il termine "densità") sopra è in realtà una densità rispetto alla misura di conteggio, cioè la misura sugli interi non negativi con una massa per ogni intero non negativo. Ma avremmo potuto definire una densità rispetto ad altre misure dominanti. In questo esempio questo sembrerà (ed è) artificiale, ma in spazi più ampi (spazi funzionali) è davvero fondamentale! Usiamo, a scopo illustrativo, la distribuzione geometrica specifica, scritta , con , , e presto. Quindi la densità della distribuzione di Bernoulli rispetto a $\lambda$ $\lambda(0)=1/2$ $\lambda(1)=1/4$ $\lambda(2)=1/8$ $\lambda$ è dato da che significa che Con questa nuova misura dominante, la funzione di verosimiglianza diventa (con notazione dall'alto) annota il fattore aggiuntivo . Pertanto, quando si modifica la misura dominante utilizzata nella definizione della funzione di probabilità, sorge una nuova costante moltiplicativa, che non dipende dal parametro sconosciuto

f_{λ} (x) = p^{x} (1 - p)^{1 - x} \cdot 2^{x + 1}

$f_{\lambda}(x) = p^x (1-p)^{1-x}\cdot 2^{x+1}$

P (X = x) = f_{λ} (x) \cdot λ (x)

$P(X=x)= f_\lambda(x) \cdot \lambda(x)$

\prod_{i = 1}^{n} p^{x_{i}} (1 - p)^{1 - x_{i}} 2^{x_{i} + 1} = p^{y} (1 - p)^{n - y} 2^{y + n}

$\prod_{i=1}^n p^{x_i} (1-p)^{1-x_i} 2^{x_i+1} = p^y (1-p)^{n-y} 2^{y+n}$

2^{y + n}

$2^{y+n}$

p

$p$ ed è chiaramente irrilevante. Questo è un altro modo per vedere come le costanti moltiplicative debbano essere irrilevanti. Questo argomento può essere generalizzato usando i derivati Radon-Nikodym (come l'argomento sopra è un esempio di.)

— kjetil b halvorsen
fonte

"il contenuto delle informazioni deve essere chiaramente lo stesso" Questo è vero solo se credi nel principio di verosimiglianza!

— jsk,

Sì, forse, ma ho mostrato come segue i principi bayesiani.

— kjetil b halvorsen,

@kjetilbhalvorsen Grazie per la risposta premurosa! Una cosa di cui sono ancora confuso è perché la probabilità della distribuzione di bernoulli non include un coefficiente binomiale. La tua risposta chiarisce perché non importa, ma non capisco perché sia stata lasciata fuori dalla probabilità in primo luogo.

— jvans

@jvans: è perché il coefficiente binomiale non dipende dal parametro sconosciuto, quindi non può influenzare la forma della funzione di probabilità

— kjetil b halvorsen

12

Fondamentalmente significa che conta solo il valore relativo del PDF. Ad esempio, il normale PDF (gaussiano) standard è: , il tuo libro dice che potrebbero usare invece, perché non si occupano della scala, ovvero . $f(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$ $g(x)=e^{-x^2/2}$ $c=\frac{1}{\sqrt{2\pi}}$

Ciò accade perché massimizzano la funzione di probabilità e e avranno lo stesso massimo. Quindi, il massimo di sarà lo stesso di . Quindi, non si preoccupano della scala. $c\cdot g(x)$ $g(x)$ $e^{-x^2/2}$ $f(x)$

— Aksakal
fonte

6

Non posso spiegare il significato della citazione, ma per la stima della massima verosimiglianza , non importa se scegliamo di trovare il massimo della funzione di verosimiglianza (considerata come una funzione di o del massimo di dove è una costante. Questo perché non siamo interessati al valore massimo di ma piuttosto al valore dove si verifica questo massimo e sia che raggiungono il loro valore massimo allo stesso $L(\mathbf x; \theta)$ $\theta$ $aL(\mathbf x; \theta)$ $a$ $L(\mathbf x; \theta)$ $\theta_{\text{ML}}$ $L(\mathbf x; \theta)$ $aL(\mathbf x; \theta)$ $\theta_{\text{ML}}$ . Pertanto, le costanti moltiplicative possono essere ignorate. Allo stesso modo, potremmo scegliere di considerare qualsiasi funzione monotona (come il logaritmo) della funzione di verosimiglianza , determinare il massimo di e dedurre il valore di da questo. Per il logaritmo, la costante moltiplicativa diventa la costante additiva e anche questo può essere ignorato nel processo di ricerca della posizione del massimo: è massimizzato nello stesso punto di . $g(\cdot)$ $L(\mathbf x; \theta)$ $g(L(\mathbf x;\theta))$ $\theta_{\text{ML}}$ $a$ $\ln(a)$ $\ln(a)+\ln(L(\mathbf x; \theta)$ $\ln(L(\mathbf x; \theta)$

Passando alla stima della massima probabilità a posteriori (MAP), è considerata come la realizzazione di una variabile casuale con funzione di densità a priori , i dati sono considerati come una realizzazione di una variabile casuale e la funzione di verosimiglianza è considerata il valore della densità condizionale di condizionata su ; detta funzione di densità condizionale viene valutata in . Il $\theta$ $\Theta$ $f_{\Theta}(\theta)$ $\mathbf x$ $\mathbf X$ $f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)$ $\mathbf X$ $\Theta = \theta$ $\mathbf x$ la densità a posteriori di è in cui riconosciamo il numeratore come densità del giunto dei dati e del parametro da stimare. Il punto dove raggiunge il suo valore massimo è la stima MAP di e, usando gli stessi argomenti di nel paragrafo, vediamo che possiamo ignorare sul lato destro di $\Theta$

\begin{matrix} (1) & f_{Θ ∣ X} (θ ∣ x) = \frac{f_{X ∣ Θ} (x ∣ Θ = θ) f_{Θ} (θ)}{f_{X} (x)} \end{matrix}

$f_{\Theta\mid \mathbf X}(\theta \mid \mathbf x) = \frac{f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)f_\Theta(\theta)}{f_{\mathbf X}(\mathbf x)} \tag{1}$

f_{X, Θ} (x, θ)

$f_{\mathbf X, \Theta}(\mathbf x, \theta)$

θ_{MAP}

$\theta_{\text{MAP}}$

f_{Θ ∣ X} (θ ∣ x)

$f_{\Theta\mid \mathbf X}(\theta \mid \mathbf x)$

θ

$\theta$

[f_{X} (x)]^{- 1}

$[f_{\mathbf X}(\mathbf x)]^{-1}$

(1)

$(1)$ come costante moltiplicativa così come possiamo ignorare le costanti moltiplicative sia in che in . Allo stesso modo quando vengono utilizzate le probabilità logaritmiche, possiamo ignorare le costanti additive.

f_{X ∣ Θ} (x ∣ Θ = θ)

$f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)$

f_{Θ} (θ)

$f_\Theta(\theta)$

— Dilip Sarwate
fonte

Questa linea di pensiero può essere fatta anche tramite bayes: se metti o nel teorema di Bayes non ha importanza, la si annullerà, quindi il posteriore è lo stesso.

L

$L$

a L

$aL$

a

$a$

— kjetil b halvorsen,

5

In parole povere, cercherai spesso la massima verosimiglianza e e condividono gli stessi punti critici. $f(x)$ $kf(x)$

— Sergio
fonte

3

Così fanno e , ma non sarebbero funzioni di verosimiglianza equivalenti

f (x)

$f(x)$

f (x) + 2

$f(x)+2$

— Henry

Per favore, come scrive Alecos Papadopoulos nella sua risposta, "la probabilità è innanzitutto una funzione di densità di probabilità congiunta". A causa dell'assunto iid per campioni casuali, quella funzione articolare è un prodotto di semplici funzioni di densità, quindi sorgono fattori moltiplicativi, non gli addendenti.

— Sergio,

1

La funzione congiunta è tale prodotto se e solo se i dati sono indipendenti. Ma MLE si estende alle variabili dipendenti, quindi l'argomento del prodotto sembra non convincente.

— whuber

1

Suggerirei di non lasciare alla vista termini costanti nella funzione di verosimiglianza (ovvero termini che non includono i parametri). In circostanze normali, non influiscono sul della probabilità, come già accennato. Ma: $\text {argmax}$

Potrebbero esserci circostanze insolite in cui dovrai massimizzare la probabilità soggetta a un limite massimo e quindi dovresti "ricordare" di includere eventuali costanti nel calcolo del suo valore.

Inoltre, è possibile che si stiano eseguendo test di selezione dei modelli per modelli non nidificati, utilizzando il valore della probabilità nel processo, e poiché i modelli non sono nidificati, le due probabilità avranno costanti diverse.

A parte questi, la frase

"Perché la probabilità è definita solo fino a una costante moltiplicativa di proporzionalità (o una costante additiva per la probabilità logaritmica)"

è sbagliato , perché la probabilità è innanzitutto una funzione di densità di probabilità congiunta , non solo "qualsiasi" funzione oggettiva da massimizzare.

— Alecos Papadopoulos
fonte

3

θ

$\theta$

θ

$\theta$

3

L (θ ∣ x) = f (x ∣ θ) .

$L(\boldsymbol \theta \mid \boldsymbol x) = f(\boldsymbol x \mid \boldsymbol \theta).$

1

$1$

1

$1$

1

@heropup Ho già scritto che non si integra necessariamente con l'unità nello spazio dei parametri e quindi, immediatamente, non può essere considerato una "funzione di densità" quando viene vista come una "funzione dei parametri".

— Alecos Papadopoulos,

1

Si, lo so. Il mio punto è che la frase "La funzione di probabilità è una funzione di densità, vista come una funzione dei parametri" è di per sé confusa. Sarebbe più preciso dire qualcosa del tipo: "La funzione di probabilità è una funzione dei parametri per un campione fisso ed è equivalente (o proporzionale) alla densità del giunto sullo spazio del campione".

— heropup

1

L (x ∣ θ) f (θ)

$L(x\mid \theta)f(\theta)$

L

$L$

f (θ)

$f(\theta)$

— Dilip Sarwate,