Il punto è che a volte diversi modelli (per gli stessi dati) possono portare a funzioni di verosimiglianza che differiscono per una costante moltiplicativa, ma il contenuto delle informazioni deve essere chiaramente lo stesso. Un esempio:
Modelliamo esperimenti indipendenti di Bernoulli, portando a dati , ciascuno con una distribuzione di Bernoulli con parametro (probabilità) . Questo porta alla funzione di verosimiglianza
Oppure possiamo riassumere i dati con la variabile distribuita binomialmente , che ha una distribuzione binomiale, che porta alla funzione di verosimiglianza
che, in funzione del parametro sconosciuto , è proporzionale alla precedente funzione di verosimiglianza . Le due funzioni di probabilità contengono chiaramente le stesse informazioni e dovrebbero portare alle stesse inferenze!nX1,…,Xnp∏i=1npxi(1−p)1−xi
Y=X1+X2+⋯+Xn(ny)py(1−p)n−y
p
E in effetti, per definizione, sono considerati la stessa funzione di probabilità.
Un altro punto di vista: osservare che quando le funzioni di probabilità sono utilizzate nel teorema di Bayes, come necessario per l'analisi bayesiana, tali costanti moltiplicative semplicemente si annullano! quindi sono chiaramente irrilevanti per l'inferenza bayesiana. Allo stesso modo, si annullerà quando si calcolano i rapporti di probabilità, come usato nei test di ipotesi ottimali (lemma di Neyman-Pearson.) E non avrà alcuna influenza sul valore degli stimatori della massima verosimiglianza. Quindi possiamo vedere che in gran parte dell'inferenza frequentista non può svolgere un ruolo.
Possiamo discutere da ancora un altro punto di vista. La funzione di probabilità di Bernoulli (di seguito usiamo il termine "densità") sopra è in realtà una densità rispetto alla misura di conteggio, cioè la misura sugli interi non negativi con una massa per ogni intero non negativo. Ma avremmo potuto definire una densità rispetto ad altre misure dominanti. In questo esempio questo sembrerà (ed è) artificiale, ma in spazi più ampi (spazi funzionali) è davvero fondamentale! Usiamo, a scopo illustrativo, la distribuzione geometrica specifica, scritta , con , , e presto. Quindi la densità della distribuzione di Bernoulli rispetto aλλ(0)=1/2λ(1)=1/4λ(2)=1/8λf λ ( x ) = p x ( 1 - p ) 1 - x ⋅ 2 x + 1 P ( X = x ) = f λ ( x ) ⋅ λè dato da
che significa che
Con questa nuova misura dominante, la funzione di verosimiglianza diventa (con notazione dall'alto)
annota il fattore aggiuntivo . Pertanto, quando si modifica la misura dominante utilizzata nella definizione della funzione di probabilità, sorge una nuova costante moltiplicativa, che non dipende dal parametro sconosciutofλ(x)=px(1−p)1−x⋅2x+1
P(X=x)=fλ(x)⋅λ(x)
∏i=1npxi(1−p)1−xi2xi+1=py(1−p)n−y2y+n
2y+nped è chiaramente irrilevante. Questo è un altro modo per vedere come le costanti moltiplicative debbano essere irrilevanti. Questo argomento può essere generalizzato usando i derivati Radon-Nikodym (come l'argomento sopra è un esempio di.)