Perché MLE ha senso, dato che la probabilità di un singolo campione è 0?


13

È una specie di strano pensiero che ho avuto durante la revisione di alcune vecchie statistiche e per qualche motivo non riesco a pensare alla risposta.

Un PDF continuo ci dice la densità di osservare i valori in un dato intervallo. Vale a dire, se XN(μ,σ2) , per esempio, allora la probabilità che una realizzazione cade tra a e b è semplicemente abϕ(x)dx dove ϕ è la densità dello standard normale.

Quando pensiamo di fare una stima MLE di un parametro, diciamo di μ , scriviamo la densità congiunta, diciamo N , delle variabili casuali X1..XN e differenziare la probabilità logaritmica su μ , impostare uguale a 0 e risolvere per μ . L'interpretazione spesso data è "dati dati, quale parametro rende questa funzione di densità più plausibile".

La parte che mi sta infastidendo è questa: abbiamo una densità di N rv e la probabilità di ottenere una realizzazione particolare, diciamo il nostro campione, è esattamente 0. Perché ha senso massimizzare la densità articolare dati i nostri dati ( dal momento che la probabilità di osservare il nostro campione reale è esattamente 0)?

L'unica razionalizzazione che potrei inventare è che vogliamo che il PDF sia raggiunto il massimo possibile attorno al nostro campione osservato in modo che l'integrale nella regione (e quindi la probabilità di osservare cose in questa regione) sia il più alto.


1
Per lo stesso motivo utilizziamo le densità di probabilità stats.stackexchange.com/q/4220/35989
Tim

Capisco (penso) perché abbia senso usare le densità. Quello che non capisco è perché abbia senso massimizzare una densità condizionata all'osservazione di un campione che ha 0 probabilità di verificarsi.
Alex

2
Perché le densità di probabilità ci dicono quali valori sono relativamente più probabili di altri.
Tim

Se hai il tempo di rispondere alla domanda completamente, penso che sarebbe più utile per me e la persona successiva.
Alex

Perché, per fortuna, la probabilità non è una probabilità!
AdamO

Risposte:


18

La probabilità di qualsiasi campione, Pθ(X=x) , è uguale a zero e tuttavia un campione viene realizzato attingendo da una distribuzione di probabilità. La probabilità è quindi lo strumento sbagliato per valutare un campione e la probabilità che si verifichi. La probabilità statistica, come definita da Fisher (1912), si basa sull'argomento limitante della probabilità di osservare il campione x entro un intervallo di lunghezza δ quando δ va a zero (citando Aldrich, 1997) :

Aldrich, J. (1997) Statistical Science12, 162-176

quando si rinormalizza questa probabilità di δ . Il termine della funzione di verosimiglianza viene introdotto solo in Fisher (1921) e di massima verosimiglianza in Fisher (1922).

Anche se andò sotto la denominazione di "valore più probabile" e usò un principio di probabilità inversa (inferenza bayesiana) con un precedente piatto, Carl Friedrich Gauß aveva già derivato nel 1809 uno stimatore di massima verosimiglianza per il parametro di varianza di una distribuzione normale. Hald (1999) menziona diverse altre occorrenze di stimatori della massima verosimiglianza prima del documento di Fisher del 1912, che stabilisce il principio generale.

Una giustificazione successiva dell'approccio della massima verosimiglianza è che, poiché la verosimiglianza logaritmica rinormalizzata di un campione (x1,,xn)

1ni=1nlogfθ(xi)
converge in [Legge dei grandi numeri]
E[logfθ(X)]=logfθ(x)f0(x)dx
(dovef0 indica la densità reale del campione iid), massimizzare la probabilità [in funzione diθ ] equivale asintoticamente alla minimizzazione [inθ ] della divergenza di Kullback-Leibler
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
fθ


Grazie per la risposta. Potresti espandere un po 'l'argomento KL? Non vedo come questo sia il caso immediatamente.
Alex
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.