Motivazione teorica per l'utilizzo della verosimiglianza vs verosimiglianza


18

Sto cercando di comprendere a un livello più profondo l'ubiquità della verosimiglianza (e forse più in generale della verosimiglianza) nella statistica e nella teoria delle probabilità. Le probabilità di log si manifestano ovunque: di solito lavoriamo con la verosimiglianza per analisi (ad es. Per massimizzare), le informazioni di Fisher sono definite in termini della seconda derivata della verosimiglianza, l'entropia è una log-probabilità attesa , La divergenza di Kullback-Liebler comporta probabilità di log, la divergenza attesa è una probabilità di log prevista, ecc.

Ora apprezzo le molte ragioni pratiche e convenienti . Molti pdf comuni e utili provengono da famiglie esponenziali, il che porta a termini elegantemente semplificati quando viene trasformato il registro. Le somme sono più facili da lavorare rispetto ai prodotti (specialmente per la differenziazione). I pro-log hanno un grande vantaggio in virgola mobile rispetto ai pro-dritti. La trasformazione del registro di un pdf spesso converte una funzione non concava in una funzione concava. Ma qual è la ragione / giustificazione / motivazione teorica per i log-probs?

Come esempio della mia perplessità, considera le informazioni di Fisher (FI). La solita spiegazione per intuire l'IF è che la seconda derivata della verosimiglianza ci dice quanto sia "picco" la somiglianza dei log: una verosimiglianza molto elevata significa che l'MLE è ben specificato e siamo relativamente sicuri del suo valore , mentre una log-like quasi piatta (bassa curvatura) significa che molti valori di parametri diversi sono quasi buoni (in termini di probabilità logaritmica) come l'MLE, quindi il nostro MLE è più incerto.

Tutto questo va bene, ma non è più naturale trovare la curvatura della funzione di probabilità stessa (NON trasformata in tronchi)? A prima vista l'enfasi sulla trasformazione del log sembra arbitraria e sbagliata. Sicuramente siamo più interessati alla curvatura dell'attuale funzione di verosimiglianza. Qual è stata la motivazione di Fisher a lavorare con la funzione score e con l'Assia della probabilità logaritmica?

La risposta è semplicemente che, alla fine, abbiamo dei bei risultati dalla probabilità di log asintoticamente? Ad esempio, Cramer-Rao e normalità del MLE / posteriore. O c'è una ragione più profonda?


2
Ho fatto una domanda simile qui
Haitao Du

Risposte:


13

È davvero solo una comodità per la responsabilità, niente di più.

Intendo la convenienza delle somme rispetto ai prodotti: , le somme sono più facili da gestire sotto molti aspetti, come la differenziazione o l'integrazione. Non è una comodità solo per famiglie esponenziali, sto cercando di dire.ln(ΠioXio)=ΣiolnXio

Quando si ha a che fare con un campione casuale, le probabilità sono nella forma: , quindi la responsabilità romperebbe invece questo prodotto nella somma, che è più facile da manipolare e analizzare. Aiuta che tutto ciò che ci interessa è il punto del massimo, il valore al massimo non è importante, se possiamo applicare qualsiasi trasformazione monotona come il logaritmo.L=Πiopio

Sull'intuizione della curvatura. Alla fine è praticamente la stessa cosa del secondo derivato del loglikelihood.

AGGIORNAMENTO: Questo è ciò che intendevo per curvatura. Se hai una funzione , la sua curvatura sarebbe ( vedi (14) su Wolfram): κ = f ( x )y=f(X)

κ=f"(X)(1+f'(X)2)3/2

La seconda derivata della verosimiglianza logaritmica:

UN=(lnf(X))"=f"(X)f(X)-(f'(X)f(X))2

Nel punto del massimo, la prima derivata è ovviamente zero, quindi otteniamo: Quindi, la mia battuta è che la curvatura della probabilità e la seconda derivata del loglikelihood è la stessa cosa, in un certo senso.

κmun'X=f"(Xmun'X)=UNf(Xmun'X)

D'altra parte, se la prima derivata della verosimiglianza è piccola non solo in ma attorno al punto del massimo, ovvero la funzione di verosimiglianza è piatta, allora otteniamo: Ora la verosimiglianza piatta non è una buona cosa per noi, perché rende più difficile trovare il massimo numericamente e la massima probabilità non è migliore di altri punti attorno ad esso, vale a dire che gli errori di stima dei parametri sono alti.

κf"(X)UNf(X)

E ancora, abbiamo ancora la curvatura e la seconda relazione derivata. Quindi perché Fisher non ha osservato la curvatura della funzione di probabilità? Penso che sia per lo stesso motivo di convenienza. È più facile manipolare la responsabilità a causa delle somme invece del prodotto. Quindi, ha potuto studiare la curvatura della probabilità analizzando la seconda derivata del loglikelihood. Sebbene l'equazione appaia molto semplice per la curvatura , in realtà stai prendendo una seconda derivata del prodotto, che è più caotica della somma delle seconde derivate.κmun'X=f"(Xmun'X)

AGGIORNAMENTO 2:

Ecco una dimostrazione. Traccio una funzione di verosimiglianza (completamente inventata), la sua a) curvatura eb) la seconda derivata del suo registro. Sul lato sinistro si vede la probabilità stretta e sul lato destro è largo. Vedi come al punto della massima verosimiglianza a) eb) convergono, come dovrebbero. Ancora più importante, tuttavia, è possibile studiare l'ampiezza (o la planarità) della funzione di verosimiglianza esaminando la seconda derivata della sua verosimiglianza. Come ho scritto prima, quest'ultimo è tecnicamente più semplice del primo da analizzare.

La seconda derivata non sorprendentemente più profonda dei segnali di loglikelihood appiattisce la funzione di verosimiglianza attorno al suo massimo, che non è desiderato perché causa un errore di stima dei parametri maggiore.

inserisci qui la descrizione dell'immagine

Codice MATLAB nel caso in cui si desideri riprodurre i grafici:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

AGGIORNAMENTO 3:

Nel codice sopra ho inserito una funzione arbitraria a forma di campana nell'equazione di curvatura, quindi ho calcolato la seconda derivata del suo registro. Non ho ridimensionato nulla, i valori sono direttamente dalle equazioni per mostrare l'equivalenza che ho menzionato in precedenza.

Ecco il primo documento sulla probabilità che Fisher abbia pubblicato mentre era ancora all'università, "On an Absolute Criterion for Fitting Frequency Curves", Messenger of Mathmatics, 41: 155-160 (1912)

logP'=Σ1nlogp

logP=-logfdX
P

Una cosa da notare quando ha letto il documento ha iniziato solo con il lavoro di stima della massima verosimiglianza e ha svolto più lavoro nei successivi 10 anni, quindi anche il termine MLE non è stato ancora coniato, per quanto ne so.


5
La tua frase finale (sulla curvatura) ti dice che c'è davvero qualcosa di fondamentale nella probabilità del tronco e che prendere i tronchi non è solo una semplice "comodità". Credo che qui stia succedendo molto di più di quello che stai lasciando andare.
whuber

2
La tua discussione sulla curvatura non sembra pertinente, perché non distingue un'analisi della verosimiglianza da un'analisi della verosimiglianza stessa. Questa risposta sembra ridursi a "i registri sono convenienti", ma c'è molto di più nel problema, dato che altre risposte stanno iniziando a suggerire.
whuber

f(xmax)f(xmax)=1

Quindi l'uso della verosimiglianza logica per le informazioni di Fisher sembra avere due scopi pratici: (1) la verosimiglianza logaritmica è più facile da lavorare e (2) ignora naturalmente il fattore di ridimensionamento arbitrario. E, dà la stessa risposta del 2o derivato della verosimiglianza. Questo mi sembra un punto importante, che non era ovvio e che non ho mai visto dichiarato in alcun testo statistico. Presumibilmente era noto a Fisher.
ratsalad,

f(Xmun'X)"=(lnf(X))"f(Xmun'X)
f(Xmun'X)=1
f(Xmun'X)"=(lnf(X))"

5

Punto aggiuntivo . Alcune delle distribuzioni di probabilità comunemente usate (compresa la distribuzione normale, la distribuzione esponenziale, la distribuzione di Laplace, solo per citarne alcuni) sono log-concava . Ciò significa che il loro logaritmo è concavo. Ciò rende la massimizzazione della probabilità del log molto più semplice rispetto alla massimizzazione della probabilità originale (che è particolarmente utile nella massima probabilità o nei metodi a-posteriori massimi). Per fare un esempio, l'uso del metodo di Newton per massimizzare direttamente una distribuzione gaussiana multivariata può compiere molti passaggi mentre la massimizzazione di un paraboloide (il registro della distribuzione gaussiana multivariata) richiede esattamente un passo.


2
Non così in fretta. Vedi esercizio 7.4 a pagg. 393-394 di web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf
Mark L. Stone,

Non è log-concavo. Il gaussiano è log-concavo scritto sul suo argomento o sul parametro medio, non anche sulla varianza. Se vuoi anche determinare la scala, puoi usare una distribuzione gamma normale, che è anche log-concava (usando la precisione invece della varianza).
Luca Citi,

2
Esattamente questo. Tutti i discorsi su come i registri sono più convenienti sono belli, ma la convessità (o la concavità, a seconda della prospettiva) è ciò che distingue davvero la verosimiglianza come la cosa "corretta" con cui lavorare.
Meni Rosenfeld,

2
Si noti che ho già menzionato la concavità dei registri nel PO. Ma questa è ancora solo una "comodità", non esiste alcuna giustificazione teorica per la concavità dei tronchi, e in ogni caso le probabilità dei tronchi non sono log-concava in generale.
ratsalad,

1
@Ratsalad, sì, hai ragione, è convenienza. Penso che le probabilita 'di log siano un ulteriore modo per esaminare una funzione di probabilita'. Non posso dire con certezza quale sia il migliore. Se guardi a [ en.wikipedia.org/wiki/… misure), alcuni lavorano in modo efficace sulla probabilità logaritmica (ad esempio la divergenza di KL che è effettivamente il valore atteso della differenza delle probabilità logaritmiche), altri direttamente sulla probabilità ( ad es. distanza KS).
Luca Citi,

4

L'importanza teorica della verosimiglianza può essere vista da (almeno) due prospettive: la teoria della verosimiglianza asintotica e la teoria dell'informazione.

La prima di queste (credo) è la teoria asintotica della verosimiglianza. Penso che la teoria dell'informazione sia iniziata bene dopo che Fisher ha stabilito la massima probabilità sul suo corso verso il dominio del 20 ° secolo.

Nella teoria della verosimiglianza, una verosimiglianza parabolica ha un posto centrale nell'inferenza. Lucien Le Cam ha svolto un ruolo importante nel chiarire l' importanza della verosimiglianza quadratica nella teoria asintotica.

Quando si ha una probabilità logaritmica quadratica, non solo la curvatura sull'MLE indica qualitativamente quanto precisamente è possibile stimare il parametro, ma sappiamo anche che l'errore viene normalmente distribuito con una varianza uguale al reciproco della curvatura. Quando la probabilità di log è approssimativamente quadratica, allora diciamo che questi risultati valgono approssimativamente o asintoticamente.

Un secondo motivo è la rilevanza della verosimiglianza (o log-probabilità) nella teoria dell'informazione , dove è la quantità principale utilizzata per misurare il contenuto dell'informazione.

ggf(θ)f(θ^)θ^

lnL^

Quindi, la verosimiglianza, oltre ad essere un'utile trasformazione numerica, ha profondi legami con l'inferenza e la teoria dell'informazione.


Il tuo riferimento all'uso della verosimiglianza con la teoria dell'informazione è circolare. Perché si usano registro? Probabilmente per lo stesso motivo, soprattutto se si considera che la teoria dell'informazione è un campo relativamente più recente rispetto alle statistiche.
Aksakal,

@Aksakal sì e no. La teoria dell'informazione ha tratto le sue basi in parte dalla meccanica statistica e dall'entropia: en.wikipedia.org/wiki/Entropy . Boltzmann ha definito l'entropia di un sistema usando il registro del numero di microstati. Perché registri? Perché rende entropia / informazioni additive (come sottolinea la tua risposta)? E allora? A livello numerico, la linearità / additività apre l'uso dei potenti metodi di algebra lineare.

1
@Aksakal, tuttavia, a un livello più fondamentale l'additività trasforma l'entropia / l'informazione in qualcosa di simile a una misura ... simile alla massa. Se si combinano due sistemi statisticamente indipendenti, l'entropia del sistema combinato è la somma dell'entropia di ciascun sistema. Ecco una bella spiegazione: physics.stackexchange.com/questions/240636/…

1
L'entropia statistica termodinamica di @Bey in realtà segue direttamente la distribuzione di Boltzmann di microstati e termo macroscopico classico (la forma dell'entropia di Stat Mech non era una "scelta"). La stessa distribuzione di Boltzmann è una conseguenza di due premesse: (1) la proprietà fisica che le energie sono specificate solo fino a una costante additiva arbitraria e (2) l'assunto statistico fondamentale che tutti i microstati con la stessa energia hanno la stessa probabilità. Quindi, al livello più profondo la termo entropia coinvolge i log-probs perché l'energia è additiva e proporzionale al log-prob.
ratsalad,

2
@ratsalad grazie per esserti espanso su questo ... come puoi vedere, andare oltre le semplici spiegazioni "i log sono più facili" può portare abbastanza lontano. Uso la verosimiglianza per i motivi che Aksakal fornisce ... tuttavia, il tuo PO ha chiesto qualcosa di più profondo. Ho fornito due esempi che mostrano connessioni con altre aree che hanno influenzato la statistica e la teoria della probabilità. Penso che le spiegazioni asintotiche siano più dirette, ma l'entropia e la probabilità sono collegate in modi che rendono le probabilità di log cose a cui siamo interessati oltre la semplice convenienza numerica.

0

TLDR: è molto più facile ricavare somme rispetto ai prodotti, perché l'operatore derivato è lineare con la somma ma con il prodotto devi fare la regola del prodotto. È complessità lineare rispetto a qualche complessità polinomiale di ordine superiore


3
Questo è ciò che la domanda intende per "conveniente e pratico". È tutt'altro che l'unico, o anche il principale, motivo per cui l'analisi si concentra sulla probabilità del log. Si consideri, ad esempio, quale sarebbe l'espressione per le Informazioni Fisher in termini di probabilità piuttosto che di probabilità logaritmica.
whuber

Sì, di sicuro; Penso che quando ha detto che è "più facile" trovarlo direttamente, ho pensato che intendesse il contrario, perché sicuramente è più facile trovarlo dopo aver applicato la trasformazione del registro.
Charlie Tian,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.