È davvero solo una comodità per la responsabilità, niente di più.
Intendo la convenienza delle somme rispetto ai prodotti: , le somme sono più facili da gestire sotto molti aspetti, come la differenziazione o l'integrazione. Non è una comodità solo per famiglie esponenziali, sto cercando di dire.ln( ∏ioXio) = ∑iolnXio
Quando si ha a che fare con un campione casuale, le probabilità sono nella forma: , quindi la responsabilità romperebbe invece questo prodotto nella somma, che è più facile da manipolare e analizzare. Aiuta che tutto ciò che ci interessa è il punto del massimo, il valore al massimo non è importante, se possiamo applicare qualsiasi trasformazione monotona come il logaritmo.L = ∏iopio
Sull'intuizione della curvatura. Alla fine è praticamente la stessa cosa del secondo derivato del loglikelihood.
AGGIORNAMENTO: Questo è ciò che intendevo per curvatura. Se hai una funzione , la sua curvatura sarebbe ( vedi (14) su Wolfram):
κ = f ″ ( x )y= f( x )
κ = f''( x )( 1 + f'( x )2)3 / 2
La seconda derivata della verosimiglianza logaritmica:
A = ( lnf( x ) )''= f''( x )f( x )- ( f'( x )f( x ))2
Nel punto del massimo, la prima derivata è ovviamente zero, quindi otteniamo:
Quindi, la mia battuta è che la curvatura della probabilità e la seconda derivata del loglikelihood è la stessa cosa, in un certo senso.
κm a x= f''( xm a x) = A f( xm a x)
D'altra parte, se la prima derivata della verosimiglianza è piccola non solo in ma attorno al punto del massimo, ovvero la funzione di verosimiglianza è piatta, allora otteniamo:
Ora la verosimiglianza piatta non è una buona cosa per noi, perché rende più difficile trovare il massimo numericamente e la massima probabilità non è migliore di altri punti attorno ad esso, vale a dire che gli errori di stima dei parametri sono alti.
κ ≈ f''( x ) ≈ A f( x )
E ancora, abbiamo ancora la curvatura e la seconda relazione derivata. Quindi perché Fisher non ha osservato la curvatura della funzione di probabilità? Penso che sia per lo stesso motivo di convenienza. È più facile manipolare la responsabilità a causa delle somme invece del prodotto. Quindi, ha potuto studiare la curvatura della probabilità analizzando la seconda derivata del loglikelihood. Sebbene l'equazione appaia molto semplice per la curvatura , in realtà stai prendendo una seconda derivata del prodotto, che è più caotica della somma delle seconde derivate.κm a x= f''( xm a x)
AGGIORNAMENTO 2:
Ecco una dimostrazione. Traccio una funzione di verosimiglianza (completamente inventata), la sua a) curvatura eb) la seconda derivata del suo registro. Sul lato sinistro si vede la probabilità stretta e sul lato destro è largo. Vedi come al punto della massima verosimiglianza a) eb) convergono, come dovrebbero. Ancora più importante, tuttavia, è possibile studiare l'ampiezza (o la planarità) della funzione di verosimiglianza esaminando la seconda derivata della sua verosimiglianza. Come ho scritto prima, quest'ultimo è tecnicamente più semplice del primo da analizzare.
La seconda derivata non sorprendentemente più profonda dei segnali di loglikelihood appiattisce la funzione di verosimiglianza attorno al suo massimo, che non è desiderato perché causa un errore di stima dei parametri maggiore.
Codice MATLAB nel caso in cui si desideri riprodurre i grafici:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
AGGIORNAMENTO 3:
Nel codice sopra ho inserito una funzione arbitraria a forma di campana nell'equazione di curvatura, quindi ho calcolato la seconda derivata del suo registro. Non ho ridimensionato nulla, i valori sono direttamente dalle equazioni per mostrare l'equivalenza che ho menzionato in precedenza.
Ecco il primo documento sulla probabilità che Fisher abbia pubblicato mentre era ancora all'università, "On an Absolute Criterion for Fitting Frequency Curves", Messenger of Mathmatics, 41: 155-160 (1912)
logP'= ∑n1logp
logP= ∫∞- ∞logfdX
P
Una cosa da notare quando ha letto il documento ha iniziato solo con il lavoro di stima della massima verosimiglianza e ha svolto più lavoro nei successivi 10 anni, quindi anche il termine MLE non è stato ancora coniato, per quanto ne so.