Stima della massima verosimiglianza - perché viene utilizzato nonostante sia distorto in molti casi


25

La stima della massima verosimiglianza si traduce spesso in stimatori distorti (ad esempio, la sua stima per la varianza del campione è distorta per la distribuzione gaussiana).

Cosa lo rende quindi così popolare? Perché esattamente è usato così tanto? Inoltre, cosa lo rende in particolare migliore rispetto all'approccio alternativo: il metodo dei momenti?

Inoltre, ho notato che per il gaussiano, un semplice ridimensionamento dello stimatore MLE lo rende imparziale. Perché questo ridimensionamento non è una procedura standard? Voglio dire - perché dopo il calcolo MLE, non è normale trovare il ridimensionamento necessario per rendere lo stimatore imparziale? La pratica standard sembra essere il semplice calcolo delle stime MLE, tranne ovviamente per il noto caso gaussiano in cui il fattore di ridimensionamento è ben noto.


11
Ci sono molte, molte alternative alla ML, non solo il metodo dei momenti - che tende anche a produrre stimatori distorti, tra l'altro. Quello che potresti voler chiedere invece è "perché qualcuno dovrebbe voler usare uno stimatore imparziale?" Un buon modo per iniziare a ricercare questo problema è una ricerca sul compromesso della variazione di bias .
whuber

7
Come ha sottolineato il whuber, non c'è intrinseca superiorità nell'essere imparziali.
Xi'an,

4
Penso che @whuber significhi "perché qualcuno dovrebbe voler usare uno stimatore distorto ?" Non ci vuole molto lavoro per convincere qualcuno che uno stimatore imparziale può essere ragionevole.
Cliff AB,

5
Vedi en.wikipedia.org/wiki/… per un esempio in cui l'unico stimatore imparziale non è certamente quello che vorresti usare.
Scortchi - Ripristina Monica

4
@Cliff Volevo porre la domanda nella sua forma più provocatoria, potenzialmente più misteriosa. In agguato dietro questo c'è l'idea che ci sono molti modi per valutare la qualità di uno stimatore e molti di loro non hanno nulla a che fare con la distorsione. Da quel punto di vista, è molto naturale chiedersi perché qualcuno possa proporre uno stimatore imparziale . Vedi la risposta di glen_b per ulteriori informazioni da questo punto di vista.
whuber

Risposte:


18

La discrepanza non è necessariamente particolarmente importante da sola.

A parte un insieme molto limitato di circostanze, gli stimatori più utili sono distorti, tuttavia sono ottenuti.

Se due stimatori hanno la stessa varianza, si può facilmente montare un argomento per preferire uno imparziale a uno distorto, ma è una situazione insolita in cui trovarsi (cioè, si può ragionevolmente preferire l'imparzialità, ceteris paribus - ma quei fastidiosi ceteris non sono quasi mai paribus ).

Più in genere, se vuoi l'imparzialità, aggiungerai qualche varianza per ottenerlo, e quindi la domanda sarebbe perché dovresti farlo ?

Distorsione è la misura in cui il valore atteso del mio stimatore sarà in media troppo alto (con una propensione negativa che indica troppo bassa).

Quando sto prendendo in considerazione un piccolo stimatore del campione, non mi interessa davvero. Di solito sono più interessato a quanto sbagliato sarà il mio stimatore in questo caso - la mia distanza tipica da destra ... qualcosa come un errore radice-quadrata-media o un errore assoluto medio avrebbe più senso.

Quindi, se ti piacciono la bassa varianza e il basso bias, chiedere senso uno stimatore di errore quadratico medio minimo avrebbe senso; questi sono molto raramente imparziali.

Bias e imparzialità sono una nozione utile di cui essere consapevoli, ma non è una proprietà particolarmente utile da cercare a meno che non si stiano solo confrontando gli stimatori con la stessa varianza.

Gli stimatori ML tendono ad essere a bassa varianza; di solito non sono un MSE minimo, ma spesso hanno un MSE inferiore rispetto a modificarli in modo imparziale (quando puoi farlo) ti darebbe.

Ad esempio, considera la stima della varianza durante il campionamento da una distribuzione normale (in effetti l'MMSE per la varianza ha sempre un denominatore più grande di ). n-1σ^MMSE2=S2n+1,σ^MLE2=S2n,σ^Unb2=S2n1n1


1
+1. C'è qualche intuizione per (o forse qualche teoria dietro) il tuo secondo paragrafo prima dell'ultimo? Perché gli stimatori ML tendono ad essere a bassa varianza? Perché spesso hanno un MSE inferiore rispetto allo stimatore imparziale? Inoltre, sono sorpreso di vedere l'espressione per lo stimatore di varianza MMSE; in qualche modo non l'ho mai incontrato prima. Perché è usato così raramente? E ha qualcosa a che fare con il restringimento? Sembra che sia "ridotto" da imparziale a zero, ma ne sono confuso poiché sono abituato a pensare al restringimento solo nel contesto multivariato (sulla falsariga di James-Stein).
ameba dice Ripristina Monica il

1
Gli MLE di @amoeba sono generalmente funzioni di statistiche sufficienti, e almeno asintoticamente una varianza minima imparziale, quindi ci si aspetta che siano bassa varianza in campioni di grandi dimensioni, in genere raggiungendo il CRLB nel limite; questo si riflette spesso in campioni più piccoli. stimatori MMSE sono generalmente ridotti a zero perché ciò riduce la varianza (e quindi una piccola quantità di inclinazione verso 0 introdotta da una piccola contrazione in genere ridurrà MSE).
Glen_b -Restinata Monica,

@Glen_b, ottima risposta (continuo a ritornarci). Avresti una spiegazione o un riferimento per essendo lo stimatore MSE minimo? σ^MMSE2=S2n+1
Richard Hardy,

Inoltre, ciò implica che lo stimatore ML della varianza non è uno stimatore della varianza minima? Altrimenti lo stimatore MSE minimo sarebbe una media ponderata (con pesi positivi) dell'MLE e dello stimatore imparziale, ma ora è al di fuori di tale intervallo. Potrei porlo come una domanda separata se pensi che abbia senso.
Richard Hardy,

1
Ho trovato un'intera derivazione in un articolo di Wikipedia su MSE , immagino che spieghi tutto.
Richard Hardy,

16

MLE fornisce il valore più probabile dei parametri del modello, dato il modello e i dati a portata di mano, il che è un concetto piuttosto interessante. Perché dovresti scegliere i valori dei parametri che rendono i dati osservati meno probabili quando puoi scegliere i valori che rendono i dati osservati più probabili in qualsiasi set di valori? Vorresti sacrificare questa funzionalità per imparzialità? Non dico che la risposta sia sempre chiara, ma la motivazione per MLE è piuttosto forte e intuitiva.

Inoltre, MLE potrebbe essere più ampiamente applicabile del metodo dei momenti, per quanto ne so. MLE sembra più naturale in caso di variabili latenti; per esempio, un modello di media mobile (MA) o un modello di eteroschedasticità condizionale autoregressiva generalizzata (GARCH) può essere stimato direttamente da MLE (con direttamente intendo che è sufficiente specificare una funzione di probabilità e sottoporla a una routine di ottimizzazione) - ma non per metodo dei momenti (sebbene possano esistere soluzioni indirette che utilizzano il metodo dei momenti).


4
+1. Naturalmente, ci sono molti casi in cui non si desidera la stima più probabile, come i modelli di miscela gaussiana (cioè la probabilità illimitata). In generale, un'ottima risposta per aiutare l'intuizione degli MLE.
Cliff AB,

3
(+1) Ma penso che sia necessario aggiungere una definizione del valore del parametro "più probabile" come quello dato che i dati sono più probabili per essere abbastanza chiari. Altre proprietà intuitivamente desiderabili di uno stimatore non correlate al suo comportamento a lungo termine in campionamenti ripetuti potrebbero includere il fatto che non dipenda da come si parametrizza un modello e che non produce stime impossibili del vero valore del parametro.
Scortchi - Ripristina Monica

6
Penso che ci sia ancora il rischio che "molto probabilmente" venga letto come "molto probabile".
Scortchi - Ripristina Monica


2
@dsaxton: Gli statistici hanno differenziato la probabilità di un valore di parametro dati i dati dalla probabilità dei dati dati un valore di parametro per quasi un secolo - vedi Fisher (1921) "Sull'errore probabile di una correlazione", Metron , 1 , pp 3-32 e Pawitan (2013), In All Likelihood: Statistical Modeling & Inference Using Likelihood - quindi anche se i termini sono sinonimi nell'uso ordinario, ora sembra un po 'tardi per obiettare.
Scortchi - Ripristina Monica

12

In realtà, il ridimensionamento delle stime di massima verosimiglianza al fine di ottenere stime imparziali è una procedura standard in molti problemi di stima. Il motivo è che la mle è una funzione delle statistiche sufficienti e quindi dal teorema di Rao-Blackwell se riesci a trovare uno stimatore imparziale basato su statistiche sufficienti, allora hai uno stimatore non distorto con varianza minima.

So che la tua domanda è più generale di così, ma ciò che intendo sottolineare è che i concetti chiave sono intimamente correlati alla probabilità e alle stime basate su di essa. Queste stime potrebbero non essere imparziali nei campioni finiti, ma sono asintoticamente così e inoltre sono asintoticamente efficienti, cioè raggiungono il limite di varianza Cramer-Rao per gli stimatori imparziali, il che potrebbe non essere sempre il caso degli stimatori MOM.


11

Per rispondere alla tua domanda sul perché l'MLE è così popolare, considera che, sebbene possa essere di parte, è coerente in condizioni standard. Inoltre, è asintoticamente efficiente, quindi almeno per campioni di grandi dimensioni, è probabile che l'MLE faccia altrettanto bene o meglio di qualsiasi altro stimatore che si possa preparare. Infine, il MLE si trova con una semplice ricetta; prendere la funzione di verosimiglianza e massimizzarla. In alcuni casi, quella ricetta può essere difficile da seguire, ma per la maggior parte dei problemi non lo è. Inoltre, una volta ottenuta questa stima, possiamo ricavare immediatamente gli errori standard asintotici utilizzando le informazioni di Fisher. Senza utilizzare le informazioni di Fisher, è spesso molto difficile ricavare i limiti di errore.

Questo è il motivo per cui la stima MLE è molto spesso lo stimatore (a meno che tu non sia un bayesiano); è semplice da implementare e probabilmente sarà altrettanto buono se non meglio di qualsiasi altra cosa tu abbia bisogno di fare più lavoro per cucinare.


1
Potete per favore approfondire come si confronta con il metodo dei momenti, poiché questa sembra essere una parte importante dell'OP?
Antoni Parellada,

1
come sottolineato da whuber, anche gli stimatori MOM sono distorti, quindi non c'è un vantaggio di "imparzialità" per gli stimatori MOM. Inoltre, quando gli stimatori MOM e MLE non sono d'accordo, l'MLE tende ad avere MSE più bassi. Ma questa risposta riguarda davvero il motivo per cui gli MLE tendono ad essere i default, piuttosto che un confronto diretto con altri metodi.
Cliff AB,

2
@AntoniParellada C'è un thread interessante nel confronto tra MLE e MoM, stats.stackexchange.com/q/80380/28746
Papadopoulos

3

Aggiungo che a volte (spesso) utilizziamo uno stimatore MLE perché è quello che abbiamo ottenuto, anche se in un mondo ideale non sarebbe quello che vogliamo. (Penso spesso che la statistica sia come l'ingegneria, in cui utilizziamo ciò che abbiamo ottenuto, non ciò che vogliamo.) In molti casi è facile definire e risolvere per l'MLE, quindi ottenere un valore utilizzando un approccio iterativo. Considerando che per un determinato parametro in una determinata situazione potrebbe esserci uno stimatore migliore (per un certo valore di "migliore"), ma per trovarlo potrebbe essere molto intelligente; e quando hai finito di essere intelligente, hai ancora lo stimatore migliore per quel particolare problema.


1
Per curiosità, qual è un esempio di ciò che (nel mondo ideale) vorresti?
Glen_b -Restate Monica

2
@Glen_b: Non lo so. Variazione discreta, minima, facile da calcolare in forma chiusa? Quando apprendi per la prima volta gli stimatori per la regressione dei minimi quadrati, la vita sembra più semplice di quanto sembri.
eac2222,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.