Perché la stima della massima verosimiglianza è considerata una tecnica frequentista


19

Le statistiche del frequentista per me sono anche sinonimo di decisione presa per tutti i possibili campioni. Vale a dire, una regola di decisione del frequentista dovrebbe sempre cercare di ridurre al minimo il rischio del frequentista, che dipende da una funzione di perdita e dal vero stato della natura :L θ 0δLθ0

Rfreq=Eθ0(L(θ0,δ(Y))

In che modo la stima della massima verosimiglianza è collegata al rischio frequentista? Dato che è la tecnica di stima dei punti più utilizzata dai frequentisti, ci deve essere qualche connessione. Per quanto ne so, la stima della massima verosimiglianza è più antica del concetto di rischio frequentista, ma deve esserci ancora qualche connessione perché altrimenti così tante persone affermerebbero che si tratta di una tecnica frequentista?

La connessione più vicina che ho trovato è quella

"Per i modelli parametrici che soddisfano condizioni di regolarità deboli, lo stimatore della massima verosimiglianza è approssimativamente minimax" Wassermann 2006, p. 201 "

La risposta accettata collega la stima del punto di massima verosimiglianza più forte al rischio frequentista o fornisce una definizione formale alternativa di inferenza frequentista che mostra che MLE è una tecnica di inferenza frequentista.


6
ML non presta attenzione ai rischi! Ciò, in realtà, fa parte della critica teorica e decisionale frequente di ML. Sospetto che a questa domanda possa essere difficile rispondere perché utilizza implicitamente "Frequentist" in due sensi incompatibili: uno è teorico della decisione, si riferisce a una funzione di perdita, e l'altro si riferisce implicitamente a non assumere una distribuzione precedente.
whuber

@whuber ML presta attenzione al rischio. In realtà è una minimizzazione sotto perdita logaritmica sotto un'uniforme impropria prima.
Cagdas Ozgenc,

4
@Cagdas Credo che di solito non sia il rischio per un decisore: mostra semplicemente ML come se stesse minimizzando il rischio se la perdita logaritmica fosse il rischio che contava per loro. A proposito, fare appello a un "precedente uniforme improprio" è decisamente non frequentatore!
whuber

1
Anche le procedure di stima bayesiana di @whuber utilizzano la perdita di log accumulata. Solo successivamente viene applicato il rischio del decisore. Se stiamo parlando dell'ottimizzazione diretta del rischio del decisore (non tramite un trampolino di lancio per la perdita dei tronchi), le procedure frequentiste sono più famose al riguardo, vale a dire OLS.
Cagdas Ozgenc,

Risposte:


16

Applica una definizione relativamente ristretta di frequentismo e MLE - se siamo un po 'più generosi e definiti

  • Frequenzialismo: obiettivo di coerenza, ottimalità (asintotica), imparzialità e tassi di errore controllati sotto campionamento ripetuto, indipendentemente dai parametri reali

  • MLE = stima del punto + intervalli di confidenza (EC)

allora sembra abbastanza chiaro che MLE soddisfa tutti gli ideali frequentisti. In particolare, gli elementi della configurazione in MLE, come valori p, controllano il tasso di errore durante il campionamento ripetuto e non forniscono la regione di probabilità del 95% per il vero valore del parametro, come pensano molte persone , quindi passano attraverso e attraverso il frequentista.

Non tutte queste idee erano già presenti nel documento di Fisher del 1922 "Sulle basi matematiche delle statistiche teoriche" , ma l'idea di ottimalità e imparzialità è, e Neyman quest'ultima ha aggiunto l'idea di costruire IC con tassi di errore fissi. Efron, 2013, "Un argomento di 250 anni: convinzione, comportamento e bagagliaio" , riassume nella sua leggibile storia del dibattito bayesiano / frequentista:

Il carrozzone frequentista iniziò davvero a rotolare nei primi anni del 1900. Ronald Fisher ha sviluppato la teoria della massima verosimiglianza della stima ottimale, mostrando il miglior comportamento possibile per una stima, e Jerzy Neyman ha fatto lo stesso per intervalli di confidenza e test. Le procedure di Fisher e Neyman si adattarono quasi perfettamente alle esigenze scientifiche e ai limiti computazionali della scienza del ventesimo secolo, gettando il bayesismo in un'esistenza oscura.

Per quanto riguarda la tua definizione più ristretta, sono leggermente in disaccordo con la tua premessa che la minimizzazione del rischio frequentista (FR) è il criterio principale per decidere se un metodo segue la filosofia frequentista. Direi che il minimizzare la FR è una proprietà desiderabile deriva dalla filosofia frequentista, piuttosto che dalla precedente. Pertanto, una regola / stimatore decisionale non deve minimizzare la FR per essere frequentista, e minimizzare la FR non significa necessariamente che un metodo sia frequentista, ma un frequentatore preferirebbe senza dubbio la minimizzazione della FR.

Se guardiamo allo specifico MLE: Fisher ha dimostrato che l'MLE è asintoticamente ottimale (sostanzialmente equivalente alla minimizzazione della FR), e questo è stato sicuramente uno dei motivi per promuovere l'MLE. Tuttavia, era consapevole che l'ottimalità non valeva per la dimensione del campione finita. Tuttavia, era contento di questo stimatore a causa di altre proprietà desiderabili come la coerenza, la normalità asintotica, l'invarianza nelle trasformazioni dei parametri e non dimentichiamoci: facilità di calcolo. L'invarianza in particolare è sottolineata abbondantemente nel documento del 1922 - dalla mia lettura, direi che mantenere l'invarianza sotto la trasformazione dei parametri e la capacità di sbarazzarsi dei priori in generale, erano una delle sue principali motivazioni nella scelta dell'MLE. Se vuoi capire meglio il suo ragionamento, raccomando davvero il documento del 1922, "


2
Potrei sintetizzare la tua risposta in quanto la stima del punto di massima verosimiglianza viene spesso utilizzata insieme a IC o come parte di un test di ipotesi (ad esempio un test di razione di verosimiglianza), quindi è una tecnica frequentista? Se questo è il caso, penso che questa sia una risposta valida, tuttavia non quella che speravo. Stavo mirando a una discussione formale sul perché la stima della massima verosimiglianza possa essere considerata una tecnica di stima puntuale frequentista. Se ciò richiede un'altra definizione formale di inferenza frequentista, va bene anche questo.
Julian Karls,

1
In genere, penso all'MLE come a un quadro che include le stime puntuali di Fisher insieme agli EC di Neyman: è così che viene insegnato in classe e, a causa degli argomenti sopra, manterrei che è frequentista fino all'osso. Mi chiedo quanto abbia senso discutere se il MLE da solo è uno stimatore frequentista, senza il contesto di come e perché viene utilizzato. Se vuoi le ragioni di Fisher, raccomando davvero il documento del 1922 - Direi che le ragioni che afferma sono frequentatrici, anche se allora questa parola non esisteva. Ho esteso il mio commento al riguardo.
Florian Hartig,

1

Fondamentalmente, per due motivi:

  • La massima verosimiglianza è una stima puntuale dei parametri del modello. A noi bayesiani piacciono le distribuzioni posteriori.
  • La massima probabilità non presuppone una distribuzione precedente , noi bayesiani abbiamo bisogno dei nostri priori, potrebbe essere informativo o non informativo, ma deve esistere

6
+1 Vorrei solo sottolineare che in questa risposta sembri implicitamente equiparare "frequentista" a "non bayesiano". Il linguaggio di "We Bayesians" suggerisce anche che "Bayesian" si riferisce a una sorta di caratteristica personale o appartenenza alla tribù - quasi come se fossi una specie di eschimese - piuttosto che un insieme di tecniche e interpretazioni.
whuber

4
D'altra parte MLE può essere facilmente derivato come una tecnica bayesiana. È semplicemente la stima MAP per qualsiasi modello statistico che utilizza un precedente uniforme.
Julian Karls,

3
MAPè anche una stima puntuale ed è malvisto da "Veri bayesiani"
Uri Goren,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.