Idea e intuizione dietro la stima della probabilità quasi massima (QMLE)


17

Domande: qual è l'idea e l'intuizione alla base della stima della massima verosimiglianza (QMLE; noto anche come stima della pseudo massima verosimiglianza, PMLE)? Cosa fa funzionare lo stimatore quando la distribuzione dell'errore effettiva non corrisponde alla distribuzione dell'errore ipotizzata?

Il sito di Wikipedia per QMLE va bene (breve, intuitivo, al punto), ma potrei usare un po 'più di intuizione e dettagli, forse anche un'illustrazione. Altre referenze sono benvenute. (Ricordo di aver esaminato parecchi libri di testo di econometria in cerca di materiale su QMLE, e con mia sorpresa, QMLE è stato trattato solo in uno o due di essi, ad esempio Wooldridge "Analisi econometrica di dati trasversali e panel" (2010), capitolo 13 Sezione 11, pagg. 502-517.)


2
Hai letto i lavori di White su questo?
Hejseb,

2
@hejseb, forse no, almeno non me lo ricordo bene. È questo ?
Richard Hardy,

1
Sì, è quello. Si basa fortemente su Huber (1967) , ovviamente, e lo riconosce pienamente. Ma quanto segue in econometria fa a malapena. E il documento di Huber, con tutto il dovuto rispetto è a malapena leggibile, a livello tecnico; Hal White ha sicuramente contribuito a una più facile digestione del problema.
StasK

Risposte:


7

"Cosa fa funzionare lo stimatore quando la distribuzione dell'errore effettiva non corrisponde alla distribuzione dell'errore ipotizzata?"

In linea di principio, il QMPLE non "funziona", nel senso di essere un "buono" stimatore. La teoria sviluppata attorno al QMLE è utile perché ha portato a test di errata specificazione.

Ciò che il QMLE fa certamente è stimare in modo coerente il vettore di parametro che minimizza la divergenza di Kullback-Leiber tra la distribuzione vera e quella specificata. Questo suona bene, ma minimizzare questa distanza non significa che la distanza minimizzata non sarà enorme.

Tuttavia, leggiamo che ci sono molte situazioni in cui il QMLE è uno stimatore coerente per il vero vettore di parametri. Questo deve essere valutato caso per caso, ma lasciatemi dare una situazione molto generale, che dimostra che non c'è nulla di inerente al QMLE che lo rende coerente per il vero vettore ...

... Piuttosto è il fatto che coincide con un altro stimatore che è sempre coerente (mantenendo l'assunto del campione ergodico-stazionario): lo stimatore del Metodo dei Momenti vecchio stile.

In altre parole, in caso di dubbi sulla distribuzione, una strategia da considerare è "specificare sempre una distribuzione per la quale lo stimatore della massima verosimiglianza per i parametri di interesse coincida con lo stimatore del metodo dei momenti" : in questo modo, non importa quanto fuori dal comune è il tuo presupposto distributivo, lo stimatore sarà almeno coerente.

Puoi prendere questa strategia a livelli ridicoli: supponi di avere un campione iid molto grande da una variabile casuale, in cui tutti i valori sono positivi. Continua e supponi che la variabile casuale sia normalmente distribuita e applica la massima probabilità per media e varianza: il tuo QMLE sarà coerente per i valori reali.

Naturalmente questo fa sorgere la domanda, perché pretendere di applicare l'MLE poiché ciò che stiamo essenzialmente facendo è fare affidamento e nasconderci dietro i punti di forza di Method of Moments (che garantisce anche la normalità asintotica)?

In altri casi più raffinati, si può dimostrare che QMLE è coerente per i parametri di interesse se possiamo dire che abbiamo specificato correttamente la funzione media condizionale ma non la distribuzione (questo è ad esempio il caso di Pooled Poisson QMLE - vedi Wooldridge) .


Questo è interessante. Potresti aggiungere alcuni riferimenti per tale teoria?
kjetil b halvorsen,

1
@kjetilbhalvorsen Questo non è un quadro teorico sviluppato, dal momento che sintetizza in modo ovvio alcuni risultati molto basilari. La sintesi apparve nella mia testa mentre venivo tormentato per le conseguenze della mancata specificazione. E credo che ci sia anche un lato "politico" nel non essere pubblicamente propagandato nei documenti di ricerca: non vorremmo detronizzare il re MLE, ora, vero?
Alecos Papadopoulos,

8

0=i=1nS(β,Xi,Yi)=DTW(Yg1(XTβ))
D=βg-1(XTβ)W=V-1

È interessante notare, tuttavia, che questa formulazione è stata ascoltata da uno stimatore del tipo di metodo dei momenti in cui si potrebbe semplicemente "impostare la cosa che si vuole stimare" nell'RHS dell'espressione tra parentesi e fidarsi che l'espressione converrebbe in "così interessante cosa". Era una forma proto di stima delle equazioni.

La stima delle equazioni non era un nuovo concetto. In effetti, i tentativi già nel 1870 e nei primi anni del 1900 di presentare gli EE correttamente derivati ​​limitano i teoremi degli EE usando espansioni di Taylor, ma la mancanza di connessione a un modello probabilistico era una causa di contesa tra i critici critici.

S

Tuttavia, contrariamente alla risposta sopra, il quasilikelihood è stato ampiamente utilizzato. Una discussione molto bella in McCullogh e Nelder riguarda la modellizzazione della popolazione dei granchi a ferro di cavallo. Non diversamente dagli umani, le loro abitudini di accoppiamento sono semplicemente bizzarre: in cui molti maschi possono raggiungere una sola femmina in "ammassi" non misurati. Da un punto di vista ecologista, l'osservazione effettiva di questi cluster è molto al di là dello scopo del loro lavoro, ma tuttavia arrivare a previsioni sulla dimensione della popolazione dal catch-and-release ha rappresentato una sfida significativa. Si scopre che questo modello di accoppiamento si traduce in un modello di Poisson con significativa sotto-dispersione, vale a dire la varianza è proporzionale, ma non uguale alla media.

Le dispersioni sono considerate parametri fastidiosi nel senso che generalmente non basiamo l'inferenza sul loro valore e la stima congiunta in una singola probabilità comporta probabilità altamente irregolari. La quasilikelihood è un'area di statistiche molto utile, soprattutto alla luce del lavoro successivo sulle equazioni di stima generalizzate .


1
(+1) Risposta molto utile.
Alecos Papadopoulos,

2

Avevo una domanda simile a quella originale pubblicata qui da Richard Hardy. La mia confusione era che i parametri stimati da quasi-ML potrebbero non esistere nella distribuzione "vera" sconosciuta. In questo caso, cosa significa esattamente "coerenza"? In cosa convergono i parametri stimati?

Dopo aver verificato alcuni riferimenti ( White (1982) dovrebbe essere uno degli articoli originali ma è chiuso. Un'esposizione utile che ho trovato è http://homepage.ntu.edu.tw/~ckuan/pdf/et01/ch9.pdf ), i miei pensieri in un inglese semplice sono i seguenti: dopo aver ammesso che la distribuzione che assumiamo è solo un'approssimazione a quella vera sconosciuta, la cosa pratica che possiamo fare è trovare il valore del parametro per minimizzare la loro distanza (distanza di Kullback-Leiblerper essere precisi). Il bello della teoria è che, senza la necessità di conoscere la vera distribuzione, i parametri stimati da quasi-ML convergono a questo parametro che minimizza la distanza (ovviamente, ci sono altri risultati utili dalla teoria come la distribuzione asintotica della stima parametri ecc. ma non sono al centro della mia domanda qui).

Proprio come Alecos Papadopolous ha menzionato nella sua risposta sopra, la distanza minimizzata potrebbe essere ancora grande. Quindi la distribuzione che assumiamo potrebbe essere una scarsa approssimazione a quella vera. Tutto ciò che quasi-ML può fare è rendere la nostra distribuzione presunta il più vicino possibile a quella sconosciuta vera. Spero che la mia esperienza condivisa qui possa essere utile per altri con confusioni simili.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.