La stima MLE è asintoticamente normale ed efficiente anche se il modello non è vero?

Premessa: questa potrebbe essere una domanda stupida. Conosco solo le dichiarazioni sulle proprietà asintotiche dell'MLE, ma non ho mai studiato le prove. Se lo facessi, forse non avrei fatto queste domande, o forse avrei realizzato che queste domande non hanno senso ... quindi per favore, andate piano con me :)

Ho visto spesso affermazioni che affermano che lo stimatore MLE dei parametri di un modello è asintoticamente normale ed efficiente. La dichiarazione è generalmente scritta come

$\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})$ come $N\to\infty$

dove è il numero di campioni, è l'informazione di Fisher e è il valore reale del parametro (vettore) . Ora, poiché esiste un riferimento a un modello vero, ciò significa che il risultato non sarà valido se il modello non è vero? $N$ $\mathbf{I}$ $\theta_0$

Esempio: supponiamo che il modello I sia in uscita da una turbina eolica in funzione della velocità del vento più il rumore gaussiano additivo $P$ $V$

$P=\beta_0+\beta_1V+\beta_2V^2+\epsilon$

So che il modello è sbagliato, per almeno due motivi: 1) è davvero proporzionale alla terza potenza di e 2) l'errore non è additivo, perché ho trascurato altri predittori che non sono correlati alla velocità del vento (lo so anche che dovrebbe essere 0 perché a 0 velocità del vento non viene generata energia, ma non è rilevante qui). Supponiamo ora di avere un database infinito di dati di potenza e velocità del vento dalla mia turbina eolica. Posso disegnare tutti i campioni che voglio, di qualsiasi dimensione. Supponiamo di disegnare 1000 campioni, ciascuno delle dimensioni di 100, e calcolare , la stima MLE di $P$ $V$ $\beta_0$ $\hat{\boldsymbol{\beta}}_{100}$ $\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$ (che sotto il mio modello sarebbe solo la stima OLS). Ho quindi 1000 campioni dalla distribuzione di $\hat{\boldsymbol{\beta}}_{100}$ . Posso ripetere l'esercizio con $N=500,1000,1500,\dots$ . Come $N\to\infty$ , la distribuzione di $\hat{\boldsymbol{\beta}}_{N}$ dovrebbe tendere ad essere asintoticamente normale, con la media e la varianza dichiarate? O il fatto che il modello sia errato invalida questo risultato?

Il motivo per cui mi chiedo è che raramente (se mai) i modelli sono "veri" nelle applicazioni. Se le proprietà asintotiche di MLE vengono perse quando il modello non è vero, potrebbe essere logico utilizzare diversi principi di stima, che seppur meno potenti in un ambiente in cui il modello è corretto, in altri casi potrebbero funzionare meglio di MLE.

EDIT : è stato notato nei commenti che la nozione di vero modello può essere problematica. Avevo in mente la seguente definizione: data una famiglia di modelli indicata dal vettore parametro , per ogni modello della famiglia puoi sempre scrivere $f_{\boldsymbol{\theta}}(x)$ $\boldsymbol{\theta}$

$Y=f_{\boldsymbol{\theta}}(X)+\epsilon$

semplicemente definendo come . Tuttavia, in generale l'errore non sarà ortogonale a , avrà media 0 e non avrà necessariamente la distribuzione assunta nella derivazione del modello. Se esiste un valore tale che ha queste due proprietà, così come la distribuzione presunta, direi che il modello è vero. Penso che ciò sia direttamente correlato al dire che , perché il termine di errore nella decomposizione $\epsilon$ $Y-f_{\boldsymbol{\theta}}(X)$ $X$ $\boldsymbol{\theta_0}$ $\epsilon$ $f_{\boldsymbol{\theta_0}}(X)=E[Y|X]$

$Y=E[Y|X]+\epsilon$

ha le due proprietà sopra menzionate.

maximum-likelihood model asymptotics

— DeltaIV
fonte

La stima MLE è spesso asintoticamente normale anche se il modello non è vero, ad esempio potrebbe essere coerente per i valori dei parametri "meno falsi". Ma in questi casi sarà difficile mostrare efficacia o altre proprietà di ottimalità.

— kjetil b halvorsen,

Prima dell'efficienza dovremmo considerare la coerenza. In uno scenario in cui la verità non è nel tuo spazio di ricerca, abbiamo bisogno di una diversa definizione di coerenza tale che: d (P *, P), dove d è una divergenza P * è il modello più vicino in termini di d, e P è verità. Quando d è la divergenza di KL (ciò che MLE sta minimizzando), ad esempio, è noto che le procedure bayesiane sono incoerenti (non può raggiungere il modello più vicino) a meno che il modello non sia convesso. Pertanto, suppongo che anche l'MLE sarà incoerente. Pertanto l'efficienza diventa mal definita. homepage.tudelft.nl/19j49/benelearn/papers/Paper_Grunwald.pdf

— Cagdas Ozgenc

@Cagdas Ozgenc: In molti casi (come la regressione logistica) MLE è ancora coerente per i parametri "meno falsi". Hai un riferimento per la tua richiesta di incoerenza nel caso non convesso? Sarebbe molto interessato? (La funzione di verosimiglianza della regressione logistica è convessa)

— kjetil b halvorsen,

@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf È molto complicato , ma è quello che capisco. Se la mia comprensione è falsa, per favore correggimi. Dopotutto sono solo un hobbista.

— Cagdas Ozgenc,

Penso che ci mettiamo nei guai quando usiamo termini come "modello è vero" o "meno falso". Quando si tratta di modelli in pratica, sono tutti approssimativi. Se facciamo alcune ipotesi possiamo usare la matematica per mostrare le proprietà statistiche. C'è sempre un conflitto qui tra la matematica della probabilità e l'analisi dei dati pratici.

— Michael R. Chernick,

Non credo che ci sia una sola risposta a questa domanda.

Quando consideriamo la possibile errata specificazione distributiva mentre applichiamo la stima della massima verosimiglianza, otteniamo quello che viene chiamato lo stimatore "Quasi-Maximum Likelihood" (QMLE). In alcuni casi il QMLE è sia coerente che asintoticamente normale.

Ciò che perde con certezza è l'efficienza asintotica. Questo perché la varianza asintotica di (questa è la quantità che ha una distribuzione asintotica, non solo ) è, in tutti i casi, $\sqrt n (\hat \theta - \theta)$ $\hat \theta$

\begin{matrix} (1) & Avar [\sqrt{n} (\hat{θ} - θ)] = plim ([\hat{H}]^{- 1} [\hat{S} {\hat{S}}^{T}] [\hat{H}]^{- 1}) \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = \text{plim}\Big( [\hat H]^{-1}[\hat S \hat S^T][\hat H]^{-1}\Big) \tag{1}$

dove è la matrice hessiana della probabilità logaritmica e è il gradiente, e il cappello indica le stime del campione. $H$ $S$

Ora, se abbiamo le specifiche corrette , otteniamo innanzitutto quello

\begin{matrix} (2) & Avar [\sqrt{n} (\hat{θ} - θ)] = (E [H_{0}])^{- 1} E [S_{0} S_{0}^{T}] (E [H_{0}])^{- 1} \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = (\mathbb E[H_0])^{-1}\mathbb E[S_0S_0^T](\mathbb E[H_0])^{-1} \tag{2}$

dove lo " " indica la valutazione ai parametri reali (e nota che il termine medio è la definizione di Fisher Information), e in secondo luogo, che la " uguaglianza della matrice di informazioni " sostiene e afferma che , il che significa che la varianza asintotica sarà finalmente $0$ $-\mathbb E[H_0] = \mathbb E[S_0S_0^T]$

\begin{matrix} (3) & Avar [\sqrt{n} (\hat{θ} - θ)] = - (E [H_{0}])^{- 1} \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = -(\mathbb E[H_0])^{-1} \tag{3}$

che è l'inverso delle informazioni di Fisher.

Ma se abbiamo errata specificazione, expression non porta a expression (perché la prima e la seconda derivata in sono state derivate in base alla probabilità errata). Questo a sua volta implica che la disuguaglianza della matrice di informazioni non regge, che non finiamo nell'espressione e che la (Q) MLE non raggiunge la piena efficienza asintotica. $(1)$ $(2)$ $(1)$ $(3)$

— Alecos Papadopoulos
fonte

Avar

$\text{Avar}$ è la varianza asintotica della variabile casuale e sta per convergenza in probabilità, giusto? La tua risposta sembra molto interessante, ma non capisco cosa sia nel tuo contesto. Mi riferivo a un caso in cui il giusto valore di semplicemente non esiste: vedi il mio esempio di turbina eolica, dove qualunque sia il valore di , non c'è valore che rende il modello corretto, poiché non esiste termine e mancano altri predittori correlati aCosa significherebbe in questo contesto?

plim

$\text{plim}$

θ

$\theta$

θ

$\theta$

β = (β_{0}, β_{1}, β_{2})

$\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$

β_{3}

$\beta_3$

V

$V$

θ

$\theta$

— DeltaIV

scusate, la prima edizione del mio commento era incomprensibile: ora il mio punto dovrebbe essere chiaro. In altre parole, se non esiste un "vero" , cosa dovremmo interpretare come nell'espressione ?

θ

$\theta$

θ

$\theta$

\sqrt{n} (\hat{θ} - θ)

$\sqrt n (\hat \theta - \theta)$

— DeltaIV

@DeltaIV Zero. Il QMLE "catturerà" questo? Dipende da quando sarà coerente o no, e di nuovo, non esiste una risposta unica a quella domanda

— Alecos Papadopoulos,

Ho capito. Quindi il QMLE (se coerente) dovrebbe convergere in : avrei pensato che converrebbe in un valore di parametro "meno falso", come suggerito da @kjetilbhalvorsen. Puoi suggerire qualche riferimento sul QMLE e sulle equazioni che hai scritto? Grazie

θ = 0

$\theta=0$

— DeltaIV

@DeltaIV Suggerirei l'esposizione in Hayashi ch. 7 su Extremum Estimators, per quanto riguarda la coerenza MLE, la normalità ecc. Per quanto riguarda QMLE l'argomento è piuttosto ampio. Ad esempio, in "QMLE" potremmo effettivamente avere anche situazioni in cui riconosciamo fin dall'inizio che i parametri che stiamo stimando potrebbero non avere una chiara connessione con alcun "parametro vero" (ma l'esercizio è ancora valido come approssimazione)., e quindi ottenere un vettore "meno falso" come suggerito.

— Alecos Papadopoulos,