Perché la prova di Wilks del 1938 non funziona per i modelli non specificati?


23

Nel famoso articolo del 1938 (" La grande distribuzione del rapporto di verosimiglianza per il test di ipotesi composite ", Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks derivò la distribuzione asintotica di (log verosimiglianza) per ipotesi nidificate, presupponendo che l'ipotesi più ampia sia specificata correttamente. La distribuzione limite è (chi-quadrato) con gradi di libertà, dove è il numero di parametri nell'ipotesi più grande eχ 2 h - m h m2×LLRχ2hmhmè il numero di parametri liberi nell'ipotesi nidificata. Tuttavia, è presumibilmente noto che questo risultato non vale quando le ipotesi sono errate (ad esempio, quando l'ipotesi più ampia non è la vera distribuzione per i dati campionati).

Qualcuno può spiegare perché? Mi sembra che la prova di Wilks dovrebbe ancora funzionare con lievi modifiche. Si basa sulla normalità asintotica della stima della massima verosimiglianza (MLE), che vale ancora per i modelli non specificati. L'unica differenza è la matrice di covarianza della normale multivariata limitante: per modelli correttamente specificati, possiamo approssimare la matrice di covarianza con la matrice d'informazione Fisher inversa , con errata specificazione, possiamo usare la stima sandwich della matrice di covarianza ( ). Quest'ultimo si riduce all'inverso della matrice di informazioni di Fisher quando il modello è correttamente specificato (poiché J - 1 K J - 1 JJ1J1KJ1J=K). AFAICT, la dimostrazione di Wilks non importa da dove provenga la stima della matrice di covarianza, purché si abbia una matrice di covarianza asintotica invertibile della normale multivariata per gli MLE ( nel documento di Wilks). c1


Quando il modello più grande è vero ma il sottomodello è falso, la distribuzione asintotica non è più (nei modelli lineari con errori gaussiani, ad esempio, otteniamo cose come esatte distribuzioni di F non centrale quindi la distribuzione asintotica dovrebbe essere qualcosa come nc- χ 2 Sto indovinando). Quindi perché dovremmo aspettarci che sia χ 2 quando sia il modello più grande che quello più piccolo hanno entrambi torto? Qual è esattamente l'ipotesi nulla qui per cominciare? χ2χ2χ2
ragazzo,

Nell'ipotesi nulla specificata correttamente, entrambi i modelli sono "veri", ma quello nidificato ha parametri fissi sui valori veri. Nell'ipotesi nulla specificata male, entrambi i modelli sono "falsi", ma quello nidificato ha m parametri fissati ai valori pseudotrue. ("Valore pseudotrue" è il valore asintotico del parametro che minimizza la distanza di Kullback-Liebler tra il modello errato e il modello reale). Quindi il tuo esempio di non-F centrale non è rilevante, poiché quella è la distribuzione quando l'ipotesi nulla qui è falsa. mm
ratsalad,

Spiacente, avrei dovuto dire che l'ipotesi nidificata ha parametri fissati sui valori reali. hm
ratsalad,

Comprendo che un modello nullo errato potrebbe essere erroneamente specificato in molti modi. Ad esempio: distribuzione errata dei residui, dati con eteroscedasticità, effetti non additivi, ecc. Tuttavia, concordo sul fatto che se almeno uno dei parametri "testati" è fissato su un valore falso (ad esempio il valore pseudotrue) , questo è un esempio di un modello null specificato in modo errato. hm
rcorty,

Risposte:


19

RV Foutz e RC Srivastava hanno esaminato la questione in dettaglio. Il loro articolo del 1977 "Le prestazioni del test del rapporto di verosimiglianza quando il modello non è corretto" contiene una dichiarazione del risultato distributivo in caso di errata specificazione insieme a un breve schizzo della prova, mentre il loro articolo del 1978 "La distribuzione asintotica del rapporto di verosimiglianza quando il modello non è corretto " contiene la dimostrazione, ma quest'ultimo è scritto in un vecchio tipo di macchina da scrivere (entrambi i documenti usano la stessa notazione, quindi è possibile combinarli nella lettura). Inoltre, per alcuni passaggi della dimostrazione fanno riferimento a un articolo di KP Roy "Una nota sulla distribuzione asintotica del rapporto di verosimiglianza" del 1957, che non sembra essere disponibile on-line, neppure con un cancello.

In caso di errata specificazione distributiva, se l'MLE è ancora coerente e asintoticamente normale (che non è sempre il caso), la statistica LR segue asintoticamente una combinazione lineare di chi-quadrati indipendenti (ciascuno con un grado di libertà)

2lnλdi=1rciχi2

dove . Si può vedere la "somiglianza": invece di un chi-quadrato con h - m gradi di libertà, abbiamo h - m chi-quadrati ciascuno con un grado di libertà. Ma l '"analogia" si ferma qui, perché una combinazione lineare di chi-quadrati non ha una densità di forma chiusa. Ogni chi-quadrato in scala è una gamma, ma con un parametro c i diverso che porta a un parametro di scala diverso per la gamma e la somma di tali gamme non è a forma chiusa, sebbene i suoi valori possano essere calcolati.r=hmhmhmci

Per le costanti , abbiamo c 1c 2. . . c r0 , e sono gli autovalori di una matrice ... quale matrice? Bene, usando la notazione degli autori, imposta Λ come Assia della verosimiglianza e C come prodotto esterno del gradiente della verosimiglianza (in termini attesi). Quindi V = Λ - 1 C ( Λ ) - 1 è la matrice di varianza-covarianza asintotica dell'MLE.cic1c2...cr0ΛCV=Λ1C(Λ)1

Quindi impostare essere il r × r blocco superiore diagonale di V . Mr×rV

Scrivi anche in forma di bloccoΛ

Λ=[Λr×rΛ2Λ2Λ3]

e imposta ( W è il negativo del complemento di Schur di Λ ).W=Λr×r+Λ2Λ31Λ2WΛ

Quindi i sono gli autovalori della matrice M W valutati ai valori reali dei parametri.ciMW

ADDENDUM
Rispondendo all'osservazione valida dell'OP nei commenti (a volte, in effetti, le domande diventano un trampolino di lancio per condividere un risultato più generale e possono essere trascurate nel processo), ecco come procede la prova di Wilks: Wilks inizia con l'articolazione distribuzione normale dell'MLE e procede a derivare l'espressione funzionale del rapporto di verosimiglianza. Fino al suo eq compreso , la prova può andare avanti anche se ipotizziamo che ci sia una mancata specificazione distributiva: come osserva il PO, i termini della matrice di covarianza della varianza saranno diversi nello scenario di errata specificazione, ma tutto ciò che Wilks fa è prendere derivati ​​e identificare termini asintoticamente trascurabili. E così arriva all'eq. [ 9 ][9][9]dove vediamo che la statistica del rapporto di verosimiglianza, se la specifica è corretta, è solo la somma delle variabili casuali normali standard quadrato, e quindi sono distribuite come un chi-quadrato con h - m gradi di libertà: (notazione generica )hmhm

2lnλ=i=1hm(nθ^iθiσi)2dχhm2

n(θ^θ)

So under misspecification we have something like

2lnλ=i=1hm(nθ^iθiai)2
and the best we can do is to manipulate it into

2lnλ=i=1hmσi2ai2(nθ^iθiσi)2=i=1hmσi2ai2χ12

which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. with hm degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.


1
So, this is just a restatement of the standard result when the model is misspecified. This result has been derived and re-derived many times. The clearest and most illuminating derivation I have seen is from Kent 1982 "Robust Properties of Likelihood Ratio Tests" (Biometrika 69:19). However, you did not answer my question. My question was specifically about Wilks 1938 proof, and why it fails.
ratsalad

2

Wilks' 1938 proof doesn't work because Wilks used J1 As the asymptotic covariance matrix in his proof. J1 is the inverse of the Hessian of the negative log likelihood rather than the sandwich estimator J1KJ1. Wilks references the ijth element of J as cij in his proof. By making the assumption that J1KJ1=J1 Wilks (1938) is assuming that K=J holds which is the Fisher Information Matrix equality. If the probability model is correctly specified then K=J. So one interpretation of the assumption by Wilks is that he is assuming the stronger assumption that the probability model is correctly specified.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.