Perché un test del rapporto di verosimiglianza viene distribuito chi-quadrato?


34

Perché la statistica test di un test del rapporto di verosimiglianza è distribuita chi-quadrato?

2(ln Lalt modelln Lnull model)χdfaltdfnull2



14
Grazie per il riferimento. Eccone uno da me: stats.stackexchange.com/faq#etiquette
Dr. Beeblebrox,

5
Notare il "Porta il tuo senso dell'umorismo" lì. Non intendevo essere scortese, ma la risposta a questa domanda sarebbe relativamente noiosa e consisterebbe, sostanzialmente, nel contenuto di quell'articolo (o in alcuni dei migliori libri di testo statistici). Se affermi il tuo preciso problema con la spiegazione in uno di questi, sarò felice di aiutarti.
Nick Sabbe,

2
Link diretto al documento originale di Wilks senza paywall.
Ayorgo,

Risposte:


23

Come menzionato da @Nick, questa è una conseguenza del teorema di Wilks . Ma si noti che la statistica del test è asintoticamente , non χ 2-distribuita .χ2χ2

Sono molto impressionato da questo teorema perché si colloca in un contesto molto ampio. Si consideri un modello statistico con probabilità dove y è il vettore di osservazioni n osservazioni replicati indipendenti da una distribuzione con parametro θ appartenente ad una sottovariet'a B 1 di R d con dimensione dim ( B 1 ) = s . Sia B 0B 1 una sotto-cartella con dimensione dim ( B 0l(θy)ynθB1Rddim(B1)=sB0B1 . Immagina di essere interessato a testare H 0 : { θ B 0 } .dim(B0)=mH0:{θB0}

Il rapporto di verosimiglianza è Definisce ladevianzad(y)=2log(lr(y)). Quindiil teorema di Wilksdice che, in base alle solite assunzioni di regolarità,d(y)è asintoticamenteχ2-distribuitocons-mgradi di libertà quandoH0è vero.

lr(y)=cenareθB1l(θ|y)cenareθB0l(θ|y).
d(y)=2log(lr(y))d(y)χ2S-mH0

Lo dimostra il documento originale di Wilk menzionato da @Nick. Penso che questo documento non sia facile da leggere. Wilks pubblicò un libro più tardi, forse con una presentazione più semplice del suo teorema. Una breve prova euristica è fornita nell'eccellente libro di Williams .


3
Triste che questo teorema non sia menzionato nella pagina di Wikipedia dedicata a Samuel S. Wilks
Stéphane Laurent

5
Oh andiamo Stephane. Questa è Wikipedia, puoi modificarla e migliorarla!
StasK,

1
@StasK Lo so ma non ci ho mai provato. E trascorro già troppo tempo della mia vita con statistiche e matematica;)
Stéphane Laurent

C'è un'intuizione per cui il 2 è davanti al registro nella definizione della devianza?
user56834,

@ Programmer2134 Deriva da un'espansione taylor del secondo ordine.
Frank Vel,

25

Secondo il duro commento di Nick Sabbe, e la mia breve risposta è : non lo è . Voglio dire, è solo nel normale modello lineare. Per qualsiasi altro tipo di circostanza, la distribuzione esatta non è un . In molte situazioni, puoi sperare che le condizioni del teorema di Wilks siano soddisfatte e quindi asintoticamente le statistiche del test del rapporto verosimiglianza convergono nella distribuzione a χ 2 . Limitazioni e violazioni delle condizioni del teorema di Wilks sono troppo numerose per essere ignorate.χ2χ2

  1. Il teorema presume che i dati iid prevedano problemi con dati dipendenti, come serie temporali o campioni di sondaggi di probabilità disuguali (per i quali le probabilità sono scarsamente definite, comunque; i test "regolari" χ 2 , come i test di indipendenza nelle tabelle di contingenza, iniziano a comportarsi come somma k a k v k , v kiid χ 2 1 ( Rao & Scott ). Per i dati iid, a k = 1 e la somma diventa χ 2. Ma per i dati non indipendenti, questo non è più a lungo il caso.χ2kakvk,vki.i.d.χ12ak=1χ2
  2. Il teorema presuppone che il vero parametro sia all'interno dello spazio dei parametri. Se hai uno spazio euclideo con cui lavorare, non è un problema. Tuttavia, in alcuni problemi, possono sorgere restrizioni naturali, come la varianza 0 o la correlazione tra -1 e 1. Se il parametro vero è uno dei confini, la distribuzione asintotica è una miscela di χ 2 con diversi gradi di libertà, nel senso che il cdf del test è la somma di tali cdf ( Andrews 2001 , più due o tre altri suoi articoli dello stesso periodo, con la storia che risale a Chernoff 1954 ).χ2
  3. Il teorema presuppone che tutti i derivati ​​rilevanti siano diversi da zero. Questo può essere messo in discussione con alcuni problemi non lineari e / o parametrizzazioni e / o situazioni in cui un parametro non è identificato sotto il valore null. Supponiamo di avere un modello di miscela gaussiana e che il tuo null sia un componente rispetto all'alternativa di due componenti distinti f N ( μ 1 , σ 2 1 ) + ( 1 - f ) N ( μ 2 , σ 2 2 )N(μ0,σ02)fN(μ1,σ12)+(1f)N(μ2,σ22)con una frazione di miscelazione . Il null è apparentemente nidificato in alternativa, ma ciò può essere espresso in vari modi: come f = 0 (nel qual caso i parametri μ 1 , σ 2 1 non sono identificati), f = 1 (nel qual caso μ 2 , σ 2 2 non sono identificati) o μ 1 = μ 2 , σ 1 = σ 2 (nel qual caso fff=0μ1,σ12f=1μ2,σ22μ1=μ2,σ1=σ2fnon è identificato). Qui, non puoi nemmeno dire quanti gradi di libertà dovrebbe avere il tuo test, poiché hai un numero diverso di restrizioni a seconda di come parametrizzi l'annidamento. Guarda il lavoro di Jiahua Chen su questo, ad esempio CJS 2001 .
  4. Il può funzionare bene se la distribuzione è stato specificato in modo corretto. In caso contrario, il test si interromperà nuovamente. Nella sottozona (in gran parte trascurata dagli statistici) dell'analisi multivariata nota come modellizzazione della covarianza delle equazioni strutturali, viene spesso assunta una distribuzione normale multivariata, ma anche se la struttura è corretta, il test si comporterà in modo diverso se la distribuzione è diversa. Satorra e Bentler 1995 mostrano che la distribuzione diventerà k a k v k , v kiid χ 2 1 , la stessa storia dei dati non indipendenti nel mio punto 1, ma hanno anche dimostrato comeχ2kakvk,vki.i.d.χ12 s dipendono dalla struttura del modello e dai quarti momenti della distribuzione.ak
  5. Per i campioni finiti, in una grande classe di situazioni il rapporto di probabilità è Bartlett-correggibile : mentre per un campione di dimensione n , e F ( x ; χ 2 d ) essendo la funzione di distribuzione di χ 2 dProb[d(y)x]=F(x;χd2)[1+O(n1)]nF(x;χd2)χd2distribuzione, per i normali problemi di probabilità è possibile trovare una costante tale che P r o b [ d ( y ) / ( 1 + b / n ) x ] = F ( x ; χ 2 d ) [ 1 + O ( n - 2 ) ] , ovvero con un ordine di precisione superiore. Quindi il χ 2bProb[d(y)/(1+b/n)x]=F(x;χd2)[1+O(n2)]χ2l'approssimazione per i campioni finiti può essere migliorata (e probabilmente dovrebbe essere migliorata se si sa come). La costante dipende dalla struttura del modello e talvolta dai parametri ausiliari, ma se può essere stimata in modo coerente, anche questo funziona nel migliorare l'ordine di copertura.b

Per una revisione di questi e simili problemi esoterici nell'inferenza di verosimiglianza, vedi Smith 1989 .


1
B0B1 χ2

Con varianza nota, dovrei aggiungere.
StasK,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.