Come definire una regione di rifiuto quando non c'è UMP?


13

Considera il modello di regressione lineare

y=Xβ+u ,

uN(0,σ2I) ,

E(uX)=0 .

Sia vs .H0:σ02=σ2H1:σ02σ2

Possiamo dedurre che , dove . E è la notazione tipica per la matrice annichilatrice, , dove è la variabile dipendente \ mathbf {y} è regredito su \ mathbf {X} .dim(X)=n×kMXMXy= y y yXyTMXyσ2χ2(nk)dim(X)=n×kMXMXy=y^y^yX

Il libro che sto leggendo afferma quanto segue: inserisci qui la descrizione dell'immagine

In precedenza ho chiesto quali criteri dovrebbero essere utilizzati per definire una regione di rifiuto (RR), vedere le risposte a questa domanda , e il principale era scegliere il RR che ha reso il test il più potente possibile.

In questo caso, con l'alternativa che è un'ipotesi composita bilaterale di solito non esiste un test UMP. Inoltre, secondo la risposta fornita nel libro, gli autori non mostrano se hanno studiato il potere del loro RR. Tuttavia, hanno scelto un RR a due code. Perché, dal momento che l'ipotesi non determina "unilateralmente" il RR?

Modifica: questa immagine è nel manuale della soluzione di questo libro come soluzione per l'esercizio 4.14.



@Scortchi grazie per il link. Potrei farti una domanda su questa domanda? Lo trovi interessante? Sto cercando di valutare se sto ponendo domande interessanti o se dovrei indirizzare i miei interessi verso altre aree ...
Un vecchio nel mare.

Naturalmente non tutti trovano interessante la teoria, ma alcune persone lo fanno (incluso me) e abbiamo quasi 2k qs taggatimathematical-statistics . Quindi, un bel q. IMO. È un po ' ampio, ma penso che una buona risposta rileggerebbe vari approcci e considerazioni, e un esempio motivante aiuta molto. (Avrei scelto un esempio il più semplice possibile - test sulla varianza di una distribuzione normale con media nota o media di una distribuzione esponenziale.) [A proposito, spesso mi dimentico di votare su qs quando le commento .]
Scortchi - Ripristina Monica

@Scortchi grazie per il tuo feedback. A volte non sono sicuro di strutturare bene la domanda, dato che sto studiando da solo.
Un vecchio nel mare.

2
Dovresti definireMX
Taylor il

Risposte:


7

È più semplice lavorare prima sul caso in cui i coefficienti di regressione sono noti e l'ipotesi nulla quindi semplice. Quindi la statistica sufficiente è , dove è il residuo; la sua distribuzione sotto il null è anche un chi-quadrato ridimensionato di e con gradi di libertà pari alla dimensione del campione . z σ 2 0 nT=z2zσ02n

il rapporto delle probabilità in & e conferma che è una funzione crescente di per qualsiasi : σ = σ 2 T σ 2 > σ 1σ=σ1σ=σ2Tσ2>σ1

La funzione del rapporto di verosimiglianza log è , e direttamente proporzionale a con gradiente positivo quando .

(σ2;T,n)(σ1;T,n)=n2[log(σ12σ22)+Tn(1σ121σ22)]
Tσ2>σ1

Quindi dal teorema Karlin – Rubin ciascuno dei test a una coda vs & vs è uniformemente il più potente. Chiaramente non esiste un test UMP di vs . Come discusso qui , l'esecuzione di entrambi i test con una coda e l'applicazione di una correzione di confronti multipli porta al test comunemente usato con regioni di rifiuto di dimensioni uguali in entrambe le code, ed è abbastanza ragionevole quando si intende affermare che o che quando si rifiuta il valore nullo.H A : σH0:σ=σ0HA:σ<σ0H0:σ=σ0HA:σ<σ0H0:σ=σ0HA:σσ0σ>σ0σ<σ0

Quindi trova il rapporto delle probabilità in , la stima della massima verosimiglianza di , & :σ=σ^σσ=σ0

Come , la statistica del test del rapporto di verosimiglianza log èσ^2=Tn

(σ^;T,n)(σ0;T,n)=n2[log(nσ02T)+Tnσ021]

Questa è una buona statistica per quantificare quanto i dati supportano su . E gli intervalli di confidenza formati dall'inversione del test del rapporto di verosimiglianza hanno la proprietà accattivante che tutti i valori dei parametri all'interno dell'intervallo hanno una probabilità più elevata di quelli esterni. La distribuzione asintotica del doppio del rapporto log-verosimiglianza è ben nota, ma per un test esatto, non è necessario provare a elaborarne la distribuzione, basta usare le probabilità di coda dei corrispondenti valori di in ciascuna coda.HA:σσ0H0:σ=σ0T

Se non puoi avere un test uniformemente più potente, potresti volerne uno più potente rispetto alle alternative più vicine al nulla. Trova la derivata della funzione log-verosimiglianza rispetto a , la funzione score:σ

d(σ;T,n)dσ=Tσ3nσ

La valutazione della sua grandezza a fornisce un test localmente più potente di vs . Poiché la statistica del test è limitata di seguito, con piccoli campioni la regione di rifiuto può essere limitata alla coda superiore. Ancora una volta, la distribuzione asintotica del punteggio quadrato è ben nota, ma è possibile ottenere un test esatto allo stesso modo dell'LRT.σ0H0:σ=σ0HA:σσ0

Un altro approccio è quello di limitare la tua attenzione ai test imparziali, vale a dire quelli per i quali la potenza in qualsiasi alternativa supera le dimensioni. Verifica che la tua statistica sufficiente abbia una distribuzione nella famiglia esponenziale; quindi per una dimensione test, se o , altrimenti , puoi trovare il test imparziale uniformemente più potente risolvendo αϕ(T)=1T<c1T>c2ϕ(T)=0

E(ϕ(T))=αE(Tϕ(T))=αET

Un diagramma aiuta a mostrare la distorsione nel test delle aree di coda uguale e come si presenta:

Diagramma della potenza del test rispetto alle alternative

A valori di un po 'più di la maggiore probabilità che le statistiche dei test cadano nel rifiuto del rifiuto della coda superiore non compensa la ridotta probabilità del suo cadere nella regione del rifiuto della coda inferiore e la potenza del il test scende al di sotto delle sue dimensioni.σ 0σσ0

Essere imparziali è buono; ma non è evidente che avere un'alimentazione leggermente inferiore alla dimensione su una piccola regione dello spazio dei parametri all'interno dell'alternativa sia così male da escludere del tutto un test.

Due dei suddetti test a due code coincidono (per questo caso, non in generale):

LRT è UMP tra test imparziali. Nei casi in cui ciò non è vero, l'LRT può essere asintoticamente imparziale.

Penso che tutti, anche i test a una coda, siano ammissibili, cioè non esiste un test più potente o altrettanto potente sotto tutte le alternative: puoi rendere il test più potente contro le alternative in una direzione solo rendendolo meno potente contro le alternative nell'altra direzione. All'aumentare della dimensione del campione, la distribuzione del chi-quadrato diventa sempre più simmetrica e tutti i test a due code finiranno per essere più o meno gli stessi (un altro motivo per usare il test facile a coda uguale).

Con l'ipotesi nulla composita, gli argomenti diventano un po 'più complicati, ma penso che si possano ottenere praticamente gli stessi risultati, mutatis mutandis. Si noti che uno ma non l'altro dei test a una coda è UMP!


Scortchi grazie per la tua risposta. Ho ancora qualche dubbio, però. In primo luogo, potresti approfondire un po 'di più la frase seguente? «L'applicazione di una correzione di confronti multipli porta al test comunemente usato con regioni di rifiuto di uguali dimensioni in entrambe le code, ed è abbastanza ragionevole quando si intende affermare che σ> σ0 o che σ <σ0 quando si rifiuta il valore nullo.» Inoltre, perché dici che è ragionevole? Penso che questo sia il nocciolo della mia domanda se non sbaglio. ;)
Un vecchio nel mare.

Ho letto questo paragrafo dalla tua risposta collegata, ma non l'ho capito bene «Raddoppiare il valore p più basso a una coda può essere visto come una correzione di confronti multipli per l'esecuzione di due test a una coda.» Sarei grato se potessi per favore spiegarlo un po 'di più. ;)
Un vecchio nel mare.

Vedi correzione Bonferroni . Se si eseguono due test separati di dimensione , l'errore di tipo I familiare non è superiore a e quando le regioni di rifiuto sono disgiunte è esattamente . Volevo sottolineare che il test delle aree di coda uguale può essere visto in questo modo perché le persone a volte sembrano pensare che le uniche ragioni per usarlo siano la facilità di calcolo e l'approssimazione agli altri test. In effetti ogni test ha una sua logica: quindi non direi che questo era il nocciolo della tua domanda; è una questione di cavalli per i corsi. α αα/2αα
Scortchi - Ripristina Monica

1

In questo caso, con l'alternativa che è un'ipotesi composita bilaterale di solito non esiste un test UMP.

Non sono sicuro che ciò sia vero in generale. Certamente, molti dei risultati classici (Neymon-Pearson, Karlin-Rubin) si basano su ipotesi semplici o unilaterali, ma esistono generalizzazioni all'ipotesi composita su due lati. Puoi trovare alcune note su questo qui , e più discussioni nel libro di testo qui .

Per il tuo problema specifico, non so se esiste o meno un test UMP. Ma intuitivamente, sembra che sotto una perdita di 0-1, un test unilaterale sarà probabilmente inammissibile, e quindi la classe di test ammissibili saranno tutti i test su due lati. Dai alla classe dei test su due lati, l'obiettivo è quello di trovare quello con la più grande potenza, che dovrebbe avvenire automaticamente scegliendo i quantili attorno all'unica modalità del . (Tutto basato sull'intuizione).χ2


3
Non c'è chiaramente un test uniformemente più potente in questo caso a causa dell'esistenza di diversi test più potenti contro particolari alternative in direzioni diverse da . Per un "migliore" test definito in termini di potenza dovresti cercare il test uniformemente più potente di tutti i test imparziali o di tutti i test invarianti ; o per un test localmente più potente; o qualcosa del genere - e forse finire per accontentarsi di qualsiasi test ammissibile. σ0
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.