Lemma di Neyman-Pearson


21

Ho letto il lemma di Neyman-Pearson dal libro Introduzione alla teoria della statistica di Mood, Graybill e Boes. Ma non ho capito il lemma.

Qualcuno può spiegarmi il lemma in parole semplici? Che cosa dice?

Lemma di Neyman-Pearson: Sia X1,,Xn un campione casuale di f(x;θ) , dove θ è uno dei due valori noti θ0 e θ1 , e sia fisso 0<α<1 .

Sia k una costante positiva e C un sottoinsieme di X che soddisfi:

(1)Pθ0[(X1,,Xn)C]=α
(2)λ=L(θ0;x1,,xn)L(θ1;x1,,xn)=L0L1kif (x1,,xn)C
andλk if (x1,,xn)C¯
Quindi il testγ corrispondente alla regione criticaC è un test molto potente della dimensioneα diH0:θ=θ0 rispetto aH1:θ=θ1

Espresso a parole, ho capito che i due criteri specificano

(1) P [respingere l'ipotesi nulla | l'ipotesi nulla è vera] = livello di significatività

(2) respinge l'ipotesi nulla quando il rapporto di verosimiglianza , λ una costante positiva k se (x1,,xn) rientra nella regione critica

Quindi il test è il test più potente di una semplice ipotesi .

  • Perché è solo per semplici ipotesi? Non può essere per l'ipotesi composita? La mia spiegazione a parole è corretta?

Risposte:


8

Penso che tu abbia capito bene il lemma.

Perché non funziona con un'alternativa composita? Come puoi vedere nel rapporto di verosimiglianza, dobbiamo inserire i parametri per l'ipotesi alternativa. Se l'alternativa è composita, quale parametro si intende inserire?


2
Puoi farlo funzionare per alternative composite se il rapporto di probabilità è monotono.
Michael R. Chernick,

11

Di recente ho scritto una voce in un blog di linkedin affermando il lemma di Neyman Pearson in parole semplici e fornendo un esempio. Ho trovato l'esempio aperto nel senso di fornire una chiara intuizione sul lemma. Come spesso in probabilità, si basa su una funzione di massa di probabilità discreta, quindi è facile da capire rispetto a quando si lavora con pdf. Inoltre, tieni conto che definisco il rapporto di verosimiglianza come la probabilità dell'ipotesi alternativa rispetto all'ipotesi nulla, contrariamente alla tua affermazione sul lemma. La spiegazione è la stessa, ma piuttosto che meno di adesso è maggiore di. Spero possa essere d'aiuto...

Quelli di voi che lavorano nell'analisi dei dati e hanno seguito alcuni corsi di statistica potrebbero aver imparato a conoscere il lemma di Neyman-Pearson (NP-lemma). Il messaggio è semplice, la dimostrazione non è così tanto, ma ciò che ho sempre trovato difficile è stato avere un'idea di cosa si trattasse. Leggendo un libro intitolato "Errori comuni in statistica" di PIGood e JWHardin, ho avuto una spiegazione ed un esempio che mi hanno aiutato a provare questa sensazione viscerale sul lemma NP che mi era sempre mancato.

In un linguaggio matematicamente non perfetto al 100%, ciò che Neyman-Pearson ci dice è che il test più potente che si può fare per convalidare una determinata ipotesi entro un certo livello di significato è dato da una regione di rifiuto fatta da tutte le possibili osservazioni provenienti da questo test con un rapporto di probabilità superiore a una certa soglia ... woahhh! Chi l'ha detto che è stato facile!

Mantieni la calma e decostruisci il lemma:

  1. Ipotesi . In statistica si lavora sempre con due ipotesi che un test statistico dovrebbe rifiutare o non rifiutare. C'è l'ipotesi nulla, che non sarà respinta fino a quando le prove a campione contro di essa non saranno abbastanza forti. C'è anche l'ipotesi alternativa, quella che prenderemo se il nulla sembra essere falso.
  2. Il potere di un test (noto anche come sensibilità) ci dice in quale proporzione di volte rifiuteremo correttamente l'ipotesi nulla quando è sbagliata. Vogliamo test potenti, quindi la maggior parte delle volte rifiutiamo l'ipotesi nulla che abbiamo ragione!
  3. Il livello di significatività di un test (noto anche come tasso di falsi positivi) ci dice in quale proporzione di volte rifiuteremo erroneamente l'ipotesi nulla quando è vera. Vogliamo un piccolo livello di significatività, quindi la maggior parte delle volte rifiutiamo l'ipotesi nulla che non sbagliamo!
  4. La regione del rifiuto , dati tutti i possibili risultati del test, la regione del rifiuto include quei risultati che ci faranno rifiutare l'ipotesi nulla a beneficio della sua alternativa.
  5. La probabilità è la probabilità di aver visto l'esito osservato del test dato che l'ipotesi nulla (Probabilità dell'ipotesi nulla) o alternativa (Probabilità dell'ipotesi alternativa) erano vere.
  6. Rapporto di probabilità , è il rapporto della probabilità di ipotesi alternativa divisa per la probabilità di ipotesi nulla. Se il risultato del test era molto atteso se l'ipotesi nulla fosse vera rispetto a quella alternativa, il rapporto di probabilità dovrebbe essere piccolo.

Abbastanza definizioni! (anche se se li guardi attentamente, ti accorgerai che sono molto penetranti!). Andiamo a ciò che Neyman e Pearson ci dicono: se vuoi avere il miglior test statistico possibile dal punto di vista della sua potenza, definisci la regione di rifiuto includendo quei risultati del test che hanno il più alto rapporto di probabilità e continua ad aggiungere altri test risultati finché non si raggiunge un determinato valore per il numero di volte in cui il test rifiuta l'ipotesi nulla quando è vera (livello di significatività).

Vediamo un esempio in cui si spera che tutto si unisca. L'esempio si basa sul libro di cui sopra. È completamente inventato da me stesso, quindi non dovrebbe essere visto come riflesso di alcuna realtà o opinione personale.

Immagina di voler determinare se qualcuno è favorevole alla fissazione di quote di immigrazione (ipotesi nulla) o meno (ipotesi alternativa) chiedendo i suoi sentimenti rispetto all'Unione Europea.

Immagina di conoscere l'attuale distribuzione di probabilità per entrambi i tipi di persone riguardo alla risposta alla nostra domanda:

inserisci qui la descrizione dell'immagine

Immaginiamo di essere disposti ad accettare un errore falso positivo del 30%, ovvero il 30% delle volte in cui rifiuteremo l'ipotesi nulla e assumeremo che l'intervistato sia contrario alle quote quando lui / lei è veramente per loro. Come costruiremmo il test?

Secondo Neyman e Pearson avremmo prima di tutto ottenuto il risultato con il più alto rapporto di probabilità. Questa è la risposta di "piace molto all'UE" con un rapporto di 3. Con questo risultato, se assumiamo che qualcuno sia contrario alle quote quando afferma che "gli piace davvero l'UE", il 10% delle volte che vorremmo assegnare per quote persone contro (significato). Tuttavia classificheremmo correttamente contro le persone con quote il 30% delle volte (potere) poiché non tutti in questo gruppo hanno la stessa opinione sull'UE.

Questo sembra essere un risultato scarso per quanto riguarda il potere. Tuttavia, il test non commette molti errori nella classificazione errata delle persone con quote (significato). Dato che siamo più flessibili riguardo al significato, cerchiamo il prossimo risultato del test che dovremmo aggiungere al sacco di risposte che respingono l'ipotesi nulla (regione di rifiuto).

La prossima risposta con il più alto rapporto di probabilità è "come l'UE". Se utilizziamo le risposte "mi piace davvero" e "mi piace" come risultati dei test che ci consentono di respingere l'ipotesi nulla di qualcuno che sta facendo riferimento alle quote, classificheremmo erroneamente per le persone delle quote non il 30% delle volte (il 10% da il "mi piace" e il 20% dal "mi piace") e classificheremmo correttamente le quote delle persone il 65% delle volte (il 30% da "mi piace" e il 35% da "mi piace"). Nel gergo statistico: il nostro significato è aumentato dal 10% al 30% (male!) Mentre la potenza del nostro test è aumentata dal 30% al 65% (bene!).

Questa è una situazione che hanno tutti i test statistici. Non c'è qualcosa come un pranzo gratis anche nelle statistiche! Se vuoi aumentare la potenza del tuo test, lo fai a spese dell'aumento del livello di significatività. O in termini più semplici: vuoi classificare meglio i bravi ragazzi, lo farai a scapito di avere più cattivi che stanno bene!

Fondamentalmente, ora abbiamo finito! Abbiamo creato il test più potente possibile con i dati forniti e un livello di significatività del 30% utilizzando le etichette "like like" e "like" per determinare se qualcuno è contrario alle quote ... siamo sicuri?

Cosa sarebbe successo se avessimo incluso il secondo passaggio dopo aver scelto la risposta "Mi piace davvero", la risposta "indifferente" anziché "mi piace"? Il significato del test sarebbe stato lo stesso di prima al 30%: il 10% per le persone con quota risponde "davvero" e il 20% per le persone con quota risponde "antipatia". Entrambi i test sarebbero altrettanto difficili da classificare erroneamente per gli individui con quote. Tuttavia, il potere peggiorerebbe! Con il nuovo test avremmo una potenza del 50% invece del 65% che avevamo prima: il 30% da "mi piace davvero" e il 20% da "indifferente". Con il nuovo test saremmo meno precisi nell'identificare contro le quote individuali!

Chi ha aiutato qui? Neyman-Person rapporto di verosimiglianza idea notevole! Prendendo ogni volta la risposta con il più alto rapporto di probabilità ci ha assicurato che includiamo nel nuovo test quanta più potenza possibile (numeratore grande) mantenendo il significato sotto controllo (piccolo denominatore)!


Caspita, vedere tutto in quel tavolo ha aiutato moltissimo e riferirsi a parti di esso ha aiutato moltissimo. Grazie!
Yatharth Agarwal,

5

Il contesto

(In questa sezione spiegherò solo i test di ipotesi, digito uno e due errori, ecc. Nel mio stile. Se ti senti a tuo agio con questo materiale, passa alla sezione successiva)

Il lemma di Neyman-Pearson emerge dal problema del semplice test delle ipotesi . Abbiamo due diverse distribuzioni di probabilità su uno spazio comuneΩ :P0 eP1 , chiamate ipotesi null e alternative. Sulla base di una singola osservazioneωΩ , dobbiamo pensare a quale delle due distribuzioni di probabilità è attiva. Untestè quindi una funzione cheassegnaa ciascunaω un'ipotesi di "ipotesi nulla" o di "ipotesi alternativa". Un test può ovviamente essere identificato con la regione in cui restituisce "alternativa", quindi stiamo solo cercando sottoinsiemi (eventi) dello spazio di probabilità.

In genere nelle applicazioni, l'ipotesi nulla corrisponde a una sorta di status quo, mentre l'ipotesi alternativa è un nuovo fenomeno che stai cercando di dimostrare o confutare è reale. Ad esempio, potresti testare qualcuno per poteri psichici. Esegui il test standard con le carte con linee ondulate o no, e fai indovinare un certo numero di volte. L'ipotesi nulla è che non otterranno più di uno su cinque a destra (dato che ci sono cinque carte), l'ipotesi alternativa è che sono psichici e possono ottenere di più a destra.

Quello che vorremmo fare è ridurre al minimo la probabilità di fare un errore. Sfortunatamente, questa è una nozione insignificante. Esistono due modi per commettere un errore. O l'ipotesi nulla è vera e tu assaggi un ω nella regione "alternativa" del tuo test, oppure l'ipotesi alternativa è vera e tu campiona la regione "nulla". Ora, se si fissa una regione A dello spazio di probabilità (un test), quindi i numeri P0(A) e P1(Ac), le probabilità di commettere questi due tipi di errori sono completamente ben definite, ma poiché non si ha alcuna nozione precedente di "probabilità che l'ipotesi nulla / alternativa sia vera", non è possibile ottenere una probabilità significativa di entrambi i tipi di sbaglio". Quindi questa è una situazione abbastanza tipica in matematica dove vogliamo il "migliore" di una classe di oggetti, ma quando guardi da vicino, non c'è "il migliore". In effetti, ciò che stiamo cercando di fare è minimizzare P0(A) massimizzando al contempo P1(A) , che sono obiettivi chiaramente opposti.

Tenendo presente l'esempio del test delle abilità psichiche, mi piace fare riferimento al tipo di errore in cui il nulla è vero ma tu concludi l'alternativa vera come " illusione " (credi che il ragazzo sia psichico ma non lo è), e il altro tipo di errore come " oblio ".

Il Lemma

L'approccio del lemma di Neyman-Pearson è il seguente: scegliamo solo la massima probabilità di illusione α che siamo disposti a tollerare, e quindi troviamo il test che ha una probabilità minima di oblio mentre soddisfa quel limite superiore. Il risultato è che tali test hanno sempre la forma di un test del rapporto di verosimiglianza:

Proposizione (lemma di Neyman-Pearson)

Se L0,L1 sono le funzioni di probabilità (PDF) delle ipotesi null e alternative e α>0 , la regione AΩ che massimizza P1(A)P0(A)α

A={ωΩL1(ω)L0(ω)K}

K>0 KP1(A)P1(B)BP0(B)P0(A)

KP0(A)=α

P1P0

P0P1RnP0(A)P0P1P0P1P0

Acquistare terra

Il cuore del lemma è quindi il seguente:

μΩfΩα>0Aμ(A)αAfdμ

{ωΩf(ω)K}
K>0f over all sets B smaller than itself in measure.

Suppose you're buying land. You can only afford α acres, but there's a utility function f over the land, quantifying, say, potential for growing crops, and so you want a region maximizing f. Then the above proposition says that your best bet is to basically order the land from most useful to least useful, and buy it up in order of best to worst until you reach the maximum area α. In hypothesis testing, μ is P0, and f is the density of P1 with respect to P0 (which, as already stated, is L1/L0).

Here's a quick heuristic proof: out of a given region of land A, consider some small one meter by one meter square tile, B. If you can find another tile B of the same area somewhere outside of A, but such that the utility of B is greater than that of B, then clearly A is not optimal, since it could be improved by swapping B for B. Thus an optimal region must be "closed upwards", meaning if xA and f(y)>f(x), then y must be in A, otherwise we could do better by swapping x and y. This is equivalent to saying that A is simply f1([K,+)) for some K.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.