Funzioni discrete: copertura dell'intervallo di confidenza?


9

Come calcolare la copertura dell'intervallo discreto?

Cosa so fare:

Se avessi un modello continuo, potrei definire un intervallo di confidenza al 95% per ciascuno dei miei valori previsti, e quindi vedere quanto spesso i valori effettivi erano nell'intervallo di confidenza. Potrei scoprire che solo l'88% delle volte il mio intervallo di confidenza al 95% copriva i valori effettivi.

Cosa non so fare:

Come posso fare questo per un modello discreto, come il poisson o il gamma-poisson? Quello che ho per questo modello è il seguente, prendendo una singola osservazione (su oltre 100.000 ho intenzione di generare :)

Osservazione #: (arbitrario)

Valore previsto: 1.5

Probabilità prevista di 0: .223

Probabilità prevista di 1: .335

Probabilità prevista di 2: .251

Probabilità prevista di 3: .126

Probabilità prevista di 4: .048

Probabilità prevista di 5: .014 [e 5 o più è .019]

...(eccetera)

Probabilità prevista di 100 (o ad una cifra altrimenti irrealistica): .000

Valore reale (un numero intero come "4")

Si noti che mentre ho dato i valori di poisson sopra, nel modello reale un valore previsto di 1,5 può avere diverse probabilità previste di 0,1, ... 100 tra le osservazioni.

Sono confuso dalla discrezione dei valori. Un "5" è ovviamente al di fuori dell'intervallo del 95%, poiché c'è solo 0,019 a 5 e oltre, che è inferiore a 0,025. Ma ci saranno molti 4 - individualmente sono all'interno, ma come posso valutare congiuntamente il numero di 4 in modo più appropriato?

Perché me ne importa?

I modelli che sto guardando sono stati criticati per essere precisi a livello aggregato ma per dare previsioni individuali scarse. Voglio vedere quanto peggiori siano le previsioni individuali scarse rispetto agli intervalli di confidenza intrinsecamente ampi previsti dal modello. Mi aspetto che la copertura empirica sia peggiore (ad esempio, potrei trovare l'88% dei valori entro l'intervallo di confidenza del 95%), ma spero solo un po 'peggio.

Risposte:


6

Gli intervalli di confidenza di Neyman non tentano di fornire copertura del parametro nel caso di un intervallo particolare. Forniscono invece una copertura su tutti i possibili valori dei parametri a lungo termine. In un certo senso cercano di essere accurati a livello globale a scapito dell'accuratezza locale.

Gli intervalli di confidenza per le proporzioni binomiali offrono una chiara illustrazione di questo problema. La valutazione neymaniana degli intervalli produce i diagrammi di copertura irregolare come questo, che è per intervalli di Clopper-Pearson al 95% per n = 10 studi binomiali:

Trama di copertura Clopper-Pearson

Esiste un modo alternativo per fare copertura, che personalmente ritengo sia molto più intuitivamente accessibile e (quindi) utile. La copertura per intervalli può essere specificata in base al risultato osservato. Tale copertura sarebbe copertura locale. Ecco un diagramma che mostra la copertura locale per tre diversi metodi di calcolo degli intervalli di confidenza per le proporzioni binomiali: Clopper-Pearson, i punteggi di Wilson e un metodo preciso condizionale che produce intervalli identici agli intervalli bayesiani con un precedente uniforme:

Copertura condizionale per tre tipi di intervallo

Si noti che il metodo Clopper-Pearson al 95% fornisce una copertura locale superiore al 98%, ma gli intervalli condizionali esatti sono, beh, esatti.

Un modo di pensare alla differenza tra gli intervalli globali e locali è quello di considerare le inversioni dei test di ipotesi di Neyman-Pearson a livello globale in cui il risultato è una decisione che viene presa sulla base della considerazione dei tassi di errore a lungo termine per l'attuale esperimento come membro dell'insieme globale di tutti gli esperimenti che potrebbero essere eseguiti. Gli intervalli locali sono più simili all'inversione dei test di significatività dei pescatori che producono un valore P che rappresenta l'evidenza contro il nulla in questo particolare esperimento.

(Per quanto ne so, la distinzione tra statistiche globali e locali è stata fatta per la prima volta in una tesi di master inedita di Claire F Leslie (1998) Mancanza di fiducia: uno studio sulla soppressione di alcuni contro-esempi alla teoria Neyman-Pearson di inferenza statistica con particolare riferimento alla teoria degli intervalli di confidenza. Tale tesi è sostenuta dalla biblioteca Baillieu dell'Università di Melbourne.)


2
Non credo che Claire Leslie abbia inventato la distinzione globale / locale, ma ne ha fatto una descrizione meravigliosamente dettagliata, con molti riferimenti. Consiglio vivamente la sua tesi.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.