Come calcolare la copertura dell'intervallo discreto?
Cosa so fare:
Se avessi un modello continuo, potrei definire un intervallo di confidenza al 95% per ciascuno dei miei valori previsti, e quindi vedere quanto spesso i valori effettivi erano nell'intervallo di confidenza. Potrei scoprire che solo l'88% delle volte il mio intervallo di confidenza al 95% copriva i valori effettivi.
Cosa non so fare:
Come posso fare questo per un modello discreto, come il poisson o il gamma-poisson? Quello che ho per questo modello è il seguente, prendendo una singola osservazione (su oltre 100.000 ho intenzione di generare :)
Osservazione #: (arbitrario)
Valore previsto: 1.5
Probabilità prevista di 0: .223
Probabilità prevista di 1: .335
Probabilità prevista di 2: .251
Probabilità prevista di 3: .126
Probabilità prevista di 4: .048
Probabilità prevista di 5: .014 [e 5 o più è .019]
...(eccetera)
Probabilità prevista di 100 (o ad una cifra altrimenti irrealistica): .000
Valore reale (un numero intero come "4")
Si noti che mentre ho dato i valori di poisson sopra, nel modello reale un valore previsto di 1,5 può avere diverse probabilità previste di 0,1, ... 100 tra le osservazioni.
Sono confuso dalla discrezione dei valori. Un "5" è ovviamente al di fuori dell'intervallo del 95%, poiché c'è solo 0,019 a 5 e oltre, che è inferiore a 0,025. Ma ci saranno molti 4 - individualmente sono all'interno, ma come posso valutare congiuntamente il numero di 4 in modo più appropriato?
Perché me ne importa?
I modelli che sto guardando sono stati criticati per essere precisi a livello aggregato ma per dare previsioni individuali scarse. Voglio vedere quanto peggiori siano le previsioni individuali scarse rispetto agli intervalli di confidenza intrinsecamente ampi previsti dal modello. Mi aspetto che la copertura empirica sia peggiore (ad esempio, potrei trovare l'88% dei valori entro l'intervallo di confidenza del 95%), ma spero solo un po 'peggio.