Misura della bontà di adattamento in un modello che combina due distribuzioni

Ho dati con un doppio picco che sto cercando di modellare e c'è abbastanza sovrapposizione tra i picchi che non riesco a trattarli in modo indipendente. Un istogramma dei dati potrebbe assomigliare a questo:

testo alternativo

Ho creato due modelli per questo: uno usa due distribuzioni di Poisson e l'altro usa due distribuzioni binomiali negative (per tenere conto dell'iperdispersione). Qual è il modo appropriato per dire quale modello si adatta ai dati in modo più accurato?

Il mio pensiero iniziale è che potrei usare un test di Kolmogorov-Smirnov per confrontare ogni modello con i dati, quindi fare un test del rapporto di verosimiglianza per vedere se uno è significativamente migliore. ha senso? In tal caso, non sono esattamente sicuro di come eseguire il test del rapporto di verosimiglianza. Il chi-quadrato è appropriato e quanti gradi di libertà ho?

Se aiuta, un codice R (molto semplificato) per i modelli potrebbe assomigliare a questo:

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

Modifica: ecco un'immagine che potrebbe spiegare i dati e le distribuzioni che sto adattando meglio. È completamente chiaro dalla visualizzazione che il secondo modello (usando la dist binomiale negativa per spiegare la sovradispersione) si adatta meglio. Vorrei mostrarlo quantitativamente, però. testo alternativo

(rosso - dati, verde - modello)

— chrisamiller
fonte

conosci la distribuzione di probabilità dei valori in ogni bin ? L'etichetta dell'asse y mi fa pensare che questo potrebbe essere poissoniano o multinomiale? (supponendo che un modello ti dia la media in ogni cestino)

— Andre Holzner,

I dati sono essenzialmente ricavati da due processi di Poisson, ma ci sono variabili nascoste per le quali non posso correggermi, con conseguente sovraispersione. Pertanto, un binomio negativo è sicuramente un modello migliore. (vedi la nuova immagine / testo che ho aggiunto sopra). Devo dimostrare che il mio modello nb si adatta meglio quantitativamente.

— chrisamiller,

Che ne dici di una metrica come Mean Squared Error tra valori effettivi e previsti?

hrmm - Mi piace quell'idea, Srikant. È molto più semplice di quello che stavo pensando, ma ha ancora senso. Inserisci una risposta qui sotto in modo che io possa accreditarlo e inviare un rappresentante a modo tuo. Sono ancora interessato a sentire altri metodi, ma per ora potrebbe funzionare.

— chrisamiller,

Risposte:

È possibile utilizzare una metrica come Errore quadrato medio tra i valori effettivi e quelli previsti per confrontare i due modelli.

Questa è stata la risposta giusta per la mia situazione particolare, anche se la risposta di Glen_b mi ha aiutato a saperne di più. Quindi più voti per lui, accettarono la risposta per Srikant. Tutti vincono - grazie a tutti.

— Chrisamiller,

Non puoi confrontarli direttamente poiché il Binomio negativo ha più parametri. In effetti il Poisson è "nidificato" all'interno del Binomio negativo, nel senso che è un caso limitante, quindi il NegBin si adatterà sempre meglio del Poisson. Tuttavia, ciò rende possibile considerare qualcosa come un test del rapporto di verosimiglianza, ma il fatto che Poisson sia al limite dello spazio dei parametri per il binomio negativo può influenzare la distribuzione della statistica del test.

In ogni caso, anche se la differenza nel numero di parametri non era un problema, non puoi fare test KS direttamente perché hai parametri stimati e KS è specifico per il caso in cui tutti i parametri sono specificati. La tua idea di utilizzare il bootstrap affronta questo problema, ma non il primo (differenza nel numero di parametri)

Prenderei anche in considerazione prove regolari di bontà di adattamento (ad es. Vedi il libro di Rayner e Best), che, ad esempio, possono portare a suddividere la bontà chi-quadro del test di adattamento in componenti di interesse (misurare le deviazioni dal modello di Poisson in questo caso) - portato a dire il quarto ordine o il sesto ordine, questo dovrebbe portare a un test con una buona potenza per l'alternativa NegBin.

(Modifica: puoi confrontare i tuoi accoppiamenti di poisson e negbin tramite un test chi-quadro ma avrà una bassa potenza. Partizionare il chi-quadrato e guardare solo i primi 4-6 componenti, come si fa con i test regolari potrebbe fare meglio .)

— Glen_b - Ripristina Monica
fonte

Grazie. Ciò chiarisce un sacco di cose e apre tutta una serie di nuove domande sulle quali dovrò fare delle ricerche. Immagino che la mia domanda principale sia: ciò che stai dicendo significa che qualcosa di più semplice, come fare il root, significa un errore al quadrato, non è un modo valido per affrontare questo problema? Concederò che probabilmente non è così robusto e non mi darà un valore p, ma è qualcosa che potrei fare rapidamente mentre provo a rintracciare una copia del libro a cui fai riferimento. Ogni pensiero sarebbe apprezzato.

— Chrisamiller,

immagina di avere una serie di punti (x, y) e stavi considerando se potresti adattare una linea retta o un quadratico. Se si confronta RMSE, il quadratico batterebbe sempre la linea retta , perché la linea è quadratica con un parametro impostato su zero: se la stima dei minimi quadrati del parametro è esattamente zero (che ha probabilità zero per la risposta continua), è un pareggio, e in tutti gli altri casi la linea perde. È lo stesso con il Poisson vs il binomio negativo - un binomio negativo libero può sempre adattarsi almeno come pure un Poisson libero.

— Glen_b -Restate Monica

Bella spiegazione - ho capito cosa stai dicendo ora. Penso che il mio caso sia un po 'diverso, perché non sto facendo regressione per ottenere un adattamento, ma piuttosto, sto basando il parametro NB extra su informazioni esterne (mi aspetto che il rapporto var / mean sia N). Dato che Poisson è il caso speciale in cui N = 1, ciò che sto davvero confrontando è la scelta di N. Concordo sul fatto che se stavo facendo regressione, l'NB sarebbe sempre in grado di trovare una soluzione migliore, perché è meno vincolata. Nel mio caso, dove sto scegliendo un valore per N in anticipo, sarebbe certamente possibile scegliere un valore folle di N che peggiori l'adattamento.

— chrisamiller,

Certamente rileggerò i test regolari di bontà di adattamento che mi hai suggerito. Grazie per le risposte informative.

— chrisamiller,

Ci dispiace non rendermi conto che i dati non sono entrati nella scelta del parametro overdispersion. Potrebbero esserci delle argomentazioni per farlo a modo tuo, ma se è probabile che la stima esterna rifletta ciò che effettivamente osservi, l'NB potrebbe comunque avere qualche vantaggio a seconda delle circostanze.

— Glen_b -Restate Monica