Intervallo di previsione per una futura proporzione di successi nell'impostazione Binomiale


9

Supponiamo che io inserisca una regressione binomiale e ottenga le stime puntuali e la matrice varianza-covarianza dei coefficienti di regressione. Ciò mi consentirà di ottenere un elemento della configurazione per la proporzione attesa di successi in un futuro esperimento, , ma ho bisogno di un elemento della configurazione per la proporzione osservata. Sono state pubblicate alcune risposte correlate, tra cui la simulazione (supponiamo che io non voglia farlo) e un link a Krishnamoorthya et al (che non risponde perfettamente alla mia domanda).p

Il mio ragionamento è il seguente: se usiamo solo il modello binomiale, siamo costretti ad assumere che sia campionato dalla distribuzione normale (con il corrispondente CI CI) e quindi è impossibile ottenere CI per la proporzione osservata in forma chiusa. Se assumiamo che sia campionato dalla distribuzione beta, allora le cose sono molto più facili perché il conteggio dei successi seguirà la distribuzione beta-binomiale. Dovremo presumere che non vi siano incertezze nei parametri beta stimati, e .p α βppαβ

Ci sono tre domande:

1) Uno teorico: va bene usare solo le stime puntuali dei parametri beta? So che per costruire un CI per l'osservazione futura nella regressione lineare multipla

Y=xβ+ϵ,ϵN(0,σ2)

fanno quel varianza del termine di errore wrt, . Prendo (correggimi se sbaglio) che la giustificazione è che in pratica è stimato con una precisione molto maggiore rispetto ai coefficienti di regressione e non otterremo molto cercando di incorporare l'incertezza di . Una giustificazione simile è applicabile ai parametri beta stimati, e ?σ 2 σ 2 α βσ2σ2σ2αβ

2) Quale pacchetto è meglio (R: gamlss-bb, betareg, aod ?; Ho anche accesso a SAS).

3) Dati i parametri beta stimati, esiste una scorciatoia (approssimativa) per ottenere i quantili (2,5%, 97,5%) per il conteggio dei successi futuri o, meglio ancora, per la proporzione di successi futuri nella distribuzione beta-binomiale.


Alla domanda uno, sì, questa è una cosa valida che la gente fa, si chiama Empirical Bayes: en.wikipedia.org/wiki/Empirical_Bayes_method
Paul

1
Non penso che l'uso del metodo XYZ per stimare un parametro del modello possa automaticamente implicare che è giusto ignorare l'incertezza della stima quando si produce un elemento della configurazione per un'osservazione futura. Ad esempio nella regressione lineare multipla usano OLS invece di EB, e l'incertezza in viene ignorata altrettanto bene. Perché? Inoltre, l'articolo Wiki non suggerisce mai che in EB la precisione della stima degli iperparametri di livello superiore è in genere molto più elevata che va bene considerarli fissi per scopi pratici. σ
James,

1
"Quando la distribuzione vera è fortemente acuta, la determinazione integrale p ( θ y ) potrebbe non essere molto cambiata sostituendo la distribuzione di probabilità su η con una stima puntuale η ∗ che rappresenta il picco della distribuzione". Se ciò è vero nel tuo caso dipende dalle specifiche del tuo dominio problematico. p(ηy)p(θy)ηη
Paul,

2
Buona domanda! Non puoi ottenere un perno, ma per quanto riguarda l'utilizzo della probabilità del profilo? Vedi quali metodi non bayesiani esistono per l'inferenza predittiva? .
Scortchi - Ripristina Monica

Risposte:


1

Tratterò tutte e 3 le parti della domanda.

Esistono due problemi correlati, il primo è il metodo utilizzato per adattare un modello di regressione in questo caso. Il secondo è come intervallo di stime dalle stime per prevedere una nuova stima.

se le variabili di risposta sono distribuite binomialmente, in genere si utilizza una regressione logistica o una regressione probit (glm con normale cdf come funzione di collegamento).

yi/ni

x<- rnorm(100, sd=2)
prob_true <- 1/(1+exp(-(1+5*x)))
counts <- rbinom(100, 50,prob_true)
print(d.AD <- data.frame(counts,x))
glm.D93 <- glm(counts/50 ~ x, family = binomial() )

Per un modello di regressione lineare la formula per un intervallo di previsione è:

y^i±tnpsy1+1n+(xix¯)2(n1)sx2

È possibile utilizzare il modello di regressione lineare come approssimazione per glm. Per fare ciò, dovresti eseguire una formula di regressione lineare per la combinazione lineare di predittori prima di eseguire la trasformazione del collegamento inverso per riportare le probabilità sulla scala 0-1. Il codice per farlo è inserito nella funzione R predict.glm (). Ecco un esempio di codice che farà anche una bella trama. ( EDIT : questo codice è per l'intervallo di confidenza, non per l'intervallo di previsione)

y_hat <- predict(glm.D93, type="link", se.fit=TRUE)
t_np<- qt(.975, 100-2, ncp=0)

ub <- y_hat$fit + t_np * y_hat$se.fit
lb <- y_hat$fit - t_np * y_hat$se.fit

point <- y_hat$fit

p_hat <- glm.D93$family$linkinv(point)
p_hat_lb <- glm.D93$family$linkinv(lb)
p_hat_ub <- glm.D93$family$linkinv(ub)

plot(x,p_hat)
points(x, p_hat_ub, col='red')
points(x, p_hat_lb, col='blue')

Puoi fare la stessa cosa per qualsiasi glm, ad esempio Poisson, gaussiano inverso, gamma, ecc. In ogni caso, fai l'intervallo di previsione sulla scala della combinazione lineare dei predittori. Dopo aver ottenuto i due punti finali dell'intervallo di previsione, questi punti finali vengono convertiti tramite il collegamento inverso. Per ciascuno dei glms che ho citato, il collegamento inverso potrebbe essere diverso dal caso logit che ho scritto qui. Spero che sia di aiuto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.