Bande di confidenza per la linea QQ


14

Questa domanda non riguarda specificamente R, ma ho scelto di usarla Rper illustrarla.

Considera il codice per produrre bande di confidenza attorno a una (normale) linea qq:

library(car)
library(MASS)
b0<-lm(deaths~.,data=road)
qqPlot(b0$resid,pch=16,line="robust")

Sto cercando una spiegazione di (o alternativa un collegamento a un documento cartaceo / online che spieghi) come sono costruite queste bande di confidenza (ho visto un riferimento a Fox 2002 nei file della guida di R, ma purtroppo non ho questo libro a portata di mano).

La mia domanda sarà resa più precisa con un esempio. Ecco come Rcalcola questi particolari elementi della configurazione (ho abbreviato / semplificato il codice utilizzato in car::qqPlot)

x<-b0$resid
good<-!is.na(x)
ord<-order(x[good])
ord.x<-x[good][ord]
n<-length(ord.x)
P<-ppoints(n)
z<-qnorm(P)
plot(z,ord.x,type="n")
coef<-coef(rlm(ord.x~z))
a<-coef[1]
b<-coef[2]
abline(a,b,col="red",lwd=2)
conf<-0.95
zz<-qnorm(1-(1-conf)/2)
SE<-(b/dnorm(z))*sqrt(P*(1-P)/n)     #[WHY?]
fit.value<-a+b*z
upper<-fit.value+zz*SE
lower<-fit.value-zz*SE
lines(z,upper,lty=2,lwd=2,col="red")
lines(z,lower,lty=2,lwd=2,col="red")

La domanda è: qual è la giustificazione per la formula utilizzata per calcolare questi SE (ad esempio la linea SE<-(b/dnorm(z))*sqrt(P*(1-P)/n)).

FWIW questa formula è molto diversa dalla formula delle solite bande di confidenza utilizzate nella regressione lineare


2
Mi aspetto che abbia a che fare con la distribuzione delle statistiche sugli ordini e in particolare il risultato asintotico :X(np)AN(F-1(p),p(1-
fX(K)(X)=n!(K-1)!(n-K)![FX(X)]K-1[1-FX(X)]n-KfX(X)
X(np)~UNN(F-1(p),p(1-p)n[f(F-1(p))]2)
Glen_b -Reinstate Monica

4
@Glen_b ha ragione. John Fox scrive alle pagine 35-36: "L'errore standard della statistica dell'ordine è dove è la funzione di densità di probabilità corrispondente al CDF . I valori lungo la linea adattata sono dati da . Pertanto, una "busta" di confidenza approssimativa al 95% attorno alla linea adattata è . " X(io) p(z)P(z)X(i)=μ+σziX(i)±2×SE(X(i))
SE(X(i))=σ^p(zi)Pi(1Pi)n
p(z)P(z)X^(i)=μ^+σ^ziX^(i)±2×SE(X(i))
COOLSerdash

2
Penso che l'unica cosa che resta da vedere è che è stimato da nell'equazione fornita da COOLSerdash. ( p ( z i ) / σ )f(F1(p))(p(zi)/σ^)
Glen_b -Restate Monica

Risposte:


6

Ha a che fare con la distribuzione delle statistiche dell'ordine e in particolare il risultato asintotico :

fX(k)(x)=n!(k1)!(nk)![FX(x)]k1[1FX(x)]nkfX(x)
X(np)AN(F1(p),p(1p)n[f(F1(p))]2)

Come menziona COOLSerdash nei commenti, John Fox [1] scrive alle pagine 35-36:

L'errore standard della statistica dell'ordine è dove è la funzione di densità di probabilità corrispondente al CDF . I valori lungo la linea adattata sono dati da . Una "busta" di confidenza approssimativa del 95% attorno alla linea adattata è quindi .X(i)

SE(X(i))=σ^p(zi)Pi(1Pi)n
p(z)P(z)X^(i)=μ^+σ^ziX^(i)±2×SE(X(i))

Quindi dobbiamo solo riconoscere che è stimato da .f(F1(p))(p(zi)/σ^)

[1] Fox, J. (2008),
Analisi di regressione applicata e modelli lineari generalizzati, 2a edizione. ,
Sage Publications, Inc

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.