Sto cercando di capire l'origine della forma curva delle bande di confidenza associate a una regressione lineare OLS e come si relaziona agli intervalli di confidenza dei parametri di regressione (pendenza e intercetta), ad esempio (usando R):
require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)
Sembra che la banda sia correlata ai limiti delle linee calcolate con l'intercettazione del 2,5% e la pendenza del 97,5%, nonché con l'intercettazione del 97,5% e la pendenza del 2,5% (anche se non del tutto):
xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))
Quello che non capisco sono due cose:
- Che dire della combinazione di pendenza del 2,5% e intercettazione del 2,5% nonché pendenza del 97,5% e intercettazione del 97,5%? Questi danno linee chiaramente al di fuori della banda tracciata sopra. Forse non capisco il significato di un intervallo di confidenza, ma se nel 95% dei casi le mie stime rientrano nell'intervallo di confidenza, queste sembrano un possibile risultato?
- Cosa determina la distanza minima tra il limite superiore e inferiore (ovvero vicino al punto in cui le due linee aggiunte sopra intercettano)?
Immagino che entrambe le domande sorgano perché non so / capisco come vengono effettivamente calcolate queste bande.
Come posso calcolare i limiti superiore e inferiore usando gli intervalli di confidenza dei parametri di regressione (senza fare affidamento su predict () o una funzione simile, cioè a mano)? Ho provato a decifrare la funzione predict.lm in R, ma la codifica è oltre me. Gradirei qualsiasi suggerimento per la letteratura pertinente o spiegazioni adatte per i principianti delle statistiche.
Grazie.