Comprensione della forma e del calcolo delle bande di confidenza nella regressione lineare


33

Sto cercando di capire l'origine della forma curva delle bande di confidenza associate a una regressione lineare OLS e come si relaziona agli intervalli di confidenza dei parametri di regressione (pendenza e intercetta), ad esempio (usando R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

inserisci qui la descrizione dell'immagine

Sembra che la banda sia correlata ai limiti delle linee calcolate con l'intercettazione del 2,5% e la pendenza del 97,5%, nonché con l'intercettazione del 97,5% e la pendenza del 2,5% (anche se non del tutto):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

inserisci qui la descrizione dell'immagine

Quello che non capisco sono due cose:

  1. Che dire della combinazione di pendenza del 2,5% e intercettazione del 2,5% nonché pendenza del 97,5% e intercettazione del 97,5%? Questi danno linee chiaramente al di fuori della banda tracciata sopra. Forse non capisco il significato di un intervallo di confidenza, ma se nel 95% dei casi le mie stime rientrano nell'intervallo di confidenza, queste sembrano un possibile risultato?
  2. Cosa determina la distanza minima tra il limite superiore e inferiore (ovvero vicino al punto in cui le due linee aggiunte sopra intercettano)?

Immagino che entrambe le domande sorgano perché non so / capisco come vengono effettivamente calcolate queste bande.

Come posso calcolare i limiti superiore e inferiore usando gli intervalli di confidenza dei parametri di regressione (senza fare affidamento su predict () o una funzione simile, cioè a mano)? Ho provato a decifrare la funzione predict.lm in R, ma la codifica è oltre me. Gradirei qualsiasi suggerimento per la letteratura pertinente o spiegazioni adatte per i principianti delle statistiche.

Grazie.


4
Di seguito hai due buone risposte. Se vuoi maggiori informazioni, può aiutarti a leggere la mia risposta qui: intervallo di predizione della regressione lineare , che riguarda gli intervalli di predizione, ma l'idea è molto simile.
gung - Ripristina Monica

2
C'è una spiegazione intuitiva dettagliata fornita in questo post: Forma dell'intervallo di confidenza per i valori previsti nella regressione lineare
Glen_b -Reinstate Monica

TA per le risposte utili e gli ottimi collegamenti.
David,

Risposte:


19

XsY^X

sY^X=sY|X1n+(XX¯)2i=1n(XiX¯)2

sY|X

sY|X=i=1n(YiY^)2n2

Y^±tν=n2,α/2sY^

YX

β^α^


1
Esiste un libro di testo che spiega da dove provengono queste formule?
Michael Goerz,

1
@MichaelGoerz Eventuali statistiche introduttive, biostatistica, econometria, ecc. Che coprano la regressione lineare ordinaria dei minimi quadrati dovrebbero avere.
Alexis,

Ho Wasserman - All of Statistics, James et al - An Introduction to Statistical Learning, e Hastie et al. - Gli elementi dell'apprendimento statistico. Non sono stato in grado di trovare le equazioni per le bande di confidenza della regressione lineare in nessuna di esse. Hai un numero di capitolo / eq per uno di questi o qualche altro libro ampiamente disponibile?
Michael Goerz,

2
Nessuno dei libri che menzioni sono i tipi di libri di cui Alexis sta discutendo. Il libro di Fox sulla regressione applicata ce l'ha se ricordo bene.
Glen_b

1
@MichaelGoerz Come Pagano, M. e Gauvreau, K. (2000). Principi di biostatistica . Duxbury Press, Pacific Grove, CA, 2nd edition e Glantz, SA (2011). primer di biostatistica . McGraw-Hill Medical, New York, NY, 7a edizione anche se non sono testi specifici per la regressione.
Alexis,

16

Bella domanda È importante capire questi concetti e non sono semplici.

y¯y¯y¯

Quando uniamo tutti gli intervalli di confidenza, per ogni possibile x, ci danno le bande grigie che vedi nell'output.

Ciò significa funzionalmente che siamo sicuri al 95% che la vera linea di regressione si trova da qualche parte in quella zona grigia.

Poiché le fasce di confidenza vengono calcolate utilizzando gli intervalli di confidenza al 95% per ogni singolo punto, è strettamente correlato all'IC del 95% per l'intercetta. In effetti, a x = 0 i bordi della zona grigia coincideranno esattamente con l'IC 95% per l'intercettazione, perché è così che abbiamo generato le bande di confidenza. Ecco perché le linee che hai aggiunto sopra colpiscono il bordo della banda grigia verso sinistra.

Tuttavia, la pendenza è leggermente diversa. Contribuisce ai limiti, come hai visto sopra, ma la pendenza e l'intercettazione non sono separabili in una regressione lineare. Quindi, non puoi davvero dire "beh, e se l'intercettazione fosse al minimo dell'intervallo CI e anche la pendenza fosse al minimo?" Questa linea genererebbe punti che sono ben al di fuori del nostro IC al 95% per molte x. Ciò significa che siamo sicuri al 95% che non sia la nostra vera linea di regressione.

x¯sy^x(xx¯)x=x¯

C'è un powerpoint decente qui che può aiutarti a visualizzare alcune di queste cose: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf


2
Penso di averlo corretto - sostituito gli yhats con ybar. È più corretto? Faccio sempre casino.
Duncan,

Ta. Una cosa che non mi è chiara è come rendere coerenti le seguenti due affermazioni: "Ciò che ciò significa funzionalmente è che siamo sicuri al 95% che la vera linea di regressione si trovi da qualche parte in quella zona grigia". vs "[...] gli intervalli di confidenza circa l'intercetta e la pendenza sono ancora altre quantità." Se la prima affermazione è corretta, ci deve essere una relazione (matematica?) Tra i CI di intercettazione e pendenza e la banda tracciata sopra? Immagino che ciò si riferisca a una parte della mia domanda: come posso calcolare (se possibile) la banda sopra usando gli CI di pendenza e intercettazione?
David,

1
Non è possibile calcolare le bande utilizzando solo gli elementi della configurazione di slop e intercettare perché le bande vengono generate calcolando gli elementi della configurazione in corrispondenza di ciascuna x. Man mano che le bande si restringono, più ti avvicinix¯

Bel post comprensibile e un bel link! +1
theforestecologist
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.