Forma dell'intervallo di confidenza per i valori previsti nella regressione lineare


69

Ho notato che l'intervallo di confidenza per i valori previsti in una regressione lineare tende ad essere stretto intorno alla media del predittore e al grasso attorno ai valori minimo e massimo del predittore. Questo può essere visto nei grafici di queste 4 regressioni lineari:

inserisci qui la descrizione dell'immagine

Inizialmente pensavo che ciò avvenisse perché la maggior parte dei valori dei predittori erano concentrati attorno alla media del predittore. Tuttavia, ho notato quindi che il mezzo stretto dell'intervallo di confidenza si verificherebbe anche se molti valori di fossero concentrati attorno agli estremi del predittore, come nella regressione lineare in basso a sinistra, che molti valori del predittore sono concentrati attorno al minimo di il predittore.

qualcuno è in grado di spiegare perché gli intervalli di confidenza per i valori previsti in una regressione lineare tendono ad essere stretti nel mezzo e grassi agli estremi?

Risposte:


86

Ne discuterò in termini intuitivi.

Sia gli intervalli di confidenza che gli intervalli di previsione nella regressione tengono conto del fatto che l'intercettazione e la pendenza sono incerte: si stimano i valori dai dati, ma i valori della popolazione potrebbero essere diversi (se si preleva un nuovo campione, si otterrebbero stime diverse valori).

(x¯,y¯)y=a+b(xx¯)a^=y¯

(x¯,y¯)

±

inserisci qui la descrizione dell'immagine

x¯,y¯

inserisci qui la descrizione dell'immagine

(x¯,y¯)x

inserisci qui la descrizione dell'immagine

±

x¯

Questa è l'intuizione.


Ora, se vuoi, possiamo considerare una piccola algebra (ma non è essenziale):

In realtà è la radice quadrata della somma dei quadrati di quei due effetti: puoi vederlo nella formula dell'intervallo di confidenza. Costruiamo i pezzi:

abσ/nayxx¯

baσ/i=1n(xix¯)2xxx¯(xx¯)σ/i=1n(xix¯)2

y=a+b(xx¯)ab

(σ/n)2+[(xx¯)σ/i=1n(xix¯)2]2

x

σ1n+(xx¯)2i=1n(xix¯)2

xx¯

[Con gli intervalli di previsione, c'è anche la variazione di posizione dovuta alla variabilità del processo; questo aggiunge un altro termine che sposta i limiti su e giù, facendo una diffusione molto più ampia, e poiché quel termine di solito domina la somma sotto la radice quadrata, la curvatura è molto meno pronunciata.]


Grazie Glen_b è molto intuitivo. Non mi era passato per la testa, questo è ciò che rappresenta l'intervallo di confidenza.
luciano,

1

La risposta accettata porta davvero l'intuizione necessaria. Manca solo la visualizzazione della combinazione di incertezze lineari e angolari, che rimanda molto bene alle trame della domanda. Quindi eccolo qui. Chiamiamo a'e b'le incertezze ae b, rispettivamente, delle quantità comunemente restituite da qualsiasi pacchetto statistico popolare. Quindi abbiamo, a parte il miglior adattamento a*x + b, quattro possibili linee da tracciare (in questo caso di 1 covariata x):

  • (a+a')*x + b+b'
  • (a-a')*x + b-b'
  • (a+a')*x + b-b'
  • (a-a')*x + b+b'

Queste sono le quattro linee raccolte nel grafico seguente. La linea spessa nera nel mezzo rappresenta la misura migliore senza incertezze. Quindi, per disegnare le ombre "iperboliche", si dovrebbero prendere i valori massimo e minimo di queste quattro linee combinate, che in realtà sono quattro segmenti di linea, senza curve lì (mi chiedo quanto esattamente questi grafici di recinzione disegnino la curva, non sembra qualsiasi preciso per me).

Spero che questo aggiunga qualcosa alla già bella risposta di @Glen_b.

inserisci qui la descrizione dell'immagine

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.