Perché l'errore standard dell'intercettazione aumenta con l'aumentare di da 0?


13

L'errore standard del termine di intercettazione ( ) in è dato da SE (\ hat {\ beta} _0) ^ 2 = \ sigma ^ 2 \ left [\ frac {1} {n} + \ frac {\ bar {x} ^ 2} {\ sum_ {i = 1} ^ n (x_i- \ bar {x}) ^ 2} \ right] dove \ bar {x} è la media di x_i .β^0y=β1x+β0+ε

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]
x¯xi

Da quanto ho capito, SE quantifica la tua incertezza, ad esempio, nel 95% dei campioni, l'intervallo [β^02SE,β^0+2SE] conterrà il vero β0 . Non riesco a capire come la SE, una misura di incertezza, aumenti con x¯ . Se sposto semplicemente i miei dati, in modo che x¯=0 , la mia incertezza diminuisce? Sembra irragionevole.

Un'interpretazione analoga è: nella versione non centrata dei miei dati, β^0 corrisponde alla mia previsione su x=0 , mentre nei dati centrati, β^0 corrisponde alla mia previsione su x=x¯ . Quindi questo significa che la mia incertezza sulla mia previsione su x=0 è maggiore della mia incertezza sulla mia previsione su x=x¯ ? Anche questo sembra irragionevole, l'errore ϵ ha la stessa varianza per tutti i valori di x , quindi la mia incertezza nei miei valori previsti dovrebbe essere la stessa per tutti x .

Sono sicuro che ci sono delle lacune nella mia comprensione. Qualcuno potrebbe aiutarmi a capire cosa sta succedendo?


3
Hai mai regredito qualcosa contro un appuntamento? Molti sistemi informatici iniziano le loro date in un lontano passato, spesso oltre 100 o oltre 2000 anni fa. L'intercetta stima il valore dei tuoi dati estrapolati all'indietro fino a quell'ora di inizio. Quanto saresti sicuro, per esempio, del prodotto interno lordo dell'Iraq nell'anno 0 CE basato sulla regressione di una serie di dati del 21 ° secolo?
whuber

Sono d'accordo, ha senso se ci pensi in questo modo. Questa e la risposta di Gung chiariscono le cose.
elexhobby

2
Questa risposta fornisce una spiegazione intuitiva, con diagrammi) di come si presenta, lanciando la linea adattata in termini di adattamento alla media (la linea adattata passa attraverso ) e mostra perché la posizione di dove può andare la linea si allarga quando ci si allontana da (che è causato dall'incertezza nella pendenza). ( ˉ x , ˉ y ) ˉ xx¯(x¯,y¯)x¯
Glen_b

Risposte:


16

Poiché la linea di regressione adattata dai minimi quadrati ordinari passerà necessariamente attraverso la media dei tuoi dati (cioè, ) - almeno fino a quando non sopprimerai l'intercettazione - incertezza sul valore reale della pendenza non ha alcun effetto sulla posizione verticale della linea alla media di (ovvero, a ). Ciò si traduce in una minore incertezza verticale in rispetto a quanto più ci si allontana da . Se l'intercettazione, dove è , ciò ridurrà al minimo l'incertezza sul valore reale dix y ˉ x ˉ x ˉ x x = 0 ˉ x β 0 β 0(x¯,y¯)xy^x¯x¯x¯x=0x¯β0. In termini matematici, questo si traduce nel valore più piccolo possibile dell'errore standard per . β^0

Ecco un rapido esempio in R:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

inserisci qui la descrizione dell'immagine

Questa cifra è un po 'occupata, ma puoi vedere i dati da diversi studi in cui la distribuzione di era più vicina o più lontana da . Le pendenze differiscono leggermente da studio a studio, ma sono in gran parte simili. (Notate che passano tutti attraverso la X cerchiata che ho usato per contrassegnare .) Tuttavia, l'incertezza sul vero valore di quelle pendenze provoca l'incertezza su per espandersi più si ottiene da , il che significa che è molto ampio per i dati che sono stati campionati in prossimità di e molto stretto per lo studio in cui i dati sono stati campionati in prossimità di . 0 ( ˉ x , ˉ y ) y ˉ x S E ( β 0 ) x = 10 x = 0x0(x¯,y¯)y^x¯SE(β^0)x=10x=0


Modifica in risposta al commento: Sfortunatamente, centrare i tuoi dati dopo averli non ti aiuterà se vuoi conoscere il probabile valore su un valore . Invece, devi centrare la tua raccolta di dati sul punto che ti interessa in primo luogo. Per comprendere meglio questi problemi, può essere utile leggere qui la mia risposta: Intervallo di previsione della regressione lineare . x x newyxxnew


Quindi, diciamo per qualche motivo che sono più interessato alla previsione al valore . La spiegazione sopra implica che non dovrei centrare i miei dati (cioè spostare modo che ), ma invece spostarli in modo che . È corretto? x ˉ x = 0 ˉ x = x x=xxx¯=0x¯=x
elexhobby,

La formula generale ha nel numeratore anziché : non è necessario alcuno spostamento. ˉ x 2(xx¯)2x¯2
whuber

@elexhobby, ho aggiunto alcune informazioni per rispondere al tuo commento, potresti anche voler guardare il materiale collegato. Fammi sapere se hai ancora bisogno di più.
gung - Ripristina Monica

Ecco come ho capito: ho letto altrove che . Ora l'errore nel valore previsto in causa di questa incertezza nella pendenza è . Inoltre, l'errore dovuto all'incertezza nella posizione verticale della linea è . Combinandoli insieme, otteniamo l'incertezza nel valore previsto a causa dell'incertezza in e is . Correggimi se sbaglio. SE(β^1)=σ2(xix¯)2xnewSE(β^1)(xnewx¯)2σ2nβ^1β^0σ2n+σ2(xnewx¯)2(xix¯)2
elexhobby

1
Inoltre, è chiaro perché l'errore nella posizione verticale è - sappiamo che la linea deve passare attraverso in . Ora contiene la media di iid errori, e quindi avrà SE uguale a . Wow! Grazie mille per il tuo diagramma e spiegazione chiara, apprezzo molto. σ2ny¯x=x¯y¯nσ2n
elexhobby
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.