Intervallo di confidenza per differenza di mezzi nella regressione


10

Supponiamo di avere un modello di regressione quadratica con gli errori soddisfano i soliti presupposti (indipendente, normale, indipendente dai valori ). Sia la stima dei minimi quadrati.

Y=β0+β1X+β2X2+ϵ
ϵXb0,b1,b2

Ho due nuovi valori e e sono interessato a ottenere un intervallo di confidenza per .Xx1x2v=E(Y|X=x2)E(Y|X=x1)=β1(x2x1)+β2(x22x12)

La stima del punto è e (correggimi se sbaglio) posso stimare la varianza di utilizzando le stime di varianza e covarianza dei coefficienti forniti dal software.v^=b1(x2x1)+b2(x22x12) s 2=(x2-x1)2Var(b1)+(x 2 2 -x 2 1 )2Var(b2)+2(x

s^2=(x2x1)2Var(b1)+(x22x12)2Var(b2)+2(x2x1)(x2x12)Cov(b1,b2)

Potrei usare un'approssimazione normale e prendere v^±1.96s^ come intervallo di confidenza al 95% per v , oppure potrei usare un intervallo di confidenza bootstrap, ma c'è un modo per calcolare l'esatta distribuzione e usarlo?


2
Poiché gli errori sono considerati normali, allora le stime dei parametri - essendo funzioni lineari dei dati, da cui anche gli errori - devono essere normali, implicando una distribuzione normale per . v^
whuber

Quindi stai dicendo che il normale intervallo di confidenza è corretto? Se ho capito bene, con quella logica useremmo anche normali intervalli di confidenza per i parametri. Ma usiamo gli intervalli in base alla distribuzione t.
mark999,

La distribuzione t viene utilizzata perché si sta valutando la varianza dell'errore; se questo fosse noto, avresti una distribuzione normale come dice @whuber.
JMS

Grazie per il tuo commento. Quello che sto chiedendo è: la distribuzione t può anche essere usata per un intervallo di confidenza per v come definito nella domanda e, in tal caso, con quanti gradi di libertà?
mark999,

Le varianze e le covarianze alla fine dipendono tutte dalla varianza stimata dei residui. Pertanto, il DF da utilizzare è il DF in questa stima, pari al numero di valori di dati meno il numero di parametri (inclusa la costante).
whuber

Risposte:


9

Il risultato generale che stai cercando (sotto le ipotesi dichiarate) è simile al seguente: Per la regressione lineare con variabili predittive (hai due, e ) e un'intercetta, quindi con osservazioni, il matrice di progettazione, lo stimatore dimensionale eX X 2pXX2nXn×(p+1)β^p+1aRp+1

aTβ^aTβσ^aT(XTX)1atnp1.

La conseguenza è che puoi costruire intervalli di confidenza per qualsiasi combinazione lineare del vettore usando la stessa distribuzione che usi per costruire un intervallo di confidenza per una delle coordinate.βt

Nel tuo caso, e . Il denominatore nella formula sopra è la radice quadrata di ciò che si calcola come stima dell'errore standard (a condizione che questo sia ciò che il software calcola ...). Si noti che lo stimatore di varianza, , dovrebbe essere lo (abituale) stimatore imparziale, in cui si divide per i gradi di libertà, , e non per il numero di osservazioni .a T = ( 0 , x 2 - x 1 , x 2 2 - x 2 1 ) σ 2 n - p - 1 np=2aT=(0,x2x1,x22x12)σ^2np1n


1
Grazie, è esattamente il genere di cosa che stavo cercando. Ma c'è un errore nella formula? Le dimensioni non sembrano corrispondere in . Dovrebbe essere i matrice avente quelli nella prima colonna? X n × ( p + 1 )aT(XTX)1aXn×(p+1)
mark999,

@ mark999, sì, ha colonne. L'ho corretto nella risposta. Grazie. p + 1Xp+1
NRH
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.