Intervallo di previsione della regressione lineare


24

Se la migliore approssimazione lineare (usando i minimi quadrati) dei miei punti dati è la linea , come posso calcolare l'errore di approssimazione? Se computo la deviazione standard delle differenze tra osservazioni e previsioni , posso in seguito dire che un valore reale (ma non osservato) appartiene all'intervallo ( ) con probabilità ~ 68%, ipotizzando una distribuzione normale?e i = r e a l ( x i ) - ( m x i + b ) y r = r e a l ( x 0 ) [ y p - σ , y p + σ ] y p = m x 0 + by=mx+bei=real(xi)(mxi+b)yr=real(x0)[ypσ,yp+σ]yp=mx0+b

Chiarire:

Ho fatto osservazioni riguardo una funzione valutandola con alcuni punti . Adatto queste osservazioni a una linea . Per che non ho osservato, vorrei sapere quanto grande può essere . Usando il metodo sopra, è corretto dire che con prob. ~ 68%?x i l ( x ) = m x + b x 0 f ( x 0 ) - l ( x 0 ) f ( x 0 ) [ l ( x 0 ) - σ , l ( x 0 ) + σ ]f(x)xil(x)=mx+bx0f(x0)l(x0)f(x0)[l(x0)σ,l(x0)+σ]


1
Penso che tu stia chiedendo degli intervalli di previsione. Si noti, tuttavia, che si utilizza " ", anziché " ". È un errore di battitura? Noi non prevediamo s. y ixiyix
gung - Ripristina Monica

@gung: io uso per indicare, ad esempio, il tempo il valore di alcune variabili in quel momento, quindi significa che ho fatto un'osservazione al momento . Voglio sapere fino a che punto le previsioni della funzione di adattamento possono essere dai valori reali di y. Ha senso? La funzione restituisce il valore "corretto" di in e i miei punti dati sono costituiti da . y y = f ( x ) y x r e a l ( x i ) y x i ( x i , r e a l ( x i ) )xyy=f(x)yxreal(xi)yxi(xi,real(xi))
bmx

1
Sembra perfettamente ragionevole. Le parti su cui mi sto concentrando sono, ad esempio, " ", di solito pensiamo agli errori / ai residui in un modello reg come " " . La DS dei residui svolge un ruolo nel calcolo degli intervalli di previsione. È quel " " che è strano per me; Mi chiedo se si tratta di un errore di battitura o se stai chiedendo qualcosa che non riconosco. e i = y i - ( m x i + b )ei=real(xi)(mxi+b)ei=yi(mxi+b)xi
gung - Ripristina Monica

Penso di vedere; Ho perso la tua modifica. Ciò suggerisce che il sistema è perfettamente deterministico e se si avesse accesso alla vera funzione sottostante, si potrebbe sempre prevedere perfettamente senza errori. Questo non è il modo in cui generalmente pensiamo ai modelli reg. yi
gung - Ripristina Monica

4
bmx, mi sembra che tu abbia una chiara idea della tua domanda e una buona consapevolezza di alcuni dei problemi. Potresti essere interessato a recensire tre discussioni strettamente correlate. stats.stackexchange.com/questions/17773 descrive gli intervalli di previsione in termini non tecnici; stats.stackexchange.com/questions/26702 fornisce una descrizione più matematica; e in stats.stackexchange.com/questions/9131 , Rob Hyndman fornisce la formula che cerchi. Se questi non rispondono completamente alla tua domanda, almeno possono darti una notazione standard e un vocabolario per chiarirlo.
whuber

Risposte:


30

@whuber ti ha indicato tre buone risposte, ma forse posso ancora scrivere qualcosa di valore. La tua domanda esplicita, a quanto ho capito, è:

Dato il mio modello montato,y^i=m^xi+b^ (nota che ho aggiunto 'cappelli') , e supponendo che i miei residui siano normalmente distribuiti, , posso prevedere che una risposta non ancora osservata, , con un valore predittivo noto, , rientrerà nell'intervallo , con una probabilità del 68%? N(0, σ 2 e )ynewxnew( y -σe, y +σe)N(0,σ^e2)ynewxnew(y^σe,y^+σe)

Intuitivamente, la risposta sembra che dovrebbe essere "sì", ma la vera risposta è forse . Questo sarà il caso in cui i parametri (ovvero, & ) sono noti e senza errori. Dato che hai stimato questi parametri, dobbiamo tener conto della loro incertezza. σm,b,σ

Pensiamo innanzitutto alla deviazione standard dei tuoi residui. Poiché questo è stimato dai tuoi dati, potrebbe esserci un errore nel preventivo. Di conseguenza, la distribuzione da utilizzare per formare l'intervallo di previsione dovrebbe essere , non la normale. Tuttavia, poiché la converge rapidamente alla normalità, è meno probabile che ciò costituisca un problema in pratica. ttdf errort

Quindi, possiamo semplicemente usare , invece di e segui la nostra strada allegra? Sfortunatamente no. Il problema più grande è che c'è incertezza sulla tua stima della media condizionale della risposta in quella posizione a causa dell'incertezza nelle tue stime & . Pertanto, la deviazione standard delle previsioni deve includere più di un semplice . Poiché le varianze si aggiungono , la varianza stimata delle previsioni sarà: Notare che la " y nuovo±z(1-α/2)s m b serrores 2 predizioni (nuova) =s 2 errore +Var( m xnuova+ B )xs2xsy^new±t(1α/2, df error)sy^new±z(1α/2)sm^b^serror

spredictions(new)2=serror2+Var(m^xnew+b^)
x"viene sottoscritto per rappresentare il valore specifico per la nuova osservazione e che" "viene corrispondentemente sottoscritto. In altre parole, il tuo intervallo di previsione dipende dalla posizione della nuova osservazione lungo l' asse . La deviazione standard del tuo le previsioni possono essere più convenientemente stimate con la seguente formula: Come nota a interessante, possiamo dedurre alcuni fatti sugli intervalli di previsione da questa equazione. Innanzitutto, gli intervalli di previsione saranno più stretti quanto più dati avremo quando abbiamo creato il modello di previsione (questo perché c'è meno incertezza in &s2xmbx0x
spredictions(new)=serror2(1+1N+(xnewx¯)2(xix¯)2)
m^b^). In secondo luogo, le previsioni saranno più precise se fatte alla media dei valori utilizzati per sviluppare il modello, poiché il numeratore per il terzo termine sarà . Il motivo è che in circostanze normali non vi è incertezza sulla pendenza stimata nella media dix0x, solo qualche incertezza sulla vera posizione verticale della linea di regressione. Pertanto, alcune lezioni da apprendere per la costruzione di modelli di previsione sono: che più dati sono utili, non per trovare "significato", ma per migliorare la precisione delle previsioni future; e che dovresti concentrare i tuoi sforzi di raccolta dei dati sull'intervallo in cui dovrai fare previsioni in futuro (per minimizzare quel numeratore), ma diffondere le osservazioni il più ampiamente possibile da quel centro (per massimizzare quel denominatore).

Avendo calcolato il valore corretto in questo modo, possiamo quindi usarlo con la distribuzione appropriata come indicato sopra. t

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.