@whuber ti ha indicato tre buone risposte, ma forse posso ancora scrivere qualcosa di valore. La tua domanda esplicita, a quanto ho capito, è:
Dato il mio modello montato,y^io= m^Xio+ b^ (nota che ho aggiunto 'cappelli') , e supponendo che i miei residui siano normalmente distribuiti, , posso prevedere che una risposta non ancora osservata, , con un valore predittivo noto, , rientrerà nell'intervallo , con una probabilità del 68%? N(0, σ 2 e )ynewxnew( y -σe, y +σe)N( 0 , σ^2e)yn e wXn e w( y^- σe, y^+ σe)
Intuitivamente, la risposta sembra che dovrebbe essere "sì", ma la vera risposta è forse . Questo sarà il caso in cui i parametri (ovvero, & ) sono noti e senza errori. Dato che hai stimato questi parametri, dobbiamo tener conto della loro incertezza. σm , b ,σ
Pensiamo innanzitutto alla deviazione standard dei tuoi residui. Poiché questo è stimato dai tuoi dati, potrebbe esserci un errore nel preventivo. Di conseguenza, la distribuzione da utilizzare per formare l'intervallo di previsione dovrebbe essere , non la normale. Tuttavia, poiché la converge rapidamente alla normalità, è meno probabile che ciò costituisca un problema in pratica. tterrore dft
Quindi, possiamo semplicemente usare , invece di e segui la nostra strada allegra? Sfortunatamente no. Il problema più grande è che c'è incertezza sulla tua stima della media condizionale della risposta in quella posizione a causa dell'incertezza nelle tue stime & . Pertanto, la deviazione standard delle previsioni deve includere più di un semplice . Poiché le varianze si aggiungono , la varianza stimata delle previsioni sarà:
Notare che la " y nuovo±z(1-α/2)s m b serrores 2 predizioni (nuova) =s 2 errore +Var( m xnuova+ B )xs2xsy^nuovo± t( 1 - α / 2 , errore df ) Sy^nuovo± z( 1 - α / 2 )Sm^B^Serrore
S2previsioni (nuovo)= s2errore+ Var ( m^Xnuovo+ b^)
X"viene sottoscritto per rappresentare il valore specifico per la nuova osservazione e che" "viene corrispondentemente sottoscritto. In altre parole, il tuo intervallo di previsione dipende dalla posizione della nuova osservazione lungo l' asse . La deviazione standard del tuo le previsioni possono essere più convenientemente stimate con la seguente formula:
Come nota a interessante, possiamo dedurre alcuni fatti sugli intervalli di previsione da questa equazione. Innanzitutto, gli intervalli di previsione saranno più stretti quanto più dati avremo quando abbiamo creato il modello di previsione (questo perché c'è meno incertezza in &
S2Xmbx0xSprevisioni (nuovo)= s2errore( 1 + 1N+ ( xnuovo- x¯)2∑ ( xio- x¯)2)------------------------√
m^B^). In secondo luogo, le previsioni saranno più precise se fatte alla media dei valori utilizzati per sviluppare il modello, poiché il numeratore per il terzo termine sarà . Il motivo è che in circostanze normali non vi è incertezza sulla pendenza stimata nella media di
X0X, solo qualche incertezza sulla vera posizione verticale della linea di regressione. Pertanto, alcune lezioni da apprendere per la costruzione di modelli di previsione sono: che più dati sono utili, non per trovare "significato", ma per migliorare la precisione delle previsioni future; e che dovresti concentrare i tuoi sforzi di raccolta dei dati sull'intervallo in cui dovrai fare previsioni in futuro (per minimizzare quel numeratore), ma diffondere le osservazioni il più ampiamente possibile da quel centro (per massimizzare quel denominatore).
Avendo calcolato il valore corretto in questo modo, possiamo quindi usarlo con la distribuzione appropriata come indicato sopra. t