Differenza tra previsioni "in-sample" e "pseudo out-of-sample"


12

Esiste una differenza esplicita tra previsioni nel campione e pseudo previsioni fuori dal campione . Entrambi sono intesi nel contesto della valutazione e del confronto di modelli previsionali.

Risposte:


18

Supponi di avere i dati , dove e il tuo obiettivo è costruire un modello (ad esempio , ) per prevedere dato . Per concretezza, supponiamo che i dati siano giornalieri e che corrisponda a oggi.{Yt,Xth}t=h+1Th{1,2,},f^(Xth)YtXthT

Analisi all'interno del campione significa stimare il modello utilizzando tutti i dati disponibili fino a incluso , quindi confrontare i valori adattati del modello con le realizzazioni effettive. Tuttavia, questa procedura è nota per tracciare un quadro eccessivamente ottimistico della capacità di previsione del modello, dal momento che algoritmi di adattamento comuni (ad es. Uso dell'errore al quadrato o criteri di probabilità) tendono a prendersi cura di evitare errori di previsione di grandi dimensioni e sono quindi suscettibili al sovra-adattamento - rumore di errore per segnale nei dati.T

Una vera analisi out-of-sample sarebbe quella di stimare il modello in base ai dati fino ad oggi compreso, costruire una previsione del valore di domani , attendere fino a domani, registrare l'errore di previsione rivaluta il modello, fai una nuova previsione di e così via. Alla fine di questo esercizio, si avrebbe un campione di errori di previsione che sarebbe veramente fuori campione e darebbe un quadro molto realistico di le prestazioni del modello. YT+1eT+1YT+1f^(XT+1h),YT+2{eT+l}l=1L

Dal momento che questa procedura richiede molto tempo, le persone ricorrono spesso a analisi pseudo "simulate" o fuori campione, il che significa imitare la procedura descritta nell'ultimo paragrafo, usando piuttosto una data storica , piuttosto rispetto alla data odierna , come punto di partenza. Gli errori di previsione risultanti vengono quindi utilizzati per ottenere una stima della capacità di previsione fuori campione del modello.T0<TT{et}t=T0+1T

Si noti che l'analisi pseudo-fuori campione non è l'unico modo per stimare le prestazioni fuori campione di un modello. Le alternative includono convalida incrociata e criteri di informazione.

Una buona discussione di tutte queste questioni è fornita nel capitolo 7 del

http://www.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf


3
Il link PDF non funziona, ma sembra essere il libro online gratuito di Tibshirani "Gli elementi dell'apprendimento statistico: data mining, inferenza e previsione"
Oleg Melnikov
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.