Differenza tra previsioni "in-sample" e "pseudo out-of-sample"

Esiste una differenza esplicita tra previsioni nel campione e pseudo previsioni fuori dal campione . Entrambi sono intesi nel contesto della valutazione e del confronto di modelli previsionali.

— altabq
fonte

Supponi di avere i dati , dove e il tuo obiettivo è costruire un modello (ad esempio , ) per prevedere dato . Per concretezza, supponiamo che i dati siano giornalieri e che corrisponda a oggi. $\{Y_t,X_{t-h}\}_{t=h+1}^T$ $h \in \{1,2,\ldots\},$ $\hat f(X_{t-h})$ $Y_t$ $X_{t-h}$ $T$

Analisi all'interno del campione significa stimare il modello utilizzando tutti i dati disponibili fino a incluso , quindi confrontare i valori adattati del modello con le realizzazioni effettive. Tuttavia, questa procedura è nota per tracciare un quadro eccessivamente ottimistico della capacità di previsione del modello, dal momento che algoritmi di adattamento comuni (ad es. Uso dell'errore al quadrato o criteri di probabilità) tendono a prendersi cura di evitare errori di previsione di grandi dimensioni e sono quindi suscettibili al sovra-adattamento - rumore di errore per segnale nei dati. $T$

Una vera analisi out-of-sample sarebbe quella di stimare il modello in base ai dati fino ad oggi compreso, costruire una previsione del valore di domani , attendere fino a domani, registrare l'errore di previsione rivaluta il modello, fai una nuova previsione di e così via. Alla fine di questo esercizio, si avrebbe un campione di errori di previsione che sarebbe veramente fuori campione e darebbe un quadro molto realistico di le prestazioni del modello. $Y_{T+1}$ $e_{T+1} \equiv Y_{T+1} - \hat f(X_{T+1-h}),$ $Y_{T+2}$ $\{e_{T+l}\}_{l=1}^L$

Dal momento che questa procedura richiede molto tempo, le persone ricorrono spesso a analisi pseudo "simulate" o fuori campione, il che significa imitare la procedura descritta nell'ultimo paragrafo, usando piuttosto una data storica , piuttosto rispetto alla data odierna , come punto di partenza. Gli errori di previsione risultanti vengono quindi utilizzati per ottenere una stima della capacità di previsione fuori campione del modello. $T_0 < T$ $T$ $\{e_t\}_{t=T_0+1}^T$

Si noti che l'analisi pseudo-fuori campione non è l'unico modo per stimare le prestazioni fuori campione di un modello. Le alternative includono convalida incrociata e criteri di informazione.

Una buona discussione di tutte queste questioni è fornita nel capitolo 7 del

http://www.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf

— Fabian
fonte

Il link PDF non funziona, ma sembra essere il libro online gratuito di Tibshirani "Gli elementi dell'apprendimento statistico: data mining, inferenza e previsione"

— Oleg Melnikov