Risposte:
Supponi di avere i dati , dove e il tuo obiettivo è costruire un modello (ad esempio , ) per prevedere dato . Per concretezza, supponiamo che i dati siano giornalieri e che corrisponda a oggi.
Analisi all'interno del campione significa stimare il modello utilizzando tutti i dati disponibili fino a incluso , quindi confrontare i valori adattati del modello con le realizzazioni effettive. Tuttavia, questa procedura è nota per tracciare un quadro eccessivamente ottimistico della capacità di previsione del modello, dal momento che algoritmi di adattamento comuni (ad es. Uso dell'errore al quadrato o criteri di probabilità) tendono a prendersi cura di evitare errori di previsione di grandi dimensioni e sono quindi suscettibili al sovra-adattamento - rumore di errore per segnale nei dati.
Una vera analisi out-of-sample sarebbe quella di stimare il modello in base ai dati fino ad oggi compreso, costruire una previsione del valore di domani , attendere fino a domani, registrare l'errore di previsione rivaluta il modello, fai una nuova previsione di e così via. Alla fine di questo esercizio, si avrebbe un campione di errori di previsione che sarebbe veramente fuori campione e darebbe un quadro molto realistico di le prestazioni del modello.
Dal momento che questa procedura richiede molto tempo, le persone ricorrono spesso a analisi pseudo "simulate" o fuori campione, il che significa imitare la procedura descritta nell'ultimo paragrafo, usando piuttosto una data storica , piuttosto rispetto alla data odierna , come punto di partenza. Gli errori di previsione risultanti vengono quindi utilizzati per ottenere una stima della capacità di previsione fuori campione del modello.
Si noti che l'analisi pseudo-fuori campione non è l'unico modo per stimare le prestazioni fuori campione di un modello. Le alternative includono convalida incrociata e criteri di informazione.
Una buona discussione di tutte queste questioni è fornita nel capitolo 7 del
http://www.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf