Qual è la differenza tra le previsioni "in-sample" e "out-of-sample"?


17

Non capisco qual è esattamente la differenza tra la previsione "in-sample" e "out of sample"? Una previsione nel campione utilizza un sottoinsieme dei dati disponibili per prevedere i valori al di fuori del periodo di stima. Una previsione fuori campione utilizza invece tutti i dati disponibili Sono corretti ?

Molto specificamente la seguente definizione è corretta?

Una previsione all'interno del campione utilizza un sottoinsieme dei dati disponibili per prevedere i valori al di fuori del periodo di stima e confrontarli con i risultati noti o effettivi corrispondenti. Questo viene fatto per valutare la capacità del modello di prevedere valori noti. Ad esempio, una previsione all'interno del campione dal 1980 al 2015 potrebbe utilizzare i dati dal 1980 al 2012 per stimare il modello. Utilizzando questo modello, il meteorologo avrebbe quindi previsto i valori per il periodo 2013-2015 e confrontato i valori previsti con i valori noti effettivi. Una previsione fuori campione utilizza invece tutti i dati disponibili nel campione per stimare un modello. Per l'esempio precedente, la stima verrebbe effettuata nel periodo 1980-2015 e le previsioni inizierebbero nel 2016.


Potresti fornire qualche contesto? Le risposte fornite alla propria domanda sembrano a posto, ma la terminologia potrebbe essere specifica per argomento.
IWS

Da dove hai preso quelle definizioni?
gung - Ripristina Monica

Nell'esempio sono dati che conosci al momento della creazione del modello e che usi per costruire quel modello. I dati fuori campione sono dati non visti e si produce solo la previsione / previsione. Nella maggior parte dei casi il modello avrà prestazioni fuori campione peggiori rispetto a quelle in cui tutti i parametri sono stati calibrati.
Ric

@IWS Ho aggiunto una domanda
speciale

@Richard Per favore, leggi la nuova domanda
speciale

Risposte:


32

Per "campione" si intende l'esempio di dati che si sta utilizzando per adattarsi al modello.

Primo: hai un campione
Secondo, inserisci un modello sul
terzo Esempio : puoi usare il modello per le previsioni

Se stai effettuando una previsione per un'osservazione che faceva parte del campione di dati, si tratta di una previsione nel campione.

Se stai effettuando una previsione per un'osservazione che non faceva parte del campione di dati, si tratta di una previsione fuori campione.

Quindi la domanda che ti devi porre è: l'osservazione particolare è stata usata per adattarsi al modello o no? Se è stato utilizzato per l'adattamento del modello, la previsione dell'osservazione è inclusa nel campione. Altrimenti è fuori campione.

se si utilizzano i dati 1990-2013 per adattarsi al modello e quindi si prevede per il 2011-2013, si tratta di una previsione a campione. ma se si utilizza solo il periodo 1990-2010 per adattare il modello e quindi si prevede il periodo 2011-2013, la sua previsione fuori campione.


Abbiamo un campione dal 1990 al 2013, quindi adattiamo il modello al campione, quindi prevediamo il periodo 2011-2013, è questo nel campione? o Abbiamo un campione dal 1990 al 2013, quindi abbiamo inserito il modello dal 1990 al 2010 sul campione, prevediamo 2011-2013, è fuori campione?
Engin YILMAZ,

sì, se si utilizzano i dati 1990-2013 per adattarsi al modello e quindi si prevede per il 2011-2013, è una previsione a campione. ma se si utilizza solo il periodo 1990-2010 per adattare il modello e quindi si prevede il periodo 2011-2013, la sua previsione fuori campione.
Cavallo di re Salomone,

3

Supponiamo che nel tuo campione tu abbia una sequenza di 10 punti dati. Questi dati possono essere divisi in due parti, ad esempio i primi 7 punti dati per la stima dei parametri del modello e i successivi 3 punti dati per testare le prestazioni del modello. Usando il modello adattato, le previsioni fatte per i primi 7 punti dati saranno chiamate previsioni in campione e lo stesso per gli ultimi 3 punti dati saranno chiamati fuori dalla previsione campione. Questa è la stessa idea di suddividere i dati in set di addestramento e set di validazione.


1

La previsione all'interno del campione è il processo di valutazione formale delle capacità predittive dei modelli sviluppati utilizzando i dati osservati per vedere l'efficacia degli algoritmi nella riproduzione dei dati. È un po 'simile a un set di addestramento in un algoritmo di apprendimento automatico e il campione fuori campione è simile al set di test.


dai una spiegazione sintetica delle previsioni all'interno del campione - potresti fornire lo stesso anche per il fuori campione (ovvero una breve spiegazione non solo un confronto con i set di test)?
Rinnova il

0

Il diagramma seguente ti aiuterà a capire IN TIME e OUT OF TIME

inserisci qui la descrizione dell'immagine


-1

Nelle previsioni delle serie storiche, "Insample" indica i dati del treno "Outsample" indica i dati di test

Nelle serie storiche, per prima cosa possiamo prevedere i risultati per i dati "Insample" (ovvero i treni). In seguito possiamo prevedere i risultati per i dati di "outsample" (ovvero test).

model = ARIMA(order = (p,d,q), seasonal_order=(P,D,Q,S))
model.fit(train_data)

train_predictions = model.predict_in_sample()
test_predictions = model.predict(n_periods=len(test_data.index))

predictions = pd.concatenate((train_predictions, test_predictions),axis=0)

Penso che la tua risposta venga annullata, perché non risponde alla domanda, in particolare "Molto specificamente la seguente definizione è corretta?" non è indirizzato.
Martin Modrák,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.