Qual è la differenza tra stima e previsione?


46

Ad esempio, ho dati storici sulle perdite e sto calcolando quantili estremi (valore a rischio o probabile perdita massima). I risultati ottenuti sono per stimare la perdita o prevederli? Dove si può tracciare la linea? Sono confuso.


4
Strettamente correlata è una discussione sulla differenza tra intervalli di confidenza e intervalli di previsione su stats.stackexchange.com/questions/16493 .
whuber

Risposte:


65

"Predizione" e "stima" sono talvolta usate in modo intercambiabile nella scrittura non tecnica e sembrano funzionare in modo simile, ma esiste una netta distinzione tra loro nel modello standard di un problema statistico. Uno stimatore utilizza i dati per indovinare un parametro mentre un predittore utilizza i dati per indovinare un valore casuale che non fa parte del set di dati. Per coloro che non hanno familiarità con il significato di "parametro" e "valore casuale" nelle statistiche, di seguito viene fornita una spiegazione dettagliata.

In questo modello standard, si presume che i dati costituiscano un'osservazione (possibilmente multivariata) di una variabile casuale cui distribuzione è nota solo all'interno di un insieme definito di possibili distribuzioni, gli "stati della natura". Uno stimatore è una procedura matematica che assegna ad ogni possibile valore di alcune proprietà di uno stato di natura , come la sua media . Quindi una stima è un'ipotesi sul vero stato della natura. Possiamo dire quanto è buona una stima confrontando con . X t x t ( x ) θ μ ( θ ) t ( x ) μ ( θ )xX txt(x)θμ(θ)t(x)μ(θ)

Un predittore riguarda l'osservazione indipendente di un'altra variabile casuale cui distribuzione è correlata al vero stato della natura. Una previsione è un'ipotesi su un altro valore casuale. Possiamo dire quanto è buono una particolare previsione è solo confrontando al valore realizzato da . Speriamo che l'accordo sia in media buono (nel senso della media su tutti i possibili risultati e contemporaneamente su tutti i possibili valori di ).Z p ( x ) Z x Zp(x)Zp(x)Zx Z

I minimi quadrati ordinari offrono l'esempio standard. I dati sono costituiti da coppie associano i valori della variabile dipendente ai valori della variabile indipendente. Lo stato di natura è specificato da tre parametri , e : dice che ogni è come un disegno indipendente da una distribuzione normale con media e deviazione standard . , e sono parametri (numeri) ritenuti fissi e invariabili. L'interesse si concentra suy i x i α β σ y i α + β x i σ α β σ α β ( α , β ) α α β β α β(xi,yi)yixiαβσyiα+βxiσαβσα (l'intercetta) e (la pendenza). La stima OLS, scritta , è buona nel senso che tende ad essere vicino a e tende ad essere vicino ai , non importa ciò che i veri (ma sconosciuti) valori di e potrebbero essere .β(α^,β^)α^αβ^βαβ

La previsione OLS consiste nell'osservare un nuovo valore della variabile dipendente associata ad un valore della variabile indipendente. potrebbe essere o meno tra nel set di dati; questo è irrilevante. Una previsione intuitivamente buona è che questo nuovo valore sarà probabilmente vicino a . Previsioni migliori indicano quanto potrebbe essere vicino il nuovo valore (sono chiamati intervalli di previsione ). Rappresentano il fatto che e sono incerti (perché dipendono matematicamente dai valori casualix x x i α + β x αZ=Y(x)xxxiα^+β^xα^ (yi)σY(x)σalfa+βxβ^(yi) ), che non è noto per certo (e quindi deve essere stimato), così come l'assunzione che abbia una distribuzione normale con deviazione standard e media ( notare l'assenza di cappelli!).σY(x)σα+βx

Si noti in particolare che questa previsione ha due fonti separate di incertezza: l'incertezza nei dati porta all'incertezza nella pendenza stimata, intercetta e deviazione standard residua ( ); inoltre, vi è incertezza in quale valore di si verificherà. Questa ulteriore incertezza, poiché è casuale, caratterizza le previsioni. Una previsione può apparire come una stima (dopo tutto, stime :-) e può anche avere la stessa formula matematica ( volte può essere uguale aσ Y ( x ) Y ( x ) α + β x α + β x p ( x ) t ( x )(xi,yi)σY(x)Y(x)α^+β^x α+βxp(x)t(x)), ma arriverà con una maggiore incertezza rispetto alla stima.

Qui, quindi, nell'esempio di OLS, vediamo chiaramente la distinzione: una stima indovina i parametri (che sono numeri fissi ma sconosciuti), mentre una previsione indovina il valore di una quantità casuale. La fonte di potenziale confusione è che la previsione di solito si basa sui parametri stimati e potrebbe persino avere la stessa formula di uno stimatore.

In pratica, puoi distinguere gli stimatori dai predittori in due modi:

  1. scopo : uno stimatore cerca di conoscere una proprietà del vero stato della natura, mentre una previsione cerca di indovinare il risultato di una variabile casuale; e

  2. incertezza : un predittore di solito ha una maggiore incertezza rispetto a uno stimatore correlato, a causa dell'incertezza aggiunta nel risultato di quella variabile casuale. Pertanto, i predittori ben documentati e descritti di solito presentano bande di incertezza - intervalli di previsione - che sono più ampie delle bande di incertezza degli stimatori, note come intervalli di confidenza. Una caratteristica degli intervalli di previsione è che possono (ipoteticamente) ridursi man mano che il set di dati cresce, ma non si ridurranno alla larghezza zero - l'incertezza nel risultato casuale è "irriducibile" - mentre la larghezza degli intervalli di confidenza tenderà a ridursi a zero, corrispondente alla nostra intuizione che la precisione di una stima può diventare arbitrariamente buona con una quantità sufficiente di dati.

Nell'applicare questo per valutare la potenziale perdita di investimento, prima considera lo scopo: vuoi sapere quanto potresti effettivamente perdere su questo investimento (o questo particolare paniere di investimenti) in un determinato periodo, o stai davvero indovinando qual è il perdita attesa (forse in un vasto universo di investimenti)? Il primo è una previsione, il secondo una stima. Quindi considerare l'incertezza. Come cambierebbe la tua risposta se avessi risorse quasi infinite per raccogliere dati ed eseguire analisi? Se diventasse molto preciso, probabilmente stai stimando il rendimento atteso dell'investimento, mentre se rimani altamente incerto sulla risposta, stai facendo una previsione.

Pertanto, se non sei ancora sicuro di quale animale hai a che fare, chiedi al tuo stimatore / predittore: quanto è probabile che sia sbagliato e perché? Tramite entrambi i criteri (1) e (2) saprai cosa hai.


Risposta molto interessante! Puoi fornirci qualche riferimento a riguardo?
user1420303,

2
@ user1420303 Eccone due. (1) Kiefer, Introduzione all'inferenza statistica (1987), pag. 30. ("Un problema di previsione è quello in cui la decisione è un'ipotesi non di una proprietà di , ma piuttosto di una proprietà di una variabile casuale ...") (2) Hahn & Meeker, Statistical Intervals (1991) . Vedere la sezione 2.3 per esempi e interpretazioni. F
whuber

+1. Ho trovato la tua risposta perché sto cercando di capire la differenza terminologica tra BLU e BLUP nei modelli misti e non sono ancora sicuro di averla. Nel caso di un modello misto , in cui intercetta casuale , stimiamo e . Quindi possiamo prevedere . Questa differenza ho capito. E ? Sono calcolati con un BLU P , cioè con un "predittore"; ma sembra che con ogni incertezza scompaia, quindi non dovremmo dire che sono stimatiu iN ( 0 , σ 2 u ) α , β , σ , σ u y u i n u iy=α+βx+ui+ϵuiN(0,σu2) α,β,σ,σu yuinui?
ameba dice che ripristini Monica il

2
@amoeba Potrebbe essere utile comprendere questa situazione come un modello gerarchico: a un livello della gerarchia è casuale (quindi le dichiarazioni su di esso sarebbero predittori ) mentre a un livello successivo è stato realizzato e la successiva stima è subordinata alla realizzazione (fare dichiarazioni su di esso stimatori ). ui
whuber

2
@whuber Il punto più importante che hai sottolineato è che gli stimatori mirano sempre ad approssimare una quantità con natura non stocastica / non casuale come i parametri in un modello SLR; i predittori mirano sempre ad approssimare una quantità con natura stocastica / casuale come variabile di risposta (incluso il termine di errore) in un modello SLR. Questo punto è evidenziato nelle prime opere di Rao.
Henry.L

8

La stima è sempre per parametro sconosciuto mentre la previsione è per variabile casuale.


5
Si prevede la realizzazione di una variabile casuale mentre si stima un parametro di una variabile casuale (ad es. Il suo valore atteso).
Richard Hardy,

@CowboyTrader, non conosco abbastanza della stima della densità del kernel per commentare la tua richiesta.
Richard Hardy,

2

Non c'è differenza nei modelli. C'è davvero una (leggera) differenza nell'azione condotta. La stima è la calibrazione del tuo modello probabilistico utilizzando i dati ("apprendimento" nella terminologia AI). La previsione è la "supposizione" di un'osservazione futura. Supponendo che questa "ipotesi" si basi su dati passati, questo potrebbe essere un caso di stima; come la previsione dell'altezza della prossima persona che stai per incontrare usando una stima dell'altezza media nella popolazione. Si noti, tuttavia, che la previsione non è sempre un'istanza di stima. Il genere della prossima persona che stai per incontrare non è un parametro della popolazione in senso classico; La previsione del genere, potrebbe richiedere una stima, ma richiederà un po 'di più ...

Nel caso del valore a rischio, la previsione e la stima coincidono dalla perdita prevista , è l' aspettativa stimata della perdita.


2
Si inizia bene con una corretta distinzione tra stima e previsione, ma poi gli ultimi due terzi della risposta sembrano confondere ancora una volta la previsione con la stima. Introdurre l'esempio del genere diventa ancora più confuso, perché non è correlato alla distinzione iniziale (in realtà, è privo di senso, perché alla base di esso c'è uno spostamento del modello statistico tra la fase di stima e previsione).
whuber

0

La previsione è l'uso della funzione di regressione del campione per stimare un valore per la variabile dipendente condizionata su alcuni valori non osservati della variabile indipendente.

La stima è il processo o la tecnica per calcolare un parametro o una quantità sconosciuti della popolazione.


3
12

0

Di solito la "stima" è riservata ai parametri e la "previsione" è per i valori. Tuttavia, a volte la distinzione viene offuscata, ad esempio potresti aver visto qualcosa come "stimare il valore domani" anziché "prevedere il valore domani".

Il valore a rischio (VaR) è un caso interessante. Il VaR non è un parametro, ma non diciamo "prevedere il VaR". Diciamo "stima VaR". Perché?

Il motivo per cui il VaR non è una quantità casuale SE si conosce la distribuzione, E è necessario conoscere la distribuzione per calcolare il VaR. Quindi, se si utilizza l'approccio VaR parametrico, quindi si stimano prima i parametri della distribuzione, quindi si calcola il VaR. Se si utilizza il VaR non parametrico, si stima direttamente il VaR in modo simile a come si stima i parametri. A questo proposito è simile al quantile.

D'altra parte, l'importo della perdita è un valore casuale. Quindi, se ti viene chiesto di prevedere le perdite, dovresti prevederle non stimandole. Ancora una volta, a volte diciamo perdita "stimata". Quindi, la linea è sfocata, come ho scritto prima.


Dici che VaR non è un parametro, ma mi chiedo se sia davvero così. VaR è il quantile (condizionale o incondizionato) della distribuzione della variabile dipendente. In quanto tale, mi sembra un parametro della distribuzione, o almeno una funzione di alcuni altri parametri più fondamentali, che non sembra cambiare l'essenza. Non sembra la realizzazione di una variabile casuale.
Richard Hardy,

Inoltre, quando dici che la previsione è per i valori, si applica ai valori dei parametri tanto quanto alla realizzazione di variabili casuali (che sono anche valori). Quindi, suggerisco di sostituire i valori con la realizzazione di variabili casuali; allora avresti la dicotomia a cui stai mirando.
Richard Hardy,

-3

Trovo di seguito le definizioni più esplicative:

La stima è l'approssimazione calcolata di un risultato. Questo risultato potrebbe essere una previsione ma non necessariamente. Ad esempio, posso stimare che il numero di auto sul Golden Gate Bridge alle 17:00 di ieri era 900, supponendo che le tre corsie che vanno verso Marin fossero in grado, ogni auto occupa 30 piedi di spazio e il ponte è lungo 9000 piedi ( 9000/30 x 3 = 900).

L'estrapolazione sta stimando il valore di una variabile al di fuori di un intervallo di valori noto assumendo che il valore stimato segua un modello da quelli noti. La forma più semplice e più popolare di estrapolazione sta stimando una tendenza lineare basata sui dati noti. Le alternative all'estrapolazione lineare includono l'estrapolazione polinomiale e conica. Come la stima, l'estrapolazione può essere utilizzata per la previsione ma non si limita alla previsione.

La previsione sta semplicemente dicendo qualcosa sul futuro. Le previsioni si concentrano solitamente sugli esiti e non sul percorso verso tali esiti. Ad esempio, potrei prevedere che entro il 2050 tutti i veicoli saranno alimentati con motori elettrici senza spiegare come si passa dalla bassa adozione nel 2011 alla piena adozione entro il 2050. Come si può vedere dall'esempio precedente, le previsioni non sono necessariamente basate sui dati.

La previsione è il processo di creazione di una previsione o previsione. I termini previsione e previsione sono spesso usati in modo intercambiabile, ma a volte le previsioni si distinguono dalle previsioni in quanto le previsioni spesso forniscono spiegazioni dei percorsi verso un risultato. Ad esempio, una previsione di adozione di veicoli elettrici potrebbe includere il percorso verso l'adozione completa di veicoli elettrici seguendo un modello di adozione a S in cui poche auto sono elettriche prima del 2025, un punto di flesso si verifica a 2030 con adozione rapida e la maggior parte delle auto sono elettriche dopo il 2040.

Stima, estrapolazione, previsione e previsione non sono termini reciprocamente esaustivi e collettivamente esaustivi. Buone previsioni a lungo termine per problemi complessi spesso devono utilizzare tecniche diverse dall'estrapolazione per produrre risultati plausibili. Le previsioni e le previsioni possono anche verificarsi senza alcun tipo di stima calcolata.

vedi collegamenti definizioni1 definizioni2


2
La previsione non deve necessariamente riguardare il futuro.
miura,

leggilo completo: la previsione sta semplicemente dicendo qualcosa sul futuro. Le previsioni si concentrano solitamente sugli esiti e non sul percorso verso tali esiti.
sso

Sì, ma i risultati non devono essere futuri. Ad esempio, puoi anche prevedere risultati sconosciuti passati.
miura,

1
Questa è una spiegazione ragionevole di come le parole "stima" e "previsione" sono usate in senso non tecnico, non statistico . Come suggerisce @miura, dalle altre risposte emerge che questi sensi colloquiali differiscono da quelli statistici convenzionali. Vedo un valido argomento a favore dell'interpretazione della domanda originale in modo non statistico. Tuttavia, tale interpretazione introduce una limitazione scomoda e superflua non consentendo la "previsione" da applicare a eventi passati (completati) con esiti sconosciuti.
whuber

Se lo si applica al precedente filtro Kalman a varianza minima e si può usare un filtro a varianza minima per recuperare i dati di interesse da misurazioni rumorose. Le tecniche suddette si basano su fattori predittivi one-step-ahead ... quindi, ancora previsione un passo avanti (futuro) :)
sso
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.