Differenza tra intervalli di confidenza e intervalli di previsione


80

Per un intervallo di previsione nella regressione lineare, usi ancora per generare l'intervallo. Puoi anche usarlo per generare un intervallo di confidenza di . Qual è la differenza tra i due?E[Y| x0]E^[Y|x]=β0^+β^1xE[Y|x0]


7
E^[Y|x]=β0^+β^1x non "genera l'intervallo".
Glen_b,

Non vedo una ragione per la divergenza tra i due metodi in nessuna delle risposte sopra. I risultati della regressione sono generalmente stimati in base ai parametri parametrici di distribuzione t di Student e in genere la regressione, in particolare da modelli scarsamente abbinati ai modelli di regressione dei dati, porta a residui che non sono studentizzati, ad esempio, obliqui ma soprattutto con code pesanti che in genere (se non sempre) rendono misure parametriche di dispersione dei dati maggiori dei corrispondenti quantili misurati previsti. Una regola empirica che ho trovato utile: se vedo residui con valori anomali, code lunghe e tu
Carl

Risposte:


75

La tua domanda non è del tutto corretta. Un intervallo di confidenza fornisce un intervallo per , come dici tu. Un intervallo di previsione fornisce un intervallo per stesso. Naturalmente, la nostra ipotesi migliore per è , quindi gli intervalli saranno entrambi centrati sullo stesso valore, .y y E [ y | x ] x βE[yx]yyE[yx]xβ^

Come dice @Greg, gli errori standard saranno diversi --- supponiamo che il valore atteso di più preciso di quanto stimiamo stesso. La stima di richiede l'inclusione della varianza che deriva dal vero termine di errore.y yE[yx]yy

Per illustrare la differenza, immagina di poter ottenere stime perfette dei nostri coefficienti . Quindi, la nostra stima di sarebbe perfetta. Ma non saremmo ancora sicuri di cosa fossi perché c'è un vero termine di errore che dobbiamo considerare. Il nostro "intervallo" di confidenza sarebbe solo un punto perché stimiamo esattamente giusto, ma il nostro intervallo di previsione sarebbe più ampio perché prendiamo in considerazione il vero termine di errore.E [ y x ] y E [ y x ]βE[yx]yE[yx]

Pertanto, un intervallo di previsione sarà più ampio di un intervallo di confidenza.


40

La differenza tra un intervallo di previsione e un intervallo di confidenza è l'errore standard.

L'errore standard per un intervallo di confidenza sulla media tiene conto dell'incertezza dovuta al campionamento. La linea che hai calcolato dal tuo campione sarà diversa dalla linea che sarebbe stata calcolata se avessi l'intera popolazione, l'errore standard tiene conto di questa incertezza.

L'errore standard per un intervallo di previsione su un'osservazione individuale tiene conto dell'incertezza dovuta al campionamento come sopra, ma tiene conto anche della variabilità degli individui attorno alla media prevista. L'errore standard per l'intervallo di previsione sarà più ampio che per l'intervallo di confidenza e quindi l'intervallo di previsione sarà più ampio dell'intervallo di confidenza.


39

Ho trovato utile la seguente spiegazione:

Gli intervalli di confidenza indicano quanto bene hai determinato la media. Supponiamo che i dati vengano realmente campionati casualmente da una distribuzione gaussiana. Se lo fai molte volte e calcoli un intervallo di confidenza della media da ciascun campione, ti aspetteresti che circa il 95% di quegli intervalli includa il valore reale della media della popolazione. Il punto chiave è che l'intervallo di confidenza indica la posizione probabile del parametro di popolazione reale.

Gli intervalli di previsione indicano dove è possibile prevedere il campionamento del punto dati successivo. Supponiamo che i dati vengano realmente campionati casualmente da una distribuzione gaussiana. Raccogliere un campione di dati e calcolare un intervallo di previsione. Quindi assaggia un altro valore dalla popolazione. Se lo fai molte volte, ti aspetteresti che il valore successivo rientri nell'intervallo di predizione nel 95% dei campioni. Il punto chiave è che l'intervallo di predizione ti dice sulla distribuzione dei valori, non sull'incertezza nel determinare la popolazione significare.

Gli intervalli di previsione devono tenere conto sia dell'incertezza nel conoscere il valore della media della popolazione, sia della diffusione dei dati. Quindi un intervallo di previsione è sempre più ampio di un intervallo di confidenza.

Fonte: http://www.graphpad.com/support/faqid/1506/


Cosa diavolo si intende per "diffusione dei dati" qui?
tel

2
@tel: Ovviamente la varianza
vonjd

36

Uno è una previsione di un'osservazione futura e l'altro è una risposta media prevista. Darò una risposta più dettagliata per spiegare, si spera, la differenza e da dove proviene, oltre a come questa differenza si manifesta a intervalli più ampi per la previsione che per la fiducia.

Questo esempio potrebbe illustrare la differenza tra intervalli di confidenza e di previsione: supponiamo di avere un modello di regressione che prevede il prezzo delle case in base al numero di camere da letto, dimensioni, ecc. Esistono due tipi di previsioni che possiamo fare per un dato :x0

  1. Possiamo prevedere il prezzo per una nuova casa specifica che viene sul mercato con le caratteristiche ( "qual è il prezzo previsto per questa casa ?" ). Il suo vero prezzo sarà . Poiché , il prezzo previsto sarà Nel valutare la varianza di questa previsione, dobbiamo includere la nostra incertezza su , così come la nostra incertezza sulla nostra previsione (l'errore della nostra previsione) e quindi deve includere la varianza di (l'errore della nostra previsione). Questo è tipicamente chiamato previsione di un valore futuro .x0x0

    y=x0Tβ+ϵ
    E(ϵ)=0
    y^=x0Tβ^
    β^ϵ
  2. Possiamo anche prevedere il prezzo medio di una casa con caratteristiche ( "quale sarebbe il prezzo medio per una casa con caratteristiche ?" ). La stima puntuale è ancora , ma ora è necessario tenere conto solo della varianza in . Questo è in genere chiamato previsione della risposta media.x0x0

    y^=x0Tβ^
    β^

La maggior parte delle volte, quello che vogliamo veramente è il primo caso. Sappiamo che

var(x0Tβ^)=x0T(XTX)1x0σ2

Questa è la varianza per la nostra risposta media (caso 2). Ma, per una previsione di una futura osservazione (caso 1), ricordiamo che abbiamo bisogno della varianza di ; ha varianza e si presume che sia indipendente da . Usando una semplice algebra, si ottengono i seguenti intervalli di confidenza:x0Tβ^+ϵϵσ2β^

  1. CI per una singola risposta futura per :x0

    y^0±tnp(α/2)σ^x0T(XTX)1x0+1
  2. CI per la risposta media dato :x0

    y^0±tnp(α/2)σ^x0T(XTX)1x0

Dove è una statistica t con gradi di libertà al quantile . n - p α / 2tnpα/2npα/2

Spero che ciò renda un po 'più chiaro il motivo per cui l'intervallo di previsione è sempre più ampio e quale sia la differenza sottostante tra i due intervalli. Questo esempio è stato adattato da Faraway, Linear Models con R, Sec. 4.1.


2
È bello vedere un vecchio thread notevolmente migliorato da una risposta chiara e ponderata. Benvenuti nel nostro sito!
whuber

Non dovrebbe essere ... x0 + 1 / n +1 (per l'intervallo di previsione (1)) e ... x0 + 1 / n (per l'intervallo di confidenza (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/…
user48956

12

Risposta breve:

Un intervallo di previsione è un intervallo associato a una variabile casuale ancora da osservare (previsione).

Un intervallo di confidenza è un intervallo associato a un parametro ed è un concetto frequentista.

Controlla la risposta completa qui da Rob Hyndman, il creatore del pacchetto di previsioni in R.


3

Questa risposta è per quei lettori che non sono stati in grado di comprendere appieno le risposte precedenti. Discutiamo un esempio specifico. Supponiamo che tu provi a prevedere il peso delle persone in base alla loro altezza, sesso (maschio, femmina) e dieta (standard, a basso contenuto di carboidrati, vegetariano). Attualmente, ci sono più di 8 miliardi di persone sulla Terra. Certo, puoi trovare molte migliaia di persone che hanno la stessa altezza e altri due parametri ma peso diverso. I loro pesi differiscono selvaggiamente perché alcuni di loro hanno l'obesità e altri possono soffrire di fame. La maggior parte di quelle persone saranno da qualche parte nel mezzo.

Un compito è prevedere il peso medio di tutte le persone che hanno gli stessi valori di tutte e tre le variabili esplicative. Qui usiamo l'intervallo di confidenza. Un altro problema è prevedere il peso di una persona specifica. E non conosciamo le circostanze di vita di quell'individuo. Qui è necessario utilizzare l'intervallo di previsione. È centrato attorno allo stesso punto, ma deve essere molto più ampio dell'intervallo di confidenza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.