Differenza tra intervalli di confidenza e intervalli di previsione

80

Per un intervallo di previsione nella regressione lineare, usi ancora per generare l'intervallo. Puoi anche usarlo per generare un intervallo di confidenza di . Qual è la differenza tra i due? $\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$ $E[Y|x_0]$

— domanda
fonte

7

\hat{E} [Y | x] = \hat{β_{0}} + {\hat{β}}_{1} x

$\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$ non "genera l'intervallo".

— Glen_b,

Non vedo una ragione per la divergenza tra i due metodi in nessuna delle risposte sopra. I risultati della regressione sono generalmente stimati in base ai parametri parametrici di distribuzione t di Student e in genere la regressione, in particolare da modelli scarsamente abbinati ai modelli di regressione dei dati, porta a residui che non sono studentizzati, ad esempio, obliqui ma soprattutto con code pesanti che in genere (se non sempre) rendono misure parametriche di dispersione dei dati maggiori dei corrispondenti quantili misurati previsti. Una regola empirica che ho trovato utile: se vedo residui con valori anomali, code lunghe e tu

— Carl

Correlati: ottenere una formula per i limiti di previsione in un modello lineare .

— Scortchi - Ripristina Monica

75

La tua domanda non è del tutto corretta. Un intervallo di confidenza fornisce un intervallo per , come dici tu. Un intervallo di previsione fornisce un intervallo per stesso. Naturalmente, la nostra ipotesi migliore per è , quindi gli intervalli saranno entrambi centrati sullo stesso valore, . $\text{E}[y \mid x]$ $y$ $y$ $\text{E}[y \mid x]$ $x\hat{\beta}$

Come dice @Greg, gli errori standard saranno diversi --- supponiamo che il valore atteso di più preciso di quanto stimiamo stesso. La stima di richiede l'inclusione della varianza che deriva dal vero termine di errore. $\text{E}[y \mid x]$ $y$ $y$

Per illustrare la differenza, immagina di poter ottenere stime perfette dei nostri coefficienti . Quindi, la nostra stima di sarebbe perfetta. Ma non saremmo ancora sicuri di cosa fossi perché c'è un vero termine di errore che dobbiamo considerare. Il nostro "intervallo" di confidenza sarebbe solo un punto perché stimiamo esattamente giusto, ma il nostro intervallo di previsione sarebbe più ampio perché prendiamo in considerazione il vero termine di errore. $\beta$ $\text{E}[y \mid x]$ $y$ $\text{E}[y \mid x]$

Pertanto, un intervallo di previsione sarà più ampio di un intervallo di confidenza.

— Charlie
fonte

40

La differenza tra un intervallo di previsione e un intervallo di confidenza è l'errore standard.

L'errore standard per un intervallo di confidenza sulla media tiene conto dell'incertezza dovuta al campionamento. La linea che hai calcolato dal tuo campione sarà diversa dalla linea che sarebbe stata calcolata se avessi l'intera popolazione, l'errore standard tiene conto di questa incertezza.

L'errore standard per un intervallo di previsione su un'osservazione individuale tiene conto dell'incertezza dovuta al campionamento come sopra, ma tiene conto anche della variabilità degli individui attorno alla media prevista. L'errore standard per l'intervallo di previsione sarà più ampio che per l'intervallo di confidenza e quindi l'intervallo di previsione sarà più ampio dell'intervallo di confidenza.

— Greg Snow
fonte

39

Ho trovato utile la seguente spiegazione:

Gli intervalli di confidenza indicano quanto bene hai determinato la media. Supponiamo che i dati vengano realmente campionati casualmente da una distribuzione gaussiana. Se lo fai molte volte e calcoli un intervallo di confidenza della media da ciascun campione, ti aspetteresti che circa il 95% di quegli intervalli includa il valore reale della media della popolazione. Il punto chiave è che l'intervallo di confidenza indica la posizione probabile del parametro di popolazione reale.

Gli intervalli di previsione indicano dove è possibile prevedere il campionamento del punto dati successivo. Supponiamo che i dati vengano realmente campionati casualmente da una distribuzione gaussiana. Raccogliere un campione di dati e calcolare un intervallo di previsione. Quindi assaggia un altro valore dalla popolazione. Se lo fai molte volte, ti aspetteresti che il valore successivo rientri nell'intervallo di predizione nel 95% dei campioni. Il punto chiave è che l'intervallo di predizione ti dice sulla distribuzione dei valori, non sull'incertezza nel determinare la popolazione significare.

Gli intervalli di previsione devono tenere conto sia dell'incertezza nel conoscere il valore della media della popolazione, sia della diffusione dei dati. Quindi un intervallo di previsione è sempre più ampio di un intervallo di confidenza.

Fonte: http://www.graphpad.com/support/faqid/1506/

— vonjd
fonte

Cosa diavolo si intende per "diffusione dei dati" qui?

— tel

2

@tel: Ovviamente la varianza

— vonjd

36

Uno è una previsione di un'osservazione futura e l'altro è una risposta media prevista. Darò una risposta più dettagliata per spiegare, si spera, la differenza e da dove proviene, oltre a come questa differenza si manifesta a intervalli più ampi per la previsione che per la fiducia.

Questo esempio potrebbe illustrare la differenza tra intervalli di confidenza e di previsione: supponiamo di avere un modello di regressione che prevede il prezzo delle case in base al numero di camere da letto, dimensioni, ecc. Esistono due tipi di previsioni che possiamo fare per un dato : $x_0$

Possiamo prevedere il prezzo per una nuova casa specifica che viene sul mercato con le caratteristiche ( "qual è il prezzo previsto per questa casa ?" ). Il suo vero prezzo sarà . Poiché , il prezzo previsto sarà Nel valutare la varianza di questa previsione, dobbiamo includere la nostra incertezza su , così come la nostra incertezza sulla nostra previsione (l'errore della nostra previsione) e quindi deve includere la varianza di (l'errore della nostra previsione). Questo è tipicamente chiamato previsione di un valore futuro . $x_0$ $x_0$
$y = x_{0}^{T} β + ϵ$ $y = x_0^T\beta+\epsilon$ $E(\epsilon)=0$ $\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$ $\epsilon$
Possiamo anche prevedere il prezzo medio di una casa con caratteristiche ( "quale sarebbe il prezzo medio per una casa con caratteristiche ?" ). La stima puntuale è ancora , ma ora è necessario tenere conto solo della varianza in . Questo è in genere chiamato previsione della risposta media. $x_0$ $x_0$
$\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$

La maggior parte delle volte, quello che vogliamo veramente è il primo caso. Sappiamo che

v a r (x_{0}^{T} \hat{β}) = x_{0}^{T} (X^{T} X)^{- 1} x_{0} σ^{2}

$var(x_0^T\hat{\beta}) = x_0^T(X^TX)^{-1}x_0\sigma^2$

Questa è la varianza per la nostra risposta media (caso 2). Ma, per una previsione di una futura osservazione (caso 1), ricordiamo che abbiamo bisogno della varianza di ; ha varianza e si presume che sia indipendente da . Usando una semplice algebra, si ottengono i seguenti intervalli di confidenza: $x_0^T\hat{\beta} + \epsilon$ $\epsilon$ $\sigma^2$ $\hat{\beta}$

CI per una singola risposta futura per : $x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0} + 1}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0 + 1}$
CI per la risposta media dato : $x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0}}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0}$

Dove è una statistica t con gradi di libertà al quantile . $t_{n-p}^{\alpha/2}$ $n-p$ $\alpha/2$

Spero che ciò renda un po 'più chiaro il motivo per cui l'intervallo di previsione è sempre più ampio e quale sia la differenza sottostante tra i due intervalli. Questo esempio è stato adattato da Faraway, Linear Models con R, Sec. 4.1.

— jpgard
fonte

2

È bello vedere un vecchio thread notevolmente migliorato da una risposta chiara e ponderata. Benvenuti nel nostro sito!

— whuber

Non dovrebbe essere ... x0 + 1 / n +1 (per l'intervallo di previsione (1)) e ... x0 + 1 / n (per l'intervallo di confidenza (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/…

— user48956

12

Risposta breve:

Un intervallo di previsione è un intervallo associato a una variabile casuale ancora da osservare (previsione).

Un intervallo di confidenza è un intervallo associato a un parametro ed è un concetto frequentista.

Controlla la risposta completa qui da Rob Hyndman, il creatore del pacchetto di previsioni in R.

— pablo_sci
fonte

3

Questa risposta è per quei lettori che non sono stati in grado di comprendere appieno le risposte precedenti. Discutiamo un esempio specifico. Supponiamo che tu provi a prevedere il peso delle persone in base alla loro altezza, sesso (maschio, femmina) e dieta (standard, a basso contenuto di carboidrati, vegetariano). Attualmente, ci sono più di 8 miliardi di persone sulla Terra. Certo, puoi trovare molte migliaia di persone che hanno la stessa altezza e altri due parametri ma peso diverso. I loro pesi differiscono selvaggiamente perché alcuni di loro hanno l'obesità e altri possono soffrire di fame. La maggior parte di quelle persone saranno da qualche parte nel mezzo.

Un compito è prevedere il peso medio di tutte le persone che hanno gli stessi valori di tutte e tre le variabili esplicative. Qui usiamo l'intervallo di confidenza. Un altro problema è prevedere il peso di una persona specifica. E non conosciamo le circostanze di vita di quell'individuo. Qui è necessario utilizzare l'intervallo di previsione. È centrato attorno allo stesso punto, ma deve essere molto più ampio dell'intervallo di confidenza.

— Serhii Kushchenko
fonte