Possiamo fare dichiarazioni probabilistiche con intervalli di previsione?


12

Ho letto le molte eccellenti discussioni sul sito relative all'interpretazione degli intervalli di confidenza e degli intervalli di previsione, ma un concetto è ancora un po 'sconcertante:

Considera il framework OLS e abbiamo ottenuto il modello montato . Ci viene dato un e ci viene chiesto di prevederne la risposta. Calcoliamo e, come bonus, forniamo anche un intervallo di previsione del 95% attorno alla nostra previsione, ottenendo una formula per i limiti di previsione in un modello lineare . Chiamiamo questo intervallo di predizione PI. x*x*T βy^=Xβ^xxTβ^

Ora, quale dei seguenti (o nessuno dei due) è l'interpretazione corretta di PI?

  1. Per in particolare, trova all'interno di PI con una probabilità del 95%. y ( x )xy(x)
  2. Se ci viene dato un gran numero di s, questa procedura per calcolare i PI coprirà le risposte vere il 95% delle volte.x

Dalla formulazione di @ gung nell'intervallo di predizione della regressione lineare , sembra che il primo sia vero (anche se potrei benissimo interpretare male). L'interpretazione 1 mi sembra poco intuitiva (nel senso che stiamo traendo conclusioni bayesiane dall'analisi del frequentista), ma se è corretto, è perché stiamo prevedendo la realizzazione di una variabile casuale rispetto alla stima di un parametro ?

(Modifica) Domanda bonus: Supponiamo di sapere qual è il vero , ovvero il processo che genera i dati, quindi potremmo parlare delle probabilità riguardo a una previsione particolare, dato che stiamo solo guardando ?ϵβϵ

Il mio ultimo tentativo in questo senso: possiamo "decomporre concettualmente" (usando la parola molto liberamente) un intervallo di predizione in due parti: (A) un intervallo di confidenza attorno alla risposta media prevista, e (B) una raccolta di intervalli che sono solo quantili intervalli del termine di errore. (B) possiamo fare affermazioni probabilistiche, subordinatamente alla conoscenza della vera media prevista, ma nel suo complesso, possiamo trattare gli intervalli di previsione solo come CI per i frequentisti attorno ai valori previsti. È in qualche modo corretto?


La risposta che ho scritto a stats.stackexchange.com/a/26704 implica che qualcosa come (2) è il caso (secondo le leggi di grandi numeri) ma sicuramente no (1).
whuber

Risposte:


5

In primo luogo, sull'uso della parola probabilità, i frequentatori non hanno problemi ad usare la parola probabilità quando prevedono qualcosa in cui il pezzo casuale non è ancora avvenuto. Non ci piace la probabilità di parola per un intervallo di confidenza perché il parametro vero non sta cambiando (stiamo assumendo che sia un valore fisso, anche se sconosciuto) e l'intervallo è fisso perché si basa su dati che abbiamo già raccolto. Ad esempio, se i nostri dati provengono da un campione casuale di uomini maschi adulti e x è la loro altezza e y è il loro peso e ci adattiamo al modello di regressione generale, allora non usiamo la probabilità quando parliamo degli intervalli di confidenza. Ma se voglio parlare di quale sia la probabilità che un maschio alto 65 pollici scelto a caso tra tutti i maschi alti 65 pollici abbia un peso entro un certo intervallo,

Quindi direi che la risposta alla domanda bonus è "Sì". Se sapessimo abbastanza informazioni, allora potremmo calcolare la probabilità di vedere un valore in un intervallo (o trovare un intervallo con la probabilità desiderata).

Per la tua dichiarazione etichettata "1" Direi che va bene se usi una parola come "approssimativa" quando parli di intervallo o probabilità. Come menzionato nella domanda bonus, possiamo scomporre l'incertezza in un pezzo sul centro della previsione e un pezzo sulla casualità attorno alla media reale. Quando li combiniamo per coprire tutta la nostra incertezza (e supponendo che il modello / normalità sia corretto) abbiamo un intervallo che tenderà ad essere troppo ampio (anche se può anche essere troppo stretto), quindi la probabilità di un nuovo punto scelto casualmente cadere nell'intervallo di previsione non sarà esattamente del 95%. Puoi vederlo tramite simulazione. Inizia con un modello di regressione noto con tutti i parametri noti. Scegli un campione (attraverso molti valori x) da questa relazione, adatta una regressione, e calcola gli intervalli di predizione. Ora genera nuovamente un gran numero di nuovi punti dati dal modello reale e confrontali con gli intervalli di previsione. L'ho fatto alcune volte usando il seguente codice R:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

Ho eseguito il codice sopra alcune volte (circa 10, ma non ho tenuto il conto con attenzione) e il più delle volte la percentuale di nuovi valori che cadono negli intervalli variava dal 96% al 98%. Ho avuto un caso in cui la deviazione standard stimata era molto bassa che le proporzioni erano nell'intervallo dal 93% al 94%, ma tutto il resto era superiore al 95%. Quindi sarei felice con la tua affermazione 1 con la modifica a "circa il 95%" (supponendo che tutte le ipotesi siano vere, o abbastanza vicine da essere coperte in circa).

Allo stesso modo, la frase 2 ha bisogno di un "approssimativo" o simile, perché per coprire la nostra incertezza stiamo catturando in media più del 95%.


0

Il secondo è migliore. Il primo dipende da quali altre informazioni sono note.

Usando un esempio casuale, è vero che "il 95% degli intervalli (con una sicurezza del 95%) includerebbe la vera media di [inserire variabile]".

D'altra parte, se un risultato è ovviamente controintuitivo, non possiamo affermare (1).

Ad esempio, "il mio test di significatività al 95% di confidenza mostra che altezza e peso sono correlati negativamente ". Beh, questo è ovviamente falso, e non possiamo dire che esiste una "probabilità del 95% che sia vera". Vi è infatti, prendendo in considerazione le conoscenze precedenti, una probabilità molto piccola che sia vera. È tuttavia valido affermare che "il 95% di tali test avrebbe prodotto un risultato corretto".


1
Questa risposta sembra discutere gli intervalli di confidenza piuttosto che gli intervalli di previsione.
whuber

@whuber Si applica lo stesso principio. Abbiamo essenzialmente a che fare con intervalli di confidenza per una determinata variabile (la variabile "prevista").

2
Esiste un'importante distinzione tra un valore fisso (come un parametro) e il valore di una variabile casuale. Inoltre, il cuore della presente domanda arriva a questa distinzione: cosa si può dire sulla probabilità di quel ("futuro") risultato casuale? Sembra quindi inadeguato - e forse fuorviante - considerare questa domanda come una semplice questione di significato della fiducia.
whuber

@whuber La frase (2) nel post non implica ancora la frase (1). Come nel mio esempio, una previsione contraria all'evidente intuizione / conoscenza di base non implicherebbe che i risultati futuri abbiano il 95% di probabilità di cadere nel PI. È vero che il processo, il 95% delle volte, darebbe a PI contenenti il ​​risultato futuro. Ma a volte è possibile rilevare quando ciò è successo o meno.

Hai ragione, ma se sto leggendo correttamente il tuo commento, sospetto che manchi il punto. Il problema non è il fatto che (in base alla progettazione) un IP ha solo una probabilità del 95% di coprire il valore futuro o che dati aggiuntivi (o intuizione) potrebbero fornire ulteriori informazioni. La questione che ci attende riguarda se un PI possa essere interpretato in termini di probabilità condizionale per il valore futuro (basato sui valori di regressione). Questa è in effetti l'interpretazione di un PI di Bayes , come osserva l'OP, ma non è valida per un PI frequentista.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.