Intervalli di confidenza e previsione del modello di regressione lineare


9

Ok, quindi sto cercando di capire la regressione lineare. Ho un set di dati e sembra tutto abbastanza bene, ma sono confuso. Questo è il mio riassunto del modello lineare:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

quindi, il valore p è davvero basso, il che significa che è molto improbabile ottenere la correlazione tra x, y solo per caso. Se lo tracciamo e poi tracciavo la linea di regressione, si presenta così: http://s14.directupload.net/images/120923/l83eellv.png (L'ho fatto come una foto ma io sono - come nuovo utente - al momento no permesso di pubblicarlo) Linee blu = intervallo di confidenza Linee verdi = intervallo di predizione

Ora, molti punti non rientrano nell'intervallo di confidenza, perché dovrebbe accadere? Penso che nessuno dei punti dati cada sulla linea di regressione b / c siano abbastanza lontani l'uno dall'altro, ma di cosa non sono sicuro: è un vero problema? Sono ancora intorno alla linea di regressione e puoi vedere totalmente uno schema. Ma è abbastanza? Sto cercando di capirlo, ma continuo a farmi le stesse domande più e più volte.

Cosa ho pensato finora: l'intervallo di confidenza dice che se si calcolano ripetutamente gli elementi della configurazione, nel 95% delle volte la vera media cade nell'IC. Quindi: non è un problema che il dp non vi cada dentro, dato che questi non sono davvero i mezzi. D'altro canto, l'intervallo di previsione dice che se si calcolano PI ripetutamente, nel 95% delle volte il vero VALORE rientra nell'intervallo. Quindi, è abbastanza importante avere i punti (che ho). Poi ho letto che il PI deve sempre avere un raggio più ampio rispetto al CI. Perché? Questo è quello che ho fatto:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

e poi l'ho tracciato da:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

Ora, se calcolo CI e PI per dati aggiuntivi, non importa quanto largo scelgo l'intervallo, ottengo esattamente le stesse linee di cui sopra. Non capisco. Cosa significa? Questo sarebbe quindi:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

per i nuovi x ho scelto diverse sequenze. Se la sequenza ha un numero di osservazioni diverso rispetto alle variabili nella mia regressione, ricevo un avviso. Perché dovrebbe essere?

Risposte:


3

Comprendo alcune delle tue domande ma altre non sono chiare. Lasciami rispondere e dire alcuni fatti e forse questo chiarirà tutta la tua confusione.

La vestibilità che hai è straordinariamente buona. Gli intervalli di confidenza dovrebbero essere molto stretti. Esistono due tipi di regioni di confidenza che possono essere prese in considerazione, la regione di bsimultanoues che intende coprire l'intera vera funzione di regressione con il livello di confidenza dato.

Gli altri che sono ciò che stai guardando sono gli intervalli di confidenza per i punti di regressione adattati. Sono intesi solo a coprire il valore adattato di y al dato valore / i della / e covariata / e. Non intendono coprire i valori y con altri valori delle covariate. Infatti, se gli intervalli sono molto stretti come dovrebbero nel tuo caso, non copriranno molti se nessuno dei punti dati man mano che ti allontani dai valori fissi delle covariate. Per quel tipo di copertura è necessario ottenere le curve di confidenza simultanee (curve con limite superiore e inferiore).

Ora è vero che se si prevede un valore dato di una covariata e si desidera lo stesso livello di confidenza per l'intervallo di predizione utilizzato per l'intervallo di confidenza per y al valore dato della covariata, l'intervallo sarà più ampio. Il motivo è che il modello ti dice che ci sarà una maggiore variabilità perché una nuova y avrà un suo errore indipendente che deve essere preso in considerazione nell'intervallo. Tale componente di errore non entra nelle stime in base ai dati utilizzati nell'adattamento.


Mi dispiace, ancora non capisco bene. Hai spiegato 2 tipi di intervalli di confidenza, ma quali intendi quando dici "quelli che sto guardando"? b / c Ho tracciato sia la previsione che l'intervallo di confidenza, e ho problemi a capire la differenza. Inoltre, ho aggiunto alcuni comandi R al mio post precedente per chiarire cosa stavo facendo
Lisa

Le curve non chiariscono se le bande di confidenza sono ottenute costruendo curve di confidenza simultanee o semplicemente collegando agevolmente gli intervalli di confidenza individuali. Se fossero simultanei non vedresti così tanti punti adattati al di fuori della curva. Ma come ho sottolineato, potrebbe accadere con i singoli intervalli. Non ho ancora esaminato la modifica che include il codice R.
Michael R. Chernick,

Non conosco R abbastanza bene per rispondere alle domande R specifiche. Quello che non so che un esperto R può dirti è se le curve di confidenza e le curve di previsione collegano o meno gli intervalli di confidenza individuali o generano le curve simultanee. Inoltre il tuo codice fa quello che intendi fare?
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.