Ok, quindi sto cercando di capire la regressione lineare. Ho un set di dati e sembra tutto abbastanza bene, ma sono confuso. Questo è il mio riassunto del modello lineare:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
quindi, il valore p è davvero basso, il che significa che è molto improbabile ottenere la correlazione tra x, y solo per caso. Se lo tracciamo e poi tracciavo la linea di regressione, si presenta così: http://s14.directupload.net/images/120923/l83eellv.png (L'ho fatto come una foto ma io sono - come nuovo utente - al momento no permesso di pubblicarlo) Linee blu = intervallo di confidenza Linee verdi = intervallo di predizione
Ora, molti punti non rientrano nell'intervallo di confidenza, perché dovrebbe accadere? Penso che nessuno dei punti dati cada sulla linea di regressione b / c siano abbastanza lontani l'uno dall'altro, ma di cosa non sono sicuro: è un vero problema? Sono ancora intorno alla linea di regressione e puoi vedere totalmente uno schema. Ma è abbastanza? Sto cercando di capirlo, ma continuo a farmi le stesse domande più e più volte.
Cosa ho pensato finora: l'intervallo di confidenza dice che se si calcolano ripetutamente gli elementi della configurazione, nel 95% delle volte la vera media cade nell'IC. Quindi: non è un problema che il dp non vi cada dentro, dato che questi non sono davvero i mezzi. D'altro canto, l'intervallo di previsione dice che se si calcolano PI ripetutamente, nel 95% delle volte il vero VALORE rientra nell'intervallo. Quindi, è abbastanza importante avere i punti (che ho). Poi ho letto che il PI deve sempre avere un raggio più ampio rispetto al CI. Perché? Questo è quello che ho fatto:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
e poi l'ho tracciato da:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
Ora, se calcolo CI e PI per dati aggiuntivi, non importa quanto largo scelgo l'intervallo, ottengo esattamente le stesse linee di cui sopra. Non capisco. Cosa significa? Questo sarebbe quindi:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
per i nuovi x ho scelto diverse sequenze. Se la sequenza ha un numero di osservazioni diverso rispetto alle variabili nella mia regressione, ricevo un avviso. Perché dovrebbe essere?