Regressione lineare cosa ci dicono la statistica F, il quadrato R e l'errore standard residuo?


14

Sono davvero confuso sulla differenza di significato per quanto riguarda il contesto di regressione lineare dei seguenti termini:

  • Statistica F.
  • R al quadrato
  • Errore standard residuo

Ho trovato questa webstie che mi ha dato una grande visione dei diversi termini coinvolti nella regressione lineare, tuttavia i termini sopra menzionati sembrano abbastanza simili (per quanto ho capito). Citerò ciò che ho letto e ciò che mi ha confuso:

L'errore standard residuo è la misura della qualità di un adattamento di regressione lineare ....... L'errore standard residuo è la quantità media che la risposta (dist) devia dalla linea di regressione reale.

1. Questa è quindi effettivamente la distanza media dei valori osservati dalla linea lm?

La statistica R-quadrata fornisce una misura di come il modello sta adattando i dati effettivi.

2. Ora mi sto confondendo perché se RSE ci dice fino a che punto i nostri punti osservati si discostano dalla linea di regressione un RSE basso ci sta effettivamente dicendo "il tuo modello si adatta bene in base ai punti dati osservati" -> quindi quanto è buono il nostro i modelli si adattano, quindi qual è la differenza tra R quadrato e RSE?

La statistica F è un buon indicatore se esiste una relazione tra il nostro predittore e le variabili di risposta.

3. È vero che possiamo avere un valore F che indica una relazione forte che NON È LINEARE, quindi il nostro RSE è alto e il nostro R quadrato è basso


Q 3 Il valore non indica una relazione non lineare. È un rapporto che indica se esiste una relazione sostanziale (costante) tra le due variabili - dipendente e indipendente.
Subhash C. Davar,

Non ci dice la natura della relazione - non lineare o lineare.
Subhash C. Davar,

Risposte:


12

Il modo migliore per comprendere questi termini è eseguire manualmente un calcolo di regressione. Ho scritto due risposte strettamente correlate ( qui e qui ), tuttavia potrebbero non aiutarti completamente a capire il tuo caso particolare. Ma leggili comunque. Forse ti aiuteranno anche a concettualizzare meglio questi termini.

In una regressione (o ANOVA), costruiamo un modello basato su un set di dati di esempio che ci consente di prevedere i risultati di una popolazione di interesse. Per fare ciò, i seguenti tre componenti vengono calcolati in una semplice regressione lineare da cui è possibile calcolare gli altri componenti, ad esempio i quadrati medi, il valore F, l' R2 (anche l' R2 regolato ) e l'errore standard residuo ( RSE ):

  1. somme totali di quadrati ( SStotun'l )
  2. somme residue di quadrati ( SSreSioduun'l )
  3. somme modello di quadrati ( SSmodel )

Ognuno di essi sta valutando quanto bene il modello descriva i dati e sia la somma delle distanze quadrate dai punti dati al modello adattato (illustrati come linee rosse nel diagramma sottostante).

La SStotun'l valutare come le crisi medi dei dati. Perché la media? Perché la media è il modello più semplice che possiamo adattare e quindi serve come modello a cui viene confrontata la linea di regressione dei minimi quadrati. Questo diagramma che utilizza il carsset di dati mostra che:

inserisci qui la descrizione dell'immagine

SSreSioduun'l

inserisci qui la descrizione dell'immagine

SSmodelSStotun'lSSreSioduun'l

inserisci qui la descrizione dell'immagine

Per rispondere alle tue domande, calcoliamo innanzitutto i termini che desideri comprendere a partire dal modello e dall'output come riferimento:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

Le somme dei quadrati sono le distanze al quadrato dei singoli punti dati rispetto al modello:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

I quadrati medi sono le somme dei quadrati mediati dai gradi di libertà:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

Le mie risposte alle tue domande:

Q1:

  1. Questa è quindi effettivamente la distanza media dei valori osservati dalla linea lm?

RSEMSreSioduun'l

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

SSreSioduun'lMSreSioduun'l SSreSioduun'lRSErappresenta la distanza media dei dati osservati dal modello. Intuitivamente, anche questo ha perfettamente senso perché se la distanza è minore, anche il tuo modello si adatta meglio.

Q2:

  1. Ora mi sto confondendo perché se RSE ci dice fino a che punto i nostri punti osservati si discostano dalla linea di regressione, un RSE basso ci sta effettivamente dicendo "il tuo modello si adatta bene in base ai punti dati osservati" -> quindi quanto bene si adattano i nostri modelli , quindi qual è la differenza tra R al quadrato e RSE?

Ora il R2SSmodelSStotun'l

# R squared
r.sq <- ss.model/ss.total
r.sq

Il R2SStotun'lSSmodel

RSER2RSE

R2 d'altra parte ti dice quanta variazione è spiegata dal modello (cioè la linea di regressione) rispetto alla variazione che è stata spiegata dal solo mezzo (cioè il modello più semplice).

Q3:

  1. È vero che possiamo avere un valore F che indica una relazione forte che NON È LINEARE in modo che la nostra RSE sia alta e la nostra R al quadrato sia bassa

Così la F-valore sull'altro è calcolato come il quadrato medio del modello MSmodel (o il segnale) diviso per MSreSioduun'l (rumore):

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

O in altre parole il F-value esprime la percentuale di miglioramento del modello (rispetto alla media) data la precisione del modello.

La tua terza domanda è un po 'difficile da capire, ma sono d'accordo con la citazione che hai fornito.


3

(2) Lo stai capendo correttamente, stai solo facendo fatica con il concetto.

Il R2valore rappresenta il modo in cui il modello tiene conto di tutti i dati. Può assumere solo valori compresi tra 0 e 1. È la percentuale della deviazione dei punti nel set di dati che il modello può spiegare.

L'RSE è più un descrittore di ciò che rappresenta la deviazione dal modello rappresentato dai dati originali. Così laR2dice "il modello fa bene a spiegare i dati presentati". L'RSE afferma che "una volta mappati, ci aspettavamo che i dati fossero qui, ma qui è dove erano effettivamente". Sono molto simili ma vengono utilizzati per convalidare in diversi modi.


0

Solo per integrare ciò che Chris ha risposto sopra:

La statistica F è la divisione del quadrato medio del modello e del quadrato medio residuo. Software come Stata, dopo aver adattato un modello di regressione, forniscono anche il valore p associato alla statistica F. Ciò consente di verificare l'ipotesi nulla che i coefficienti del modello siano zero. Potresti pensarlo come "significato statistico del modello nel suo insieme".

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.