Capisco che significhi che il modello non è in grado di prevedere i singoli punti dati, ma ha stabilito una tendenza stabile (ad esempio, y sale quando x sale).
Capisco che significhi che il modello non è in grado di prevedere i singoli punti dati, ma ha stabilito una tendenza stabile (ad esempio, y sale quando x sale).
Risposte:
Significa che puoi spiegare una piccola parte della varianza nei dati. Ad esempio, puoi stabilire che un diploma universitario influisce sugli stipendi, ma allo stesso tempo è solo un piccolo fattore. Ci sono molti altri fattori che incidono sul tuo stipendio e il contributo del titolo universitario è molto piccolo, ma rilevabile.
In termini pratici potrebbe significare che in media il titolo universitario aumenta lo stipendio di $ 500 all'anno, mentre la deviazione standard degli stipendi delle persone è di $ 10K. Quindi, molte persone con istruzione universitaria hanno salari più bassi rispetto a quelli non istruiti e il valore del modello per la previsione è basso.
Significa "l'errore irriducibile è elevato", ovvero la cosa migliore che possiamo fare (con un modello lineare) è limitata. Ad esempio, il seguente set di dati:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
Nota, il trucco in questo set di dati è che dato un valore , ci sono troppi valori y diversi , che non possiamo fare una buona previsione per soddisfarli tutti. Allo stesso tempo, ci sono "forti" correlazioni lineari tra x ed y . Se adattiamo un modello lineare, otterremo coefficienti significativi, ma basso R al quadrato.
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
Cosa significa che una regressione lineare è statisticamente significativa ma ha un r quadrato molto basso?
Significa che esiste una relazione lineare tra la variabile indipendente e quella dipendente, ma potrebbe non valere la pena parlare di questa relazione.
La significatività della relazione, tuttavia, dipende molto da ciò che si sta esaminando, ma in generale si può intendere che il significato statistico non deve essere confuso con la rilevanza.
Con una dimensione del campione abbastanza grande, anche le relazioni più banali possono essere statisticamente significative.
Un altro modo di formulare questo è che significa che puoi prevedere con sicurezza un cambiamento a livello di popolazione ma non a livello individuale. vale a dire che c'è una grande varianza nei singoli dati, ma quando viene usato un campione abbastanza grande, si può vedere un effetto sottostante nel complesso. È uno dei motivi per cui alcuni consigli sulla salute del governo non sono di aiuto per l'individuo. I governi a volte sentono il bisogno di agire perché possono vedere che più di alcune attività portano a un numero maggiore di decessi nella popolazione. Forniscono consigli o una politica che "salva" queste vite. Tuttavia, a causa dell'alta varianza nelle risposte individuali, è molto improbabile che un individuo possa vedere personalmente alcun beneficio (o, peggio, a causa di specifiche condizioni genetiche, la propria salute sarebbe effettivamente migliorata dall'obbedire al parere contrario, ma questo è nascosto nell'aggregazione della popolazione). Se l'individuo trae beneficio (ad es. Il piacere) dall'attività "malsana", seguire i consigli può significare che essi rinunciano a questo piacere definito per tutta la vita, ma in realtà non cambia personalmente se avrebbero sofferto o meno della condizione.