Cosa significa che una regressione lineare è statisticamente significativa ma ha un r quadrato molto basso?


Risposte:


27

Significa che puoi spiegare una piccola parte della varianza nei dati. Ad esempio, puoi stabilire che un diploma universitario influisce sugli stipendi, ma allo stesso tempo è solo un piccolo fattore. Ci sono molti altri fattori che incidono sul tuo stipendio e il contributo del titolo universitario è molto piccolo, ma rilevabile.

In termini pratici potrebbe significare che in media il titolo universitario aumenta lo stipendio di $ 500 all'anno, mentre la deviazione standard degli stipendi delle persone è di $ 10K. Quindi, molte persone con istruzione universitaria hanno salari più bassi rispetto a quelli non istruiti e il valore del modello per la previsione è basso.


11

Significa "l'errore irriducibile è elevato", ovvero la cosa migliore che possiamo fare (con un modello lineare) è limitata. Ad esempio, il seguente set di dati:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

Nota, il trucco in questo set di dati è che dato un valore , ci sono troppi valori y diversi , che non possiamo fare una buona previsione per soddisfarli tutti. Allo stesso tempo, ci sono "forti" correlazioni lineari tra x ed y . Se adattiamo un modello lineare, otterremo coefficienti significativi, ma basso R al quadrato.xyxy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

inserisci qui la descrizione dell'immagine



3

Cosa significa che una regressione lineare è statisticamente significativa ma ha un r quadrato molto basso?

Significa che esiste una relazione lineare tra la variabile indipendente e quella dipendente, ma potrebbe non valere la pena parlare di questa relazione.

La significatività della relazione, tuttavia, dipende molto da ciò che si sta esaminando, ma in generale si può intendere che il significato statistico non deve essere confuso con la rilevanza.

Con una dimensione del campione abbastanza grande, anche le relazioni più banali possono essere statisticamente significative.


1
La regressione effettivamente lineare significa lineare nei parametri. Le variabili dipendenti non elaborate possono essere trasformate e si ha ancora una regressione lineare. Sono un po 'perplesso da ciò che pensi sia significativo dal punto di vista statistico. Per me significa che le stime dei parametri sono grandi.
Michael R. Chernick,

^ significato si riferisce alla probabilità che i risultati fossero puramente casuali e che non vi sia alcuna relazione tra i predittori e la variabile dipendente. se hai una piccola dimensione del campione e i risultati sono significativi, allora sì, le stime dei parametri sarebbero grandi. tuttavia, con un campione ridicolmente ampio, è possibile ottenere risultati significativi anche con una stima di parametri molto piccola. provarlo qui: danielsoper.com/statcalc/calculator.aspx
Faustus

Quello che dici suona come una descrizione generale di ciò che inferenza riguarda. Ma la significatività statistica è un termine specifico che ha a che fare con il superamento di un / i valore / i critico / i in cui il / i valore / i critico / i dipendono da un particolare livello di significatività scelto dall'analista (ad es. 0,05. 0,01 ecc.). La dimensione del campione è un altro fattore. Nella regressione stai testando diverse ipotesi (significatività dei coefficienti di regressione individuali, nonché il test che non esiste alcuna relazione. Può anche essere complicato facendo procedure graduali che selezionano tra diversi modelli possibili.
Michael R. Chernick,

1
La statistica è in parte scienza e in parte arte ma si basa su principi matematici.
Michael R. Chernick,

2
@MichaelChernik Riesci a elaborare un po '? Sono d'accordo con Faustus (in effetti mi è capitato di dare una risposta simile) e non riesco a capire il tuo punto. Nella regressione lineare, il significato ((se la significatività dei singoli coefficienti di regressione o l'intera regressione) viene testato rispetto all'ipotesi di nessuna relazione (coefficiente esattamente 0). Con dati sufficienti si può essere in grado di dire che i coefficienti sono diversi da zero, ma terribilmente piccolo. (continua)
Luca Citi

2

Un altro modo di formulare questo è che significa che puoi prevedere con sicurezza un cambiamento a livello di popolazione ma non a livello individuale. vale a dire che c'è una grande varianza nei singoli dati, ma quando viene usato un campione abbastanza grande, si può vedere un effetto sottostante nel complesso. È uno dei motivi per cui alcuni consigli sulla salute del governo non sono di aiuto per l'individuo. I governi a volte sentono il bisogno di agire perché possono vedere che più di alcune attività portano a un numero maggiore di decessi nella popolazione. Forniscono consigli o una politica che "salva" queste vite. Tuttavia, a causa dell'alta varianza nelle risposte individuali, è molto improbabile che un individuo possa vedere personalmente alcun beneficio (o, peggio, a causa di specifiche condizioni genetiche, la propria salute sarebbe effettivamente migliorata dall'obbedire al parere contrario, ma questo è nascosto nell'aggregazione della popolazione). Se l'individuo trae beneficio (ad es. Il piacere) dall'attività "malsana", seguire i consigli può significare che essi rinunciano a questo piacere definito per tutta la vita, ma in realtà non cambia personalmente se avrebbero sofferto o meno della condizione.


Ottimo esempio!
kjetil b halvorsen,

R2
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.