Interpretazione semplice dell'output di regressione lineare


20

Ho eseguito una semplice regressione lineare del log naturale di 2 variabili per determinare se sono correlate. Il mio output è questo:

R^2 = 0.0893

slope = 0.851

p < 0.001

Sono confuso. Guardando il valore , direi che le due variabili non sono correlate, poiché è così vicino a . Tuttavia, la pendenza della linea di regressione è quasi (nonostante sembri quasi orizzontale nella trama), e il valore p indica che la regressione è molto significativa.R201

Questo significa che le due variabili sono altamente correlate? In tal caso, cosa indica il valore ?R2

Dovrei aggiungere che la statistica di Durbin-Watson è stata testata nel mio software e non ha respinto l'ipotesi nulla (equivaleva a ). Ho pensato che questo testato per l'indipendenza tra le variabili. In questo caso, mi aspetto che le variabili dipendano, poiché sono misurazioni di un singolo uccello. Sto facendo questa regressione come parte di un metodo pubblicato per determinare le condizioni del corpo di un individuo, quindi ho pensato che usare una regressione in questo modo avesse senso. Tuttavia, dati questi risultati, sto pensando che forse per questi uccelli, questo metodo non è adatto. Sembra una conclusione ragionevole?1.35722


1
La statistica di Durbin-Watson è un test per la correlazione seriale: vale a dire se i termini di errore adiacenti sono reciprocamente correlati. Non dice nulla sulla correlazione tra la tua X e la tua Y! Il fallimento del test indica che la pendenza e il valore p devono essere interpretati con cautela.
whuber

Ah ok. Questo ha un po 'più senso rispetto al fatto che le due variabili stesse siano correlate ... dopo tutto, ho pensato che fosse quello che stavo cercando di trovare usando la regressione. E il fallimento del test indica che dovrei essere cauto nell'interpretare la pendenza e il valore p ha ancora più senso in questo caso! Grazie @whuber!
Mog

1
Vorrei solo aggiungere una pendenza che può essere molto significativa (valore p <.001) anche se la relazione è debole, specialmente con una grande dimensione del campione. Questo è stato accennato nella maggior parte delle risposte in quanto la pendenza (anche se è significativa) non dice nulla sulla forza della relazione.
Glen,

È necessario per determinare la forza della relazione. Vedi anche stats.stackexchange.com/a/265924/99274 . n
Carl

Risposte:


22

Il valore stimato della pendenza non indica da solo la forza della relazione. L'intensità della relazione dipende dalla dimensione della varianza dell'errore e dall'intervallo del predittore. Inoltre, un significativo valore non ti dice necessariamente che esiste una relazione forte; il valore p sta semplicemente verificando se la pendenza è esattamente 0. Per una dimensione del campione sufficientemente grande, anche piccole deviazioni da tale ipotesi (ad esempio quelle non di importanza pratica) produrranno un valore p significativo .ppp

Delle tre quantità presentate, , il coefficiente di determinazione , fornisce la massima indicazione della forza della relazione. Nel tuo caso, R 2 = .089 , significa che l' 8,9 % della variazione nella variabile di risposta può essere spiegata una relazione lineare con il predittore. Ciò che costituisce una "grande" R 2 dipende dalla disciplina. Ad esempio, nelle scienze sociali R 2 = .2 potrebbe essere "grande" ma in ambienti controllati come un'impostazione di fabbrica, R 2 > .9R2R2=.0898.9%R2R2=.2R2>.9potrebbe essere richiesto di dire che esiste una relazione "forte". Nella maggior parte dei casi è un R 2 molto piccolo , quindi la tua conclusione che esiste una relazione lineare debole è probabilmente ragionevole..089R2


Grazie Macro. Risposta molto utile Sono contento che tu abbia incluso la parte su ciò che, esattamente, il valore p sta testando. Ha molto senso che il valore p sia così basso considerando quanto è vicina a 1 la pendenza. Mi sembra, alla luce della tua risposta e di @jedfrancis ', il valore r ^ 2 descrive quella' nuvola 'di punti dati attorno alla linea di regressione. Eccellente! Adesso è molto più chiaro!
Mog

@Macro (+1), bella risposta. Ma in che modo la "forza della relazione" dipende dalla "dimensione dell'intercettazione"? AFAIK l'intercetta non dice nulla sulla correlazione o "forza" di una relazione lineare.
whuber

@whuber, hai ragione - l'intercettazione è irrilevante e sicuramente non cambia la correlazione - Stavo pensando alla funzione di regressione vs. y = x e pensando in qualche modo al secondo che fosse una relazione più forte ( tutto il resto è uguale), poiché una quantità maggiore della grandezza di y era dovuta a x in quest'ultimo caso. Non ha molto senso ora che ci penso. Ho modificato il post. y=10000+xy=xyx
Macro,

4
@macro Ottima risposta, ma vorrei sottolineare (per chi è nuovo su questo argomento) che R ^ 2 può essere molto basso anche con una relazione forte, se la relazione non è lineare, e in particolare se non è monotonica. Il mio esempio preferito di ciò è la relazione tra stress e punteggio dell'esame; lo stress molto basso e lo stress molto elevato tendono ad essere peggiori dello stress moderato.
Peter Flom - Ripristina Monica

1
@macro Sì, la tua risposta è stata buona, ma ho lavorato con persone che non conoscono molte statistiche e ho visto cosa succede ... a volte ciò che diciamo non è quello che sentono!
Peter Flom - Ripristina Monica

14

La ti dice quanta variazione della variabile dipendente è spiegato da un modello. Tuttavia, si può interpretare l' R 2 e la correlazione tra i valori originali della variabile dipendente e i valori adattati. L'esatta interpretazione e derivazione del coefficiente di determinazione R 2 può essere trovata qui .R2R2R2

La prova che il coefficiente di determinazione è l'equivalente del coefficiente di correlazione di Pearson quadrato tra i valori osservati ed i valori adattati y i può essere trovato qui .yiy^i

L' o coefficiente di determinazione indica la forza del tuo modello spiegare la variabile dipendente. Nel tuo caso, R 2 = 0,089 . Ciò che il tuo modello è in grado di spiegare l'8,9% della variazione della tua variabile dipendente. Oppure, il coefficiente di correlazione tra il y i ed i valori muro y i è 0,089. Ciò che costituisce una buona R 2 dipende dalla disciplina.R2R2=0.089yiy^iR2

Infine, fino all'ultima parte della tua domanda. Non è possibile ottenere il test di Durbin-Watson per dire qualcosa sulla correlazione tra variabili dipendenti e indipendenti. Il test di Durbin-Watson verifica la correlazione seriale. Viene condotto per esaminare se i termini dell'errore sono reciprocamente correlati.


9

Il valore indica quanta variazione dei dati è spiegata dal modello montato.R2

Il basso valore di nel tuo studio suggerisce che i tuoi dati sono probabilmente diffusi ampiamente lungo la linea di regressione, il che significa che il modello di regressione può solo spiegare (molto poco) l'8,9% della variazione dei dati.R2

Hai controllato per vedere se un modello lineare è appropriato? Dai un'occhiata alla distribuzione dei tuoi residui, in quanto puoi usarli per valutare l'adattamento del modello ai tuoi dati. Idealmente, i tuoi residui non dovrebbero mostrare una relazione con i tuoi valori e, in tal caso, potresti voler pensare di riscalare le tue variabili in modo adeguato o adattando un modello più appropriato.x


Grazie @jed. Sì, avevo verificato la normalità dei residui e tutto andava bene. Il tuo suggerimento che i dati siano ampiamente diffusi attorno a quella linea di regressione è esattamente giusto: i punti dati sembrano una nuvola attorno alla linea di regressione tracciata dal software.
Mog

1
Benvenuto sul nostro sito, @jed, e grazie per la tua risposta! Si noti che la pendenza stessa non dice quasi nulla sulla correlazione, a parte il suo segno, perché la correlazione non dipende dalle unità in cui vengono misurate X e Y ma la pendenza lo fa.
whuber

1
@whuber sta dicendo che il valore della pendenza non ti dice nulla sulla forza dell'associazione a meno che le variabili non siano standardizzate. Vedi la risposta di shabbychefs.
wolf.rauch,

@ wolf.rauch gotcha
jedfrancis,

@jed Sarebbe bene se dovessi correggere la tua risposta.
whuber

7

R2yxxyR2

In breve, la pendenza non è un buon indicatore di "adattamento" del modello a meno che non si sia certi che le scale delle variabili dipendenti e indipendenti debbano essere uguali tra loro.


1

Mi piacciono le risposte già fornite, ma permettetemi di completarle con un approccio diverso (e più ironico).

Supponiamo di raccogliere un sacco di osservazioni da 1000 persone a caso che cercano di scoprire se i pugni in faccia sono associati a mal di testa:

Headaches=β0+β1Punch_in_the_face+ε

ε contains all the omitted variables that produce headaches in the general population: stress, how contaminated your city is, lack of sleep, coffee consumption, etc.

For this regression, the β1 might be very significant and very big, but the R2 will be low. Why? For the vast majority of the population, headaches won't be explained much by punches in the face. In other words, most of the variation in the data (i.e. whether people have few or a lot of headaches) will be left unexplained if you only include punches in the face, but punches in the face are VERY important for headaches.

Graphically, this probably looks like a steep slope but with a very big variation around this slope.


0

@Macro ha avuto un'ottima risposta.

Il valore stimato della pendenza non indica da solo la forza della relazione. L'intensità della relazione dipende dalla dimensione della varianza dell'errore e dall'intervallo del predittore. Inoltre, un significativo valore pp non ti dice necessariamente che esiste una relazione forte; il valore pp sta semplicemente verificando se la pendenza è esattamente 0.

Voglio solo aggiungere un esempio numerico per mostrare come appare avere un caso OP descritto.

  • Basso R2
  • Significativo sul valore p
  • Pendio vicino a 1.0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

enter image description here

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.