Perché il mio R-quadrato è così basso quando le mie statistiche t sono così grandi?


17

Ho eseguito una regressione con 4 variabili, e tutte sono statisticamente significative, con valori T e (dico perché sembra irrilevante includere i decimali) che sono molto alti e chiaramente significativi. Ma poi è solo .2284. Sto fraintendendo i valori t qui per indicare qualcosa che non sono? La mia prima reazione nel vedere i valori di t è stata che sarebbe stato piuttosto elevato, ma forse quello è un alto ?7,9,2631R2R2R2


1
Scommetto che la tua è moderatamente grande, giusto? n
Glen_b

@Glen_b sì, intorno al 6000.
Kyle,

10
Quindi la grande statistica associata alla piccola R 2 è del tutto insignificante. Poiché gli errori standard diminuiscono di 1 / tR2 ,irapportitaumenteranno di1/nt , mentreR2tenderà a rimanere costante all'aumentare din. Perché ti importa cos'è l'R2? Perché ti importa quali sono i rapporti t? nR2nR2
Glen_b -Restate Monica,

Risposte:


45

I valori t e R2 sono usati per giudicare cose molto diverse. I valori t sono usati per giudicare l'accuratezza della tua stima dei βi , ma R2 misura la quantità di variazione nella variabile di risposta spiegata dalle tue covariate. Supponiamo che stiate stimando un modello di regressione con n osservazioni,

Yi=β0+β1X1i+...+βkXki+ϵi

dove ϵii.i.dN(0,σ2) , i=1,...,n .

Grande t -Valori (in valore assoluto) si porterà a rifiutare l'ipotesi nulla che βi=0 . Ciò significa che puoi essere sicuro di aver stimato correttamente il segno del coefficiente. Inoltre, se |t|> 4 e hai n>5 , quindi 0 non è in un intervallo di confidenza del 99% per il coefficiente. Il valore t per un coefficiente βi è la differenza tra la stima βi^ e 0 normalizzata dall'errore standard se{βi^} .

t=βi^se{βi^}

che è semplicemente la stima divisa per una misura della sua variabilità. Se si dispone di un set di dati abbastanza grande, si avranno sempre valori t statisticamente significativi (grandi) . Ciò non significa necessariamente che le covariate spieghino gran parte della variazione nella variabile di risposta.

Come accennato da @Stat, R2 misura la quantità di variazione nella variabile di risposta spiegata dalle variabili dipendenti. Per ulteriori informazioni su R2 , vai su Wikipedia . Nel tuo caso, sembra che tu abbia un set di dati abbastanza grande da stimare con precisione i βi , ma le tue covariate fanno un cattivo lavoro di spiegazione e \ o previsione dei valori di risposta.


1
(+1) It is clear from the very beginning that this is a well considered, informative explanation.
whuber

Nice answer. I find the terms "practical significance" and "statistical significance" to often be helpful in thinking about this issue.
Aaron - Reinstate Monica

3
There is also a simple transformation between the two statistics: R2=t2t2+df
Jeff

7

To say the same thing as caburke but more simply, you are very confidant that the average response caused by your variables is not zero. But there are lots of other things that you don't have in the regression that cause the response to jump around.


0

Could it be that although your predictors are trending linearly in terms of your response variable (slope is significantly different from zero), which makes the t values significant, but the R squared is low because the errors are large, which means that the variability in your data is large and thus your regression model is not a good fit (predictions aren't as accurate)?

Just my 2 cents.

Perhaps this post can help: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p-values


0

Several answers given are close but still wrong.

"The t-values are used to judge the accurary of your estimate of the βi's" is the one that concerns me the most.

The T-value is merely an indication of the likelihood of random occurrence. Large means unlikely. Small means very likely. Positive and Negative don't matter to the likelihood interpretation.

"R2 measures the amount of variation in your response variable explained by your covariates" is correct.

(I would have commented but am not allowed by this platform yet.)


2
You seem to write about t-values as if they were p-values.
whuber

-4

The only way to deal with a small R squared, check the following:

  1. Is your sample size large enough? If yes, do step 2. but if no, increase your sample size.
  2. How many covariates did you use for your model estimation? If more than 1 as in your case, deal with the problem of multicolinearity of the covariates or simply, run the regression again and this time without the constant which is known as beta zero.

  3. However, if the problem still persists, then do a stepwise regression and select the model with a high R squared. But which I cannot recommend to you because it brings about bias in the covariates

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.